{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 74.64179104477611,
  "eval_steps": 500,
  "global_step": 10000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "clip_ratio": 0.0,
      "completion_length": 83.3888931274414,
      "epoch": 0.007462686567164179,
      "grad_norm": 6.353862383055664,
      "learning_rate": 3.7313432835820896e-10,
      "loss": -0.105,
      "reward": 0.6388888955116272,
      "reward_std": 0.52105313539505,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/format_reward": 0.472222238779068,
      "step": 1
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 85.86111450195312,
      "epoch": 0.014925373134328358,
      "grad_norm": 5.837558697561963,
      "learning_rate": 7.462686567164179e-10,
      "loss": -0.2034,
      "reward": 1.4722222089767456,
      "reward_std": 0.5546894073486328,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 0.6388888955116272,
      "step": 2
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 83.33333587646484,
      "epoch": 0.022388059701492536,
      "grad_norm": 4.4150369885689615,
      "learning_rate": 1.1194029850746268e-09,
      "loss": -0.0658,
      "reward": 1.2777777910232544,
      "reward_std": 0.337197482585907,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 0.6666666865348816,
      "step": 3
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 83.8888931274414,
      "epoch": 0.029850746268656716,
      "grad_norm": 14.32967676584944,
      "learning_rate": 1.4925373134328358e-09,
      "loss": -0.0175,
      "reward": 1.1111111640930176,
      "reward_std": 0.5656022429466248,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 0.6388888955116272,
      "step": 4
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 72.25,
      "epoch": 0.03731343283582089,
      "grad_norm": 5.203971152763986,
      "learning_rate": 1.8656716417910446e-09,
      "loss": -0.1223,
      "reward": 1.0833333730697632,
      "reward_std": 0.4060778021812439,
      "rewards/accuracy_reward": 0.3055555522441864,
      "rewards/format_reward": 0.7777777910232544,
      "step": 5
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.58333587646484,
      "epoch": 0.04477611940298507,
      "grad_norm": 4.631235948894058,
      "learning_rate": 2.2388059701492537e-09,
      "loss": -0.1362,
      "reward": 1.3055555820465088,
      "reward_std": 0.6493532061576843,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 0.7777777910232544,
      "step": 6
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 76.86111450195312,
      "epoch": 0.05223880597014925,
      "grad_norm": 10.753285497917945,
      "learning_rate": 2.6119402985074627e-09,
      "loss": -0.0993,
      "reward": 1.1666666269302368,
      "reward_std": 0.5766086578369141,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 0.7222222089767456,
      "step": 7
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 86.11111450195312,
      "epoch": 0.05970149253731343,
      "grad_norm": 7.68029860300986,
      "learning_rate": 2.9850746268656717e-09,
      "loss": -0.0525,
      "reward": 1.138888955116272,
      "reward_std": 0.5311775803565979,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 0.5833333134651184,
      "step": 8
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 90.61111450195312,
      "epoch": 0.06716417910447761,
      "grad_norm": 4.970963761175086,
      "learning_rate": 3.3582089552238803e-09,
      "loss": -0.0448,
      "reward": 1.3611111640930176,
      "reward_std": 0.4702278673648834,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 0.7777777910232544,
      "step": 9
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 87.41666412353516,
      "epoch": 0.07462686567164178,
      "grad_norm": 4.370780690544987,
      "learning_rate": 3.731343283582089e-09,
      "loss": -0.0674,
      "reward": 1.138888955116272,
      "reward_std": 0.4905393421649933,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 0.6111111044883728,
      "step": 10
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 80.94444274902344,
      "epoch": 0.08208955223880597,
      "grad_norm": 14.121391611796625,
      "learning_rate": 4.104477611940298e-09,
      "loss": -0.0508,
      "reward": 1.2222222089767456,
      "reward_std": 0.488205224275589,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 0.7777777910232544,
      "step": 11
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 85.8888931274414,
      "epoch": 0.08955223880597014,
      "grad_norm": 6.58903083553555,
      "learning_rate": 4.477611940298507e-09,
      "loss": -0.1341,
      "reward": 1.4444444179534912,
      "reward_std": 0.6845194697380066,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 0.7222222089767456,
      "step": 12
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 91.33333587646484,
      "epoch": 0.09701492537313433,
      "grad_norm": 5.606972041529929,
      "learning_rate": 4.850746268656716e-09,
      "loss": -0.0827,
      "reward": 1.3055555820465088,
      "reward_std": 0.34192779660224915,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 0.7777777910232544,
      "step": 13
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.3888931274414,
      "epoch": 0.1044776119402985,
      "grad_norm": 7.16603187490738,
      "learning_rate": 5.223880597014925e-09,
      "loss": -0.0652,
      "reward": 1.4166666269302368,
      "reward_std": 0.3888888955116272,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 0.7777777910232544,
      "step": 14
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 84.97222137451172,
      "epoch": 0.11194029850746269,
      "grad_norm": 13.673300151545334,
      "learning_rate": 5.5970149253731335e-09,
      "loss": -0.1462,
      "reward": 1.1944444179534912,
      "reward_std": 0.40994200110435486,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 0.6666666865348816,
      "step": 15
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 89.41666412353516,
      "epoch": 0.11940298507462686,
      "grad_norm": 7.534098945464047,
      "learning_rate": 5.970149253731343e-09,
      "loss": -0.1048,
      "reward": 1.2222222089767456,
      "reward_std": 0.603180468082428,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 0.7222222089767456,
      "step": 16
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 77.61111450195312,
      "epoch": 0.12686567164179105,
      "grad_norm": 8.700688293715201,
      "learning_rate": 6.3432835820895516e-09,
      "loss": -0.0996,
      "reward": 1.3055555820465088,
      "reward_std": 0.6587360501289368,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 0.7222222089767456,
      "step": 17
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 84.52777862548828,
      "epoch": 0.13432835820895522,
      "grad_norm": 8.865386622420173,
      "learning_rate": 6.7164179104477606e-09,
      "loss": -0.1216,
      "reward": 1.4722222089767456,
      "reward_std": 0.5852031707763672,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 0.8055555820465088,
      "step": 18
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 89.11111450195312,
      "epoch": 0.1417910447761194,
      "grad_norm": 10.530648825326914,
      "learning_rate": 7.08955223880597e-09,
      "loss": -0.0983,
      "reward": 1.3055555820465088,
      "reward_std": 0.567132294178009,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 0.6666666865348816,
      "step": 19
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 76.33333587646484,
      "epoch": 0.14925373134328357,
      "grad_norm": 11.156286299448498,
      "learning_rate": 7.462686567164179e-09,
      "loss": -0.0834,
      "reward": 1.1944444179534912,
      "reward_std": 0.52105313539505,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 0.6388888955116272,
      "step": 20
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 87.3888931274414,
      "epoch": 0.15671641791044777,
      "grad_norm": 9.64575686995294,
      "learning_rate": 7.835820895522388e-09,
      "loss": -0.035,
      "reward": 1.1944444179534912,
      "reward_std": 0.7909002304077148,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 0.5555555820465088,
      "step": 21
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 81.3888931274414,
      "epoch": 0.16417910447761194,
      "grad_norm": 5.422459233927663,
      "learning_rate": 8.208955223880597e-09,
      "loss": -0.1177,
      "reward": 1.138888955116272,
      "reward_std": 0.3591167628765106,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 0.694444477558136,
      "step": 22
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 78.22222137451172,
      "epoch": 0.17164179104477612,
      "grad_norm": 6.0269496246676635,
      "learning_rate": 8.582089552238806e-09,
      "loss": -0.1594,
      "reward": 1.3333333730697632,
      "reward_std": 0.5594197511672974,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 0.694444477558136,
      "step": 23
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 84.3888931274414,
      "epoch": 0.1791044776119403,
      "grad_norm": 6.386614161340993,
      "learning_rate": 8.955223880597015e-09,
      "loss": -0.0496,
      "reward": 1.138888955116272,
      "reward_std": 0.6735288500785828,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 0.6666666865348816,
      "step": 24
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 110.19444274902344,
      "epoch": 0.1865671641791045,
      "grad_norm": 4.049807473459983,
      "learning_rate": 9.328358208955222e-09,
      "loss": 0.03,
      "reward": 1.1666666269302368,
      "reward_std": 0.45843306183815,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 0.7222222089767456,
      "step": 25
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 101.5,
      "epoch": 0.19402985074626866,
      "grad_norm": 4.804550206911793,
      "learning_rate": 9.701492537313433e-09,
      "loss": -0.152,
      "reward": 1.3333333730697632,
      "reward_std": 0.5319660305976868,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 0.7777777910232544,
      "step": 26
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 78.86111450195312,
      "epoch": 0.20149253731343283,
      "grad_norm": 6.444699335207226,
      "learning_rate": 1.0074626865671642e-08,
      "loss": -0.0533,
      "reward": 1.4722222089767456,
      "reward_std": 0.61883944272995,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 0.75,
      "step": 27
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 75.25,
      "epoch": 0.208955223880597,
      "grad_norm": 14.146202626583419,
      "learning_rate": 1.044776119402985e-08,
      "loss": -0.163,
      "reward": 1.2777777910232544,
      "reward_std": 0.4616333544254303,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 0.7222222089767456,
      "step": 28
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 107.19444274902344,
      "epoch": 0.21641791044776118,
      "grad_norm": 6.096184115277257,
      "learning_rate": 1.082089552238806e-08,
      "loss": -0.0318,
      "reward": 1.1666666269302368,
      "reward_std": 0.414672315120697,
      "rewards/accuracy_reward": 0.2777777910232544,
      "rewards/format_reward": 0.8888888955116272,
      "step": 29
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 82.02777862548828,
      "epoch": 0.22388059701492538,
      "grad_norm": 6.827363191922421,
      "learning_rate": 1.1194029850746267e-08,
      "loss": -0.0677,
      "reward": 1.5277777910232544,
      "reward_std": 0.3591167628765106,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 0.8611111044883728,
      "step": 30
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 85.22222137451172,
      "epoch": 0.23134328358208955,
      "grad_norm": 5.3984578016978,
      "learning_rate": 1.1567164179104476e-08,
      "loss": -0.125,
      "reward": 1.1944444179534912,
      "reward_std": 0.6548718214035034,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 0.5555555820465088,
      "step": 31
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 81.36111450195312,
      "epoch": 0.23880597014925373,
      "grad_norm": 10.599198495399644,
      "learning_rate": 1.1940298507462687e-08,
      "loss": -0.1032,
      "reward": 1.2222222089767456,
      "reward_std": 0.5124586224555969,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 0.694444477558136,
      "step": 32
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 90.22222137451172,
      "epoch": 0.2462686567164179,
      "grad_norm": 4.57456980278698,
      "learning_rate": 1.2313432835820896e-08,
      "loss": -0.1124,
      "reward": 1.0,
      "reward_std": 0.6641302108764648,
      "rewards/accuracy_reward": 0.3055555522441864,
      "rewards/format_reward": 0.694444477558136,
      "step": 33
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.22222137451172,
      "epoch": 0.2537313432835821,
      "grad_norm": 7.161268536339928,
      "learning_rate": 1.2686567164179103e-08,
      "loss": -0.1176,
      "reward": 1.3333333730697632,
      "reward_std": 0.6102449893951416,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 0.7222222089767456,
      "step": 34
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.66666412353516,
      "epoch": 0.26119402985074625,
      "grad_norm": 17.613256403413843,
      "learning_rate": 1.3059701492537312e-08,
      "loss": -0.0628,
      "reward": 1.388888955116272,
      "reward_std": 0.4788222908973694,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 0.7777777910232544,
      "step": 35
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 75.94444274902344,
      "epoch": 0.26865671641791045,
      "grad_norm": 13.67826364434991,
      "learning_rate": 1.3432835820895521e-08,
      "loss": -0.0555,
      "reward": 1.138888955116272,
      "reward_std": 0.4592214822769165,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 0.6388888955116272,
      "step": 36
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 87.05555725097656,
      "epoch": 0.27611940298507465,
      "grad_norm": 7.840919334252008,
      "learning_rate": 1.3805970149253732e-08,
      "loss": -0.0419,
      "reward": 1.4444444179534912,
      "reward_std": 0.6141091585159302,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 0.7777777910232544,
      "step": 37
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 84.0,
      "epoch": 0.2835820895522388,
      "grad_norm": 8.953275548053105,
      "learning_rate": 1.417910447761194e-08,
      "loss": -0.0562,
      "reward": 1.3055555820465088,
      "reward_std": 0.6117749810218811,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 0.75,
      "step": 38
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 75.72222137451172,
      "epoch": 0.291044776119403,
      "grad_norm": 4.8992004567205365,
      "learning_rate": 1.4552238805970148e-08,
      "loss": -0.0719,
      "reward": 1.3055555820465088,
      "reward_std": 0.5171889066696167,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 0.8055555820465088,
      "step": 39
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 83.08333587646484,
      "epoch": 0.29850746268656714,
      "grad_norm": 10.103471943746996,
      "learning_rate": 1.4925373134328357e-08,
      "loss": -0.084,
      "reward": 1.3055555820465088,
      "reward_std": 0.45303890109062195,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 0.6666666865348816,
      "step": 40
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 82.1388931274414,
      "epoch": 0.30597014925373134,
      "grad_norm": 19.265951147775503,
      "learning_rate": 1.5298507462686568e-08,
      "loss": -0.1311,
      "reward": 1.138888955116272,
      "reward_std": 0.6493531465530396,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 0.6111111044883728,
      "step": 41
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 82.69444274902344,
      "epoch": 0.31343283582089554,
      "grad_norm": 4.982340344913069,
      "learning_rate": 1.5671641791044775e-08,
      "loss": -0.0595,
      "reward": 1.2777777910232544,
      "reward_std": 0.695448100566864,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 0.6666666865348816,
      "step": 42
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 100.44444274902344,
      "epoch": 0.3208955223880597,
      "grad_norm": 6.419561265360203,
      "learning_rate": 1.6044776119402983e-08,
      "loss": -0.08,
      "reward": 1.2777777910232544,
      "reward_std": 0.5734083652496338,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 0.7777777910232544,
      "step": 43
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 79.94444274902344,
      "epoch": 0.3283582089552239,
      "grad_norm": 7.526965936660296,
      "learning_rate": 1.6417910447761193e-08,
      "loss": -0.1255,
      "reward": 1.25,
      "reward_std": 0.8339971899986267,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 0.5833333134651184,
      "step": 44
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 87.02777862548828,
      "epoch": 0.3358208955223881,
      "grad_norm": 5.7792754714869945,
      "learning_rate": 1.67910447761194e-08,
      "loss": -0.1133,
      "reward": 1.0555555820465088,
      "reward_std": 0.6102449893951416,
      "rewards/accuracy_reward": 0.3888888955116272,
      "rewards/format_reward": 0.6666666865348816,
      "step": 45
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 97.11111450195312,
      "epoch": 0.34328358208955223,
      "grad_norm": 4.697019468638021,
      "learning_rate": 1.716417910447761e-08,
      "loss": -0.0057,
      "reward": 1.25,
      "reward_std": 0.5875215530395508,
      "rewards/accuracy_reward": 0.4166666567325592,
      "rewards/format_reward": 0.8333333134651184,
      "step": 46
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 95.72222137451172,
      "epoch": 0.35074626865671643,
      "grad_norm": 3.779769839743702,
      "learning_rate": 1.7537313432835822e-08,
      "loss": -0.0934,
      "reward": 1.4166666269302368,
      "reward_std": 0.4435782730579376,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 0.7222222089767456,
      "step": 47
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 79.83333587646484,
      "epoch": 0.3582089552238806,
      "grad_norm": 8.470962054265613,
      "learning_rate": 1.791044776119403e-08,
      "loss": -0.0873,
      "reward": 1.0,
      "reward_std": 0.6579476594924927,
      "rewards/accuracy_reward": 0.3611111044883728,
      "rewards/format_reward": 0.6388888955116272,
      "step": 48
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 79.94444274902344,
      "epoch": 0.3656716417910448,
      "grad_norm": 19.68139141744089,
      "learning_rate": 1.828358208955224e-08,
      "loss": -0.103,
      "reward": 1.388888955116272,
      "reward_std": 0.5766086578369141,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 0.694444477558136,
      "step": 49
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 76.41666412353516,
      "epoch": 0.373134328358209,
      "grad_norm": 17.711037576011996,
      "learning_rate": 1.8656716417910444e-08,
      "loss": -0.0291,
      "reward": 1.3611111640930176,
      "reward_std": 0.6079108119010925,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 0.6388888955116272,
      "step": 50
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 87.33333587646484,
      "epoch": 0.3805970149253731,
      "grad_norm": 7.085113566370658,
      "learning_rate": 1.9029850746268655e-08,
      "loss": -0.0078,
      "reward": 1.2777777910232544,
      "reward_std": 0.7213560938835144,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 0.75,
      "step": 51
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 94.83333587646484,
      "epoch": 0.3880597014925373,
      "grad_norm": 5.3273026547530336,
      "learning_rate": 1.9402985074626865e-08,
      "loss": -0.0534,
      "reward": 1.3611111640930176,
      "reward_std": 0.49679967761039734,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 0.8055555820465088,
      "step": 52
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 82.19444274902344,
      "epoch": 0.39552238805970147,
      "grad_norm": 21.865954676957873,
      "learning_rate": 1.9776119402985073e-08,
      "loss": -0.1019,
      "reward": 1.138888955116272,
      "reward_std": 0.6046326756477356,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 0.694444477558136,
      "step": 53
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 98.25,
      "epoch": 0.40298507462686567,
      "grad_norm": 4.605779486641561,
      "learning_rate": 2.0149253731343283e-08,
      "loss": -0.0475,
      "reward": 1.2222222089767456,
      "reward_std": 0.4616333544254303,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 0.6666666865348816,
      "step": 54
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 78.25,
      "epoch": 0.41044776119402987,
      "grad_norm": 4.726962195900886,
      "learning_rate": 2.052238805970149e-08,
      "loss": -0.0934,
      "reward": 1.3055555820465088,
      "reward_std": 0.5382420420646667,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 0.6388888955116272,
      "step": 55
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.75,
      "epoch": 0.417910447761194,
      "grad_norm": 8.071603873628039,
      "learning_rate": 2.08955223880597e-08,
      "loss": -0.1145,
      "reward": 1.3611111640930176,
      "reward_std": 0.7166257500648499,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 0.694444477558136,
      "step": 56
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 101.1388931274414,
      "epoch": 0.4253731343283582,
      "grad_norm": 5.197037006229436,
      "learning_rate": 2.1268656716417912e-08,
      "loss": -0.0963,
      "reward": 1.3333333730697632,
      "reward_std": 0.5186411738395691,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 0.8055555820465088,
      "step": 57
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 89.11111450195312,
      "epoch": 0.43283582089552236,
      "grad_norm": 4.699788352518233,
      "learning_rate": 2.164179104477612e-08,
      "loss": -0.0655,
      "reward": 1.1944444179534912,
      "reward_std": 0.6931139230728149,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 0.7222222089767456,
      "step": 58
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 87.69444274902344,
      "epoch": 0.44029850746268656,
      "grad_norm": 5.034941517239116,
      "learning_rate": 2.2014925373134327e-08,
      "loss": -0.0313,
      "reward": 1.2222222089767456,
      "reward_std": 0.4716801047325134,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 0.75,
      "step": 59
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 72.80555725097656,
      "epoch": 0.44776119402985076,
      "grad_norm": 10.059401833507106,
      "learning_rate": 2.2388059701492534e-08,
      "loss": -0.1428,
      "reward": 1.1944444179534912,
      "reward_std": 0.7228860259056091,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 0.75,
      "step": 60
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 75.30555725097656,
      "epoch": 0.4552238805970149,
      "grad_norm": 8.133056453142702,
      "learning_rate": 2.2761194029850745e-08,
      "loss": -0.2148,
      "reward": 0.9166666865348816,
      "reward_std": 0.5985279083251953,
      "rewards/accuracy_reward": 0.2777777910232544,
      "rewards/format_reward": 0.6388888955116272,
      "step": 61
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 94.55555725097656,
      "epoch": 0.4626865671641791,
      "grad_norm": 4.972943242358602,
      "learning_rate": 2.3134328358208952e-08,
      "loss": -0.0935,
      "reward": 1.3055555820465088,
      "reward_std": 0.5139886140823364,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 0.7777777910232544,
      "step": 62
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 89.6388931274414,
      "epoch": 0.4701492537313433,
      "grad_norm": 5.155677802126388,
      "learning_rate": 2.3507462686567163e-08,
      "loss": -0.0836,
      "reward": 1.0277777910232544,
      "reward_std": 0.5812612175941467,
      "rewards/accuracy_reward": 0.2777777910232544,
      "rewards/format_reward": 0.75,
      "step": 63
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.5,
      "epoch": 0.47761194029850745,
      "grad_norm": 9.564493337878197,
      "learning_rate": 2.3880597014925373e-08,
      "loss": -0.08,
      "reward": 1.25,
      "reward_std": 0.5077283382415771,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 0.75,
      "step": 64
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 93.55555725097656,
      "epoch": 0.48507462686567165,
      "grad_norm": 6.441415049708509,
      "learning_rate": 2.425373134328358e-08,
      "loss": -0.0972,
      "reward": 1.3611111640930176,
      "reward_std": 0.5382420420646667,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 0.7777777910232544,
      "step": 65
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 85.58333587646484,
      "epoch": 0.4925373134328358,
      "grad_norm": 5.936374003001238,
      "learning_rate": 2.462686567164179e-08,
      "loss": -0.1915,
      "reward": 1.1944444179534912,
      "reward_std": 0.587521493434906,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 0.6666666865348816,
      "step": 66
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 80.08333587646484,
      "epoch": 0.5,
      "grad_norm": 6.704632417130272,
      "learning_rate": 2.5e-08,
      "loss": -0.1436,
      "reward": 0.944444477558136,
      "reward_std": 0.7110912799835205,
      "rewards/accuracy_reward": 0.3888888955116272,
      "rewards/format_reward": 0.5555555820465088,
      "step": 67
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 73.19444274902344,
      "epoch": 0.5074626865671642,
      "grad_norm": 9.558015617061546,
      "learning_rate": 2.5373134328358206e-08,
      "loss": -0.1811,
      "reward": 1.2222222089767456,
      "reward_std": 0.6743949055671692,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 0.7222222089767456,
      "step": 68
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 89.08333587646484,
      "epoch": 0.5149253731343284,
      "grad_norm": 4.814444038984868,
      "learning_rate": 2.5746268656716417e-08,
      "loss": -0.0473,
      "reward": 1.2777777910232544,
      "reward_std": 0.38415855169296265,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 0.7777777910232544,
      "step": 69
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.6388931274414,
      "epoch": 0.5223880597014925,
      "grad_norm": 6.720716887732134,
      "learning_rate": 2.6119402985074624e-08,
      "loss": -0.1863,
      "reward": 1.3055555820465088,
      "reward_std": 0.6079108119010925,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 0.6388888955116272,
      "step": 70
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 78.44444274902344,
      "epoch": 0.5298507462686567,
      "grad_norm": 12.01141140774568,
      "learning_rate": 2.6492537313432835e-08,
      "loss": -0.0437,
      "reward": 1.138888955116272,
      "reward_std": 0.5139886140823364,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 0.694444477558136,
      "step": 71
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 91.8888931274414,
      "epoch": 0.5373134328358209,
      "grad_norm": 5.926108409498644,
      "learning_rate": 2.6865671641791042e-08,
      "loss": -0.068,
      "reward": 1.4444444179534912,
      "reward_std": 0.3371974527835846,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 0.8611111044883728,
      "step": 72
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 80.16666412353516,
      "epoch": 0.5447761194029851,
      "grad_norm": 12.641052217808527,
      "learning_rate": 2.7238805970149253e-08,
      "loss": -0.1249,
      "reward": 1.0833333730697632,
      "reward_std": 0.49679967761039734,
      "rewards/accuracy_reward": 0.3888888955116272,
      "rewards/format_reward": 0.694444477558136,
      "step": 73
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 75.61111450195312,
      "epoch": 0.5522388059701493,
      "grad_norm": 6.1630448712179025,
      "learning_rate": 2.7611940298507464e-08,
      "loss": -0.0748,
      "reward": 1.0833333730697632,
      "reward_std": 0.6759249567985535,
      "rewards/accuracy_reward": 0.3611111044883728,
      "rewards/format_reward": 0.7222222089767456,
      "step": 74
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 78.5,
      "epoch": 0.5597014925373134,
      "grad_norm": 7.027007768587421,
      "learning_rate": 2.798507462686567e-08,
      "loss": -0.1637,
      "reward": 0.9722222089767456,
      "reward_std": 0.7368746995925903,
      "rewards/accuracy_reward": 0.3611111044883728,
      "rewards/format_reward": 0.6111111044883728,
      "step": 75
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 94.75,
      "epoch": 0.5671641791044776,
      "grad_norm": 5.4693388262238685,
      "learning_rate": 2.835820895522388e-08,
      "loss": -0.0741,
      "reward": 1.2222222089767456,
      "reward_std": 0.6540057063102722,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 0.6666666865348816,
      "step": 76
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 93.72222137451172,
      "epoch": 0.5746268656716418,
      "grad_norm": 9.793180152910407,
      "learning_rate": 2.8731343283582086e-08,
      "loss": 0.0244,
      "reward": 1.2222222089767456,
      "reward_std": 0.3942830264568329,
      "rewards/accuracy_reward": 0.4166666567325592,
      "rewards/format_reward": 0.8055555820465088,
      "step": 77
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 83.91666412353516,
      "epoch": 0.582089552238806,
      "grad_norm": 12.70508632077927,
      "learning_rate": 2.9104477611940296e-08,
      "loss": -0.0621,
      "reward": 1.0555555820465088,
      "reward_std": 0.5993162989616394,
      "rewards/accuracy_reward": 0.2777777910232544,
      "rewards/format_reward": 0.7777777910232544,
      "step": 78
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 88.02777862548828,
      "epoch": 0.5895522388059702,
      "grad_norm": 5.853275257216965,
      "learning_rate": 2.9477611940298504e-08,
      "loss": -0.069,
      "reward": 1.3611111640930176,
      "reward_std": 0.38568857312202454,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 0.7222222089767456,
      "step": 79
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 89.22222137451172,
      "epoch": 0.5970149253731343,
      "grad_norm": 7.472930552924219,
      "learning_rate": 2.9850746268656714e-08,
      "loss": -0.1076,
      "reward": 1.25,
      "reward_std": 0.6149752736091614,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 0.7777777910232544,
      "step": 80
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 91.61111450195312,
      "epoch": 0.6044776119402985,
      "grad_norm": 8.338927681680342,
      "learning_rate": 3.022388059701492e-08,
      "loss": 0.0141,
      "reward": 1.0833333730697632,
      "reward_std": 0.6360284090042114,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 0.5833333134651184,
      "step": 81
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 75.19444274902344,
      "epoch": 0.6119402985074627,
      "grad_norm": 14.48163543083577,
      "learning_rate": 3.0597014925373136e-08,
      "loss": -0.1131,
      "reward": 1.3055555820465088,
      "reward_std": 0.5077283382415771,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 0.6666666865348816,
      "step": 82
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 91.3888931274414,
      "epoch": 0.6194029850746269,
      "grad_norm": 4.118093413826323,
      "learning_rate": 3.097014925373134e-08,
      "loss": -0.0186,
      "reward": 1.5277777910232544,
      "reward_std": 0.4060778319835663,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 0.7777777910232544,
      "step": 83
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 79.66666412353516,
      "epoch": 0.6268656716417911,
      "grad_norm": 5.425403556448809,
      "learning_rate": 3.134328358208955e-08,
      "loss": -0.1169,
      "reward": 1.2222222089767456,
      "reward_std": 0.47882235050201416,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 0.7777777910232544,
      "step": 84
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 83.77777862548828,
      "epoch": 0.6343283582089553,
      "grad_norm": 11.424616264228245,
      "learning_rate": 3.1716417910447764e-08,
      "loss": -0.0715,
      "reward": 1.3333333730697632,
      "reward_std": 0.6915839314460754,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 0.75,
      "step": 85
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 97.27777862548828,
      "epoch": 0.6417910447761194,
      "grad_norm": 3.175145964934109,
      "learning_rate": 3.2089552238805965e-08,
      "loss": -0.0386,
      "reward": 1.6111111640930176,
      "reward_std": 0.2902364134788513,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 0.8888888955116272,
      "step": 86
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 83.61111450195312,
      "epoch": 0.6492537313432836,
      "grad_norm": 14.357998085480462,
      "learning_rate": 3.246268656716418e-08,
      "loss": -0.0823,
      "reward": 1.2222222089767456,
      "reward_std": 0.35670483112335205,
      "rewards/accuracy_reward": 0.4166666567325592,
      "rewards/format_reward": 0.8055555820465088,
      "step": 87
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 79.16666412353516,
      "epoch": 0.6567164179104478,
      "grad_norm": 3.8948956409524733,
      "learning_rate": 3.2835820895522386e-08,
      "loss": -0.0178,
      "reward": 1.4722222089767456,
      "reward_std": 0.4592214822769165,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 0.75,
      "step": 88
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 82.6388931274414,
      "epoch": 0.664179104477612,
      "grad_norm": 16.85881500396798,
      "learning_rate": 3.32089552238806e-08,
      "loss": -0.0957,
      "reward": 1.3055555820465088,
      "reward_std": 0.37942826747894287,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 0.8055555820465088,
      "step": 89
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 77.1388931274414,
      "epoch": 0.6716417910447762,
      "grad_norm": 4.448090719072013,
      "learning_rate": 3.35820895522388e-08,
      "loss": -0.1166,
      "reward": 1.4722222089767456,
      "reward_std": 0.4740920066833496,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 0.75,
      "step": 90
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 99.66666412353516,
      "epoch": 0.6791044776119403,
      "grad_norm": 4.52962847303103,
      "learning_rate": 3.395522388059701e-08,
      "loss": -0.0958,
      "reward": 1.3055555820465088,
      "reward_std": 0.2949667274951935,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 0.8333333134651184,
      "step": 91
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 91.72222137451172,
      "epoch": 0.6865671641791045,
      "grad_norm": 31.814337126735417,
      "learning_rate": 3.432835820895522e-08,
      "loss": -0.0916,
      "reward": 1.0555555820465088,
      "reward_std": 0.4920693635940552,
      "rewards/accuracy_reward": 0.4166666567325592,
      "rewards/format_reward": 0.6388888955116272,
      "step": 92
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 84.6388931274414,
      "epoch": 0.6940298507462687,
      "grad_norm": 6.896424561355691,
      "learning_rate": 3.470149253731343e-08,
      "loss": -0.0557,
      "reward": 1.1944444179534912,
      "reward_std": 0.7798938155174255,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 0.7222222089767456,
      "step": 93
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 75.66666412353516,
      "epoch": 0.7014925373134329,
      "grad_norm": 4.253373348581949,
      "learning_rate": 3.5074626865671644e-08,
      "loss": -0.0721,
      "reward": 1.2777777910232544,
      "reward_std": 0.3505222797393799,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 0.8333333134651184,
      "step": 94
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 89.05555725097656,
      "epoch": 0.7089552238805971,
      "grad_norm": 2.1614692087114005,
      "learning_rate": 3.5447761194029845e-08,
      "loss": -0.0504,
      "reward": 1.75,
      "reward_std": 0.18385560810565948,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 0.9166666865348816,
      "step": 95
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 81.94444274902344,
      "epoch": 0.7164179104477612,
      "grad_norm": 25.469034210705274,
      "learning_rate": 3.582089552238806e-08,
      "loss": -0.1384,
      "reward": 1.2777777910232544,
      "reward_std": 0.6197055578231812,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 0.7222222089767456,
      "step": 96
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 76.3888931274414,
      "epoch": 0.7238805970149254,
      "grad_norm": 6.334005654474487,
      "learning_rate": 3.6194029850746266e-08,
      "loss": -0.0338,
      "reward": 1.0555555820465088,
      "reward_std": 0.337197482585907,
      "rewards/accuracy_reward": 0.25,
      "rewards/format_reward": 0.8055555820465088,
      "step": 97
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 97.6388931274414,
      "epoch": 0.7313432835820896,
      "grad_norm": 7.645057511651933,
      "learning_rate": 3.656716417910448e-08,
      "loss": -0.2021,
      "reward": 1.1666666269302368,
      "reward_std": 0.5656023025512695,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 0.694444477558136,
      "step": 98
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 83.58333587646484,
      "epoch": 0.7388059701492538,
      "grad_norm": 6.200201224780698,
      "learning_rate": 3.694029850746269e-08,
      "loss": 0.0019,
      "reward": 0.9166666865348816,
      "reward_std": 0.661936342716217,
      "rewards/accuracy_reward": 0.3333333432674408,
      "rewards/format_reward": 0.5833333134651184,
      "step": 99
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 88.22222137451172,
      "epoch": 0.746268656716418,
      "grad_norm": 17.24991553807049,
      "learning_rate": 3.731343283582089e-08,
      "loss": -0.0873,
      "reward": 1.388888955116272,
      "reward_std": 0.4748804271221161,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 0.8888888955116272,
      "step": 100
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 78.69444274902344,
      "epoch": 0.753731343283582,
      "grad_norm": 5.611800584836467,
      "learning_rate": 3.76865671641791e-08,
      "loss": -0.0363,
      "reward": 1.3333333730697632,
      "reward_std": 0.5428946614265442,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 0.8055555820465088,
      "step": 101
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.77777862548828,
      "epoch": 0.7611940298507462,
      "grad_norm": 12.477471054757185,
      "learning_rate": 3.805970149253731e-08,
      "loss": -0.0196,
      "reward": 1.0277777910232544,
      "reward_std": 0.5171889066696167,
      "rewards/accuracy_reward": 0.3611111044883728,
      "rewards/format_reward": 0.6666666865348816,
      "step": 102
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 93.22222137451172,
      "epoch": 0.7686567164179104,
      "grad_norm": 4.2812120550418955,
      "learning_rate": 3.8432835820895523e-08,
      "loss": -0.0608,
      "reward": 1.138888955116272,
      "reward_std": 0.5038641095161438,
      "rewards/accuracy_reward": 0.3333333432674408,
      "rewards/format_reward": 0.8055555820465088,
      "step": 103
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 83.55555725097656,
      "epoch": 0.7761194029850746,
      "grad_norm": 5.577632025903617,
      "learning_rate": 3.880597014925373e-08,
      "loss": 0.0064,
      "reward": 1.638888955116272,
      "reward_std": 0.34192779660224915,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 0.8888888955116272,
      "step": 104
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 93.80555725097656,
      "epoch": 0.7835820895522388,
      "grad_norm": 6.506668336090265,
      "learning_rate": 3.917910447761194e-08,
      "loss": -0.0787,
      "reward": 1.1666666269302368,
      "reward_std": 0.4349837899208069,
      "rewards/accuracy_reward": 0.3888888955116272,
      "rewards/format_reward": 0.7777777910232544,
      "step": 105
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 93.05555725097656,
      "epoch": 0.7910447761194029,
      "grad_norm": 42.769713559174136,
      "learning_rate": 3.9552238805970145e-08,
      "loss": -0.0608,
      "reward": 1.4166666269302368,
      "reward_std": 0.4702278673648834,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 0.9166666865348816,
      "step": 106
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 86.25,
      "epoch": 0.7985074626865671,
      "grad_norm": 4.757964801150361,
      "learning_rate": 3.992537313432836e-08,
      "loss": -0.0915,
      "reward": 1.6666666269302368,
      "reward_std": 0.42791932821273804,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 0.8611111044883728,
      "step": 107
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 91.8888931274414,
      "epoch": 0.8059701492537313,
      "grad_norm": 4.085480728568231,
      "learning_rate": 4.029850746268657e-08,
      "loss": -0.0711,
      "reward": 1.4166666269302368,
      "reward_std": 0.41226038336753845,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 0.8611111044883728,
      "step": 108
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 98.83333587646484,
      "epoch": 0.8134328358208955,
      "grad_norm": 4.660282764168015,
      "learning_rate": 4.0671641791044774e-08,
      "loss": -0.0142,
      "reward": 1.5,
      "reward_std": 0.4483085870742798,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 0.8888888955116272,
      "step": 109
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 90.55555725097656,
      "epoch": 0.8208955223880597,
      "grad_norm": 6.3570735812466435,
      "learning_rate": 4.104477611940298e-08,
      "loss": -0.0151,
      "reward": 1.4444444179534912,
      "reward_std": 0.4013475477695465,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 0.8888888955116272,
      "step": 110
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 113.1388931274414,
      "epoch": 0.8283582089552238,
      "grad_norm": 4.8346904624973694,
      "learning_rate": 4.141791044776119e-08,
      "loss": -0.0266,
      "reward": 1.3333333730697632,
      "reward_std": 0.5523552298545837,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 0.8333333134651184,
      "step": 111
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 83.0,
      "epoch": 0.835820895522388,
      "grad_norm": 10.307824032893992,
      "learning_rate": 4.17910447761194e-08,
      "loss": -0.079,
      "reward": 1.2777777910232544,
      "reward_std": 0.46549755334854126,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 0.8333333134651184,
      "step": 112
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 89.94444274902344,
      "epoch": 0.8432835820895522,
      "grad_norm": 6.155712629903537,
      "learning_rate": 4.216417910447761e-08,
      "loss": -0.0777,
      "reward": 1.4722222089767456,
      "reward_std": 0.45303890109062195,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 0.8611111044883728,
      "step": 113
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 88.58333587646484,
      "epoch": 0.8507462686567164,
      "grad_norm": 7.478962997712404,
      "learning_rate": 4.2537313432835824e-08,
      "loss": -0.088,
      "reward": 1.388888955116272,
      "reward_std": 0.46781593561172485,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 0.8611111044883728,
      "step": 114
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 84.25,
      "epoch": 0.8582089552238806,
      "grad_norm": 5.58230246808808,
      "learning_rate": 4.2910447761194025e-08,
      "loss": 0.0058,
      "reward": 1.8333333730697632,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 115
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 88.77777862548828,
      "epoch": 0.8656716417910447,
      "grad_norm": 6.489536837680464,
      "learning_rate": 4.328358208955224e-08,
      "loss": 0.0658,
      "reward": 1.25,
      "reward_std": 0.48347488045692444,
      "rewards/accuracy_reward": 0.4166666567325592,
      "rewards/format_reward": 0.8333333134651184,
      "step": 116
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.08333587646484,
      "epoch": 0.8731343283582089,
      "grad_norm": 5.407139874308731,
      "learning_rate": 4.3656716417910446e-08,
      "loss": -0.0631,
      "reward": 1.6944444179534912,
      "reward_std": 0.4060778021812439,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 0.9166666865348816,
      "step": 117
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 95.11111450195312,
      "epoch": 0.8805970149253731,
      "grad_norm": 9.685275239978697,
      "learning_rate": 4.4029850746268654e-08,
      "loss": -0.0186,
      "reward": 1.4166666269302368,
      "reward_std": 0.5813390016555786,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 0.8333333134651184,
      "step": 118
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 91.83333587646484,
      "epoch": 0.8880597014925373,
      "grad_norm": 18.486203929031866,
      "learning_rate": 4.440298507462686e-08,
      "loss": -0.0106,
      "reward": 1.3333333730697632,
      "reward_std": 0.46549755334854126,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 0.8611111044883728,
      "step": 119
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 79.83333587646484,
      "epoch": 0.8955223880597015,
      "grad_norm": 8.396139363028812,
      "learning_rate": 4.477611940298507e-08,
      "loss": 0.0482,
      "reward": 1.6944444179534912,
      "reward_std": 0.35911673307418823,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 0.9722222089767456,
      "step": 120
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 91.75,
      "epoch": 0.9029850746268657,
      "grad_norm": 4.681087288750759,
      "learning_rate": 4.514925373134328e-08,
      "loss": 0.026,
      "reward": 1.4722222089767456,
      "reward_std": 0.3591167628765106,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 0.9722222089767456,
      "step": 121
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 84.75,
      "epoch": 0.9104477611940298,
      "grad_norm": 54.5006383080357,
      "learning_rate": 4.552238805970149e-08,
      "loss": -0.0259,
      "reward": 1.5,
      "reward_std": 0.46781593561172485,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 0.8611111044883728,
      "step": 122
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 98.44444274902344,
      "epoch": 0.917910447761194,
      "grad_norm": 5.425471625240388,
      "learning_rate": 4.5895522388059704e-08,
      "loss": -0.0237,
      "reward": 1.5833333730697632,
      "reward_std": 0.43971410393714905,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 0.9166666865348816,
      "step": 123
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 90.86111450195312,
      "epoch": 0.9253731343283582,
      "grad_norm": 4.678245090295037,
      "learning_rate": 4.6268656716417904e-08,
      "loss": -0.0659,
      "reward": 1.388888955116272,
      "reward_std": 0.39748334884643555,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 0.944444477558136,
      "step": 124
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 81.6388931274414,
      "epoch": 0.9328358208955224,
      "grad_norm": 5.8857873286319435,
      "learning_rate": 4.664179104477612e-08,
      "loss": -0.0989,
      "reward": 1.5,
      "reward_std": 0.38415855169296265,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 0.8888888955116272,
      "step": 125
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 85.75,
      "epoch": 0.9402985074626866,
      "grad_norm": 4.961500042389841,
      "learning_rate": 4.7014925373134326e-08,
      "loss": -0.0837,
      "reward": 1.5,
      "reward_std": 0.4444444477558136,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 0.944444477558136,
      "step": 126
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 91.61111450195312,
      "epoch": 0.9477611940298507,
      "grad_norm": 2.298774885038157,
      "learning_rate": 4.738805970149253e-08,
      "loss": -0.0389,
      "reward": 1.4444444179534912,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 0.9166666865348816,
      "step": 127
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 84.77777862548828,
      "epoch": 0.9552238805970149,
      "grad_norm": 3.3965529151769416,
      "learning_rate": 4.776119402985075e-08,
      "loss": -0.0401,
      "reward": 1.6111111640930176,
      "reward_std": 0.2222222238779068,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 0.944444477558136,
      "step": 128
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 84.91666412353516,
      "epoch": 0.9626865671641791,
      "grad_norm": 5.650561011693284,
      "learning_rate": 4.813432835820895e-08,
      "loss": -0.0176,
      "reward": 1.3333333730697632,
      "reward_std": 0.44124412536621094,
      "rewards/accuracy_reward": 0.4166666567325592,
      "rewards/format_reward": 0.9166666865348816,
      "step": 129
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 90.97222137451172,
      "epoch": 0.9701492537313433,
      "grad_norm": 4.710089993130618,
      "learning_rate": 4.850746268656716e-08,
      "loss": -0.054,
      "reward": 1.5,
      "reward_std": 0.4013475477695465,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 0.944444477558136,
      "step": 130
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 98.0,
      "epoch": 0.9776119402985075,
      "grad_norm": 3.5897414952679045,
      "learning_rate": 4.888059701492537e-08,
      "loss": -0.0058,
      "reward": 1.4722222089767456,
      "reward_std": 0.2949667274951935,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 1.0,
      "step": 131
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 100.22222137451172,
      "epoch": 0.9850746268656716,
      "grad_norm": 3.80068922708667,
      "learning_rate": 4.925373134328358e-08,
      "loss": -0.0827,
      "reward": 1.7222222089767456,
      "reward_std": 0.27304744720458984,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 0.9166666865348816,
      "step": 132
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 88.66667175292969,
      "epoch": 0.9925373134328358,
      "grad_norm": 3.8156057340006955,
      "learning_rate": 4.962686567164179e-08,
      "loss": -0.0004,
      "reward": 1.388888955116272,
      "reward_std": 0.28637224435806274,
      "rewards/accuracy_reward": 0.4166666567325592,
      "rewards/format_reward": 0.9722222089767456,
      "step": 133
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 96.94444274902344,
      "epoch": 1.007462686567164,
      "grad_norm": 6.360515216950458,
      "learning_rate": 5e-08,
      "loss": -0.0413,
      "reward": 1.3333333730697632,
      "reward_std": 0.3770941197872162,
      "rewards/accuracy_reward": 0.3888888955116272,
      "rewards/format_reward": 0.944444477558136,
      "step": 134
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 96.75,
      "epoch": 1.0149253731343284,
      "grad_norm": 3.904185986443168,
      "learning_rate": 5.0373134328358205e-08,
      "loss": 0.0272,
      "reward": 1.388888955116272,
      "reward_std": 0.3035612106323242,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 0.9166666865348816,
      "step": 135
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 86.91666412353516,
      "epoch": 1.0223880597014925,
      "grad_norm": 3.0338649575167764,
      "learning_rate": 5.074626865671641e-08,
      "loss": 0.0566,
      "reward": 1.75,
      "reward_std": 0.21749190986156464,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 0.944444477558136,
      "step": 136
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 81.02777862548828,
      "epoch": 1.0298507462686568,
      "grad_norm": 11.505626185020178,
      "learning_rate": 5.1119402985074626e-08,
      "loss": -0.0685,
      "reward": 1.5555555820465088,
      "reward_std": 0.39748334884643555,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 0.9166666865348816,
      "step": 137
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 97.91666412353516,
      "epoch": 1.037313432835821,
      "grad_norm": 3.4128208573659395,
      "learning_rate": 5.1492537313432834e-08,
      "loss": 0.0495,
      "reward": 1.25,
      "reward_std": 0.3652993142604828,
      "rewards/accuracy_reward": 0.3055555522441864,
      "rewards/format_reward": 0.944444477558136,
      "step": 138
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 93.22222137451172,
      "epoch": 1.044776119402985,
      "grad_norm": 3.9482290885131395,
      "learning_rate": 5.186567164179104e-08,
      "loss": -0.0261,
      "reward": 1.638888955116272,
      "reward_std": 0.2816419303417206,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 0.944444477558136,
      "step": 139
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 83.3888931274414,
      "epoch": 1.0522388059701493,
      "grad_norm": 4.09545843530919,
      "learning_rate": 5.223880597014925e-08,
      "loss": 0.0434,
      "reward": 1.5,
      "reward_std": 0.2222222238779068,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 0.944444477558136,
      "step": 140
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 94.75,
      "epoch": 1.0597014925373134,
      "grad_norm": 5.2138687704249325,
      "learning_rate": 5.261194029850746e-08,
      "loss": -0.0221,
      "reward": 1.5,
      "reward_std": 0.3035612106323242,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 141
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 106.0,
      "epoch": 1.0671641791044777,
      "grad_norm": 6.984638704977673,
      "learning_rate": 5.298507462686567e-08,
      "loss": -0.0104,
      "reward": 1.5833333730697632,
      "reward_std": 0.2949667274951935,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 0.9722222089767456,
      "step": 142
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 78.41666412353516,
      "epoch": 1.0746268656716418,
      "grad_norm": 4.690019799317202,
      "learning_rate": 5.3358208955223884e-08,
      "loss": 0.0126,
      "reward": 1.6944444179534912,
      "reward_std": 0.4060778319835663,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 143
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 87.58333587646484,
      "epoch": 1.0820895522388059,
      "grad_norm": 7.890133896357435,
      "learning_rate": 5.3731343283582085e-08,
      "loss": -0.0129,
      "reward": 1.5277777910232544,
      "reward_std": 0.45303890109062195,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 0.9722222089767456,
      "step": 144
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.58333587646484,
      "epoch": 1.0895522388059702,
      "grad_norm": 8.190304628390841,
      "learning_rate": 5.410447761194029e-08,
      "loss": -0.0517,
      "reward": 1.5555555820465088,
      "reward_std": 0.3505222797393799,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 0.9722222089767456,
      "step": 145
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 81.6388931274414,
      "epoch": 1.0970149253731343,
      "grad_norm": 4.416969875722238,
      "learning_rate": 5.4477611940298506e-08,
      "loss": 0.0208,
      "reward": 1.4722222089767456,
      "reward_std": 0.34192779660224915,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 0.9722222089767456,
      "step": 146
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 91.6388931274414,
      "epoch": 1.1044776119402986,
      "grad_norm": 3.7847892441547786,
      "learning_rate": 5.485074626865671e-08,
      "loss": -0.0242,
      "reward": 1.5555555820465088,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 147
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.0,
      "epoch": 1.1119402985074627,
      "grad_norm": 29.19438314182322,
      "learning_rate": 5.522388059701493e-08,
      "loss": -0.0084,
      "reward": 1.6944444179534912,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 148
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.05555725097656,
      "epoch": 1.1194029850746268,
      "grad_norm": 2.600831868131714,
      "learning_rate": 5.559701492537313e-08,
      "loss": 0.0475,
      "reward": 1.4444444179534912,
      "reward_std": 0.23941117525100708,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 149
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 80.33333587646484,
      "epoch": 1.126865671641791,
      "grad_norm": 4.28146836000396,
      "learning_rate": 5.597014925373134e-08,
      "loss": -0.0654,
      "reward": 1.388888955116272,
      "reward_std": 0.2222222238779068,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 0.944444477558136,
      "step": 150
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 95.25,
      "epoch": 1.1343283582089552,
      "grad_norm": 3.4205799454834755,
      "learning_rate": 5.634328358208955e-08,
      "loss": 0.0058,
      "reward": 1.6666666269302368,
      "reward_std": 0.23941117525100708,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 151
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 97.58333587646484,
      "epoch": 1.1417910447761195,
      "grad_norm": 26.569319294098694,
      "learning_rate": 5.671641791044776e-08,
      "loss": -0.0344,
      "reward": 1.4444444179534912,
      "reward_std": 0.3473219573497772,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 0.9722222089767456,
      "step": 152
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 96.69444274902344,
      "epoch": 1.1492537313432836,
      "grad_norm": 4.900502302364927,
      "learning_rate": 5.7089552238805964e-08,
      "loss": -0.0827,
      "reward": 1.5555555820465088,
      "reward_std": 0.28637224435806274,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 0.9722222089767456,
      "step": 153
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 95.86111450195312,
      "epoch": 1.1567164179104479,
      "grad_norm": 2.757585872599092,
      "learning_rate": 5.746268656716417e-08,
      "loss": 0.0444,
      "reward": 1.5,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 154
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 93.30555725097656,
      "epoch": 1.164179104477612,
      "grad_norm": 3.2788766071803948,
      "learning_rate": 5.7835820895522385e-08,
      "loss": 0.064,
      "reward": 1.5277777910232544,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 0.944444477558136,
      "step": 155
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 95.30555725097656,
      "epoch": 1.171641791044776,
      "grad_norm": 5.066812184613776,
      "learning_rate": 5.820895522388059e-08,
      "loss": 0.0751,
      "reward": 1.5833333730697632,
      "reward_std": 0.3927530348300934,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 0.9722222089767456,
      "step": 156
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 91.41666412353516,
      "epoch": 1.1791044776119404,
      "grad_norm": 5.154034271990763,
      "learning_rate": 5.8582089552238807e-08,
      "loss": -0.0369,
      "reward": 1.4166666269302368,
      "reward_std": 0.2949667274951935,
      "rewards/accuracy_reward": 0.4166666567325592,
      "rewards/format_reward": 1.0,
      "step": 157
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 105.75,
      "epoch": 1.1865671641791045,
      "grad_norm": 2.6970238788524328,
      "learning_rate": 5.895522388059701e-08,
      "loss": -0.0092,
      "reward": 1.5833333730697632,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 158
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.5,
      "epoch": 1.1940298507462686,
      "grad_norm": 3.463037019996084,
      "learning_rate": 5.932835820895522e-08,
      "loss": -0.0594,
      "reward": 1.4722222089767456,
      "reward_std": 0.2949667274951935,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 0.944444477558136,
      "step": 159
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 96.86111450195312,
      "epoch": 1.2014925373134329,
      "grad_norm": 8.074433708595096,
      "learning_rate": 5.970149253731343e-08,
      "loss": -0.0102,
      "reward": 1.4722222089767456,
      "reward_std": 0.24800565838813782,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 0.9722222089767456,
      "step": 160
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 93.69444274902344,
      "epoch": 1.208955223880597,
      "grad_norm": 3.621409606892472,
      "learning_rate": 6.007462686567164e-08,
      "loss": -0.0145,
      "reward": 1.3055555820465088,
      "reward_std": 0.35911673307418823,
      "rewards/accuracy_reward": 0.3611111044883728,
      "rewards/format_reward": 0.944444477558136,
      "step": 161
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 93.5,
      "epoch": 1.2164179104477613,
      "grad_norm": 8.266057477236089,
      "learning_rate": 6.044776119402984e-08,
      "loss": -0.0378,
      "reward": 1.5833333730697632,
      "reward_std": 0.24800565838813782,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 0.8888888955116272,
      "step": 162
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 96.16666412353516,
      "epoch": 1.2238805970149254,
      "grad_norm": 3.875997493895498,
      "learning_rate": 6.082089552238805e-08,
      "loss": -0.0077,
      "reward": 1.75,
      "reward_std": 0.3591167628765106,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 0.944444477558136,
      "step": 163
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 84.97222137451172,
      "epoch": 1.2313432835820897,
      "grad_norm": 3.4394200343170893,
      "learning_rate": 6.119402985074627e-08,
      "loss": -0.0228,
      "reward": 1.1666666269302368,
      "reward_std": 0.2222222238779068,
      "rewards/accuracy_reward": 0.2222222238779068,
      "rewards/format_reward": 0.944444477558136,
      "step": 164
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 84.61111450195312,
      "epoch": 1.2388059701492538,
      "grad_norm": 1.9983147482339552,
      "learning_rate": 6.156716417910447e-08,
      "loss": 0.0099,
      "reward": 1.888888955116272,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 165
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 90.55555725097656,
      "epoch": 1.2462686567164178,
      "grad_norm": 10.868633936559831,
      "learning_rate": 6.194029850746269e-08,
      "loss": 0.0404,
      "reward": 1.75,
      "reward_std": 0.2949667274951935,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 166
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 88.11111450195312,
      "epoch": 1.2537313432835822,
      "grad_norm": 13.29287626017526,
      "learning_rate": 6.23134328358209e-08,
      "loss": 0.0665,
      "reward": 1.5277777910232544,
      "reward_std": 0.3927530348300934,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 0.9166666865348816,
      "step": 167
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 97.05555725097656,
      "epoch": 1.2611940298507462,
      "grad_norm": 9.254773509888576,
      "learning_rate": 6.26865671641791e-08,
      "loss": 0.0563,
      "reward": 1.4444444179534912,
      "reward_std": 0.39748334884643555,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 168
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 99.69444274902344,
      "epoch": 1.2686567164179103,
      "grad_norm": 6.96292376240963,
      "learning_rate": 6.305970149253731e-08,
      "loss": -0.0066,
      "reward": 1.6666666269302368,
      "reward_std": 0.12830005586147308,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 169
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 93.0,
      "epoch": 1.2761194029850746,
      "grad_norm": 2.7165771174280895,
      "learning_rate": 6.343283582089553e-08,
      "loss": 0.0257,
      "reward": 1.5555555820465088,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 170
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 101.77777862548828,
      "epoch": 1.2835820895522387,
      "grad_norm": 7.39922376551131,
      "learning_rate": 6.380597014925374e-08,
      "loss": -0.0074,
      "reward": 1.5277777910232544,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 171
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 83.91666412353516,
      "epoch": 1.291044776119403,
      "grad_norm": 3.3615724302793777,
      "learning_rate": 6.417910447761193e-08,
      "loss": 0.0244,
      "reward": 1.6666666269302368,
      "reward_std": 0.23941117525100708,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 172
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 105.94444274902344,
      "epoch": 1.2985074626865671,
      "grad_norm": 3.889693038447713,
      "learning_rate": 6.455223880597015e-08,
      "loss": 0.0772,
      "reward": 1.6111111640930176,
      "reward_std": 0.39748334884643555,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 173
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 89.77777862548828,
      "epoch": 1.3059701492537314,
      "grad_norm": 2.5387013435879515,
      "learning_rate": 6.492537313432836e-08,
      "loss": -0.0543,
      "reward": 1.25,
      "reward_std": 0.14627739787101746,
      "rewards/accuracy_reward": 0.3055555522441864,
      "rewards/format_reward": 0.944444477558136,
      "step": 174
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 91.27777862548828,
      "epoch": 1.3134328358208955,
      "grad_norm": 32.46049547921524,
      "learning_rate": 6.529850746268655e-08,
      "loss": 0.0115,
      "reward": 1.75,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 175
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 95.80555725097656,
      "epoch": 1.3208955223880596,
      "grad_norm": 3.7343063269821504,
      "learning_rate": 6.567164179104477e-08,
      "loss": 0.0323,
      "reward": 1.5555555820465088,
      "reward_std": 0.3035612106323242,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 0.944444477558136,
      "step": 176
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 83.97222137451172,
      "epoch": 1.328358208955224,
      "grad_norm": 6.56691003044978,
      "learning_rate": 6.604477611940298e-08,
      "loss": -0.0096,
      "reward": 1.388888955116272,
      "reward_std": 0.4483086168766022,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 0.944444477558136,
      "step": 177
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 102.27777862548828,
      "epoch": 1.335820895522388,
      "grad_norm": 7.344034314672744,
      "learning_rate": 6.64179104477612e-08,
      "loss": -0.0306,
      "reward": 1.5833333730697632,
      "reward_std": 0.4060778021812439,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 0.9722222089767456,
      "step": 178
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.61111450195312,
      "epoch": 1.3432835820895521,
      "grad_norm": 3.59628463985701,
      "learning_rate": 6.67910447761194e-08,
      "loss": 0.0267,
      "reward": 1.7222222089767456,
      "reward_std": 0.28637224435806274,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 0.9722222089767456,
      "step": 179
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 95.83333587646484,
      "epoch": 1.3507462686567164,
      "grad_norm": 3.131337204506737,
      "learning_rate": 6.71641791044776e-08,
      "loss": -0.0128,
      "reward": 1.6666666269302368,
      "reward_std": 0.2222222238779068,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 180
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 97.97222137451172,
      "epoch": 1.3582089552238805,
      "grad_norm": 4.239826493115563,
      "learning_rate": 6.753731343283582e-08,
      "loss": -0.0175,
      "reward": 1.638888955116272,
      "reward_std": 0.2777777910232544,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 0.944444477558136,
      "step": 181
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 90.36111450195312,
      "epoch": 1.3656716417910448,
      "grad_norm": 3.6992837683356576,
      "learning_rate": 6.791044776119402e-08,
      "loss": 0.0166,
      "reward": 1.5833333730697632,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 182
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 96.47222137451172,
      "epoch": 1.373134328358209,
      "grad_norm": 2.8515308811136095,
      "learning_rate": 6.828358208955224e-08,
      "loss": 0.0144,
      "reward": 1.6666666269302368,
      "reward_std": 0.12830005586147308,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 0.944444477558136,
      "step": 183
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 99.91666412353516,
      "epoch": 1.3805970149253732,
      "grad_norm": 2.426915996813116,
      "learning_rate": 6.865671641791045e-08,
      "loss": 0.0029,
      "reward": 1.638888955116272,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 184
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 87.44444274902344,
      "epoch": 1.3880597014925373,
      "grad_norm": 4.662488495484842,
      "learning_rate": 6.902985074626865e-08,
      "loss": -0.0165,
      "reward": 1.5833333730697632,
      "reward_std": 0.2949667274951935,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 0.944444477558136,
      "step": 185
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 98.86111450195312,
      "epoch": 1.3955223880597014,
      "grad_norm": 3.734147022124016,
      "learning_rate": 6.940298507462686e-08,
      "loss": 0.0144,
      "reward": 1.4722222089767456,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 0.9722222089767456,
      "step": 186
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 96.02777862548828,
      "epoch": 1.4029850746268657,
      "grad_norm": 35.06065695508389,
      "learning_rate": 6.977611940298507e-08,
      "loss": 0.0018,
      "reward": 1.388888955116272,
      "reward_std": 0.3505222499370575,
      "rewards/accuracy_reward": 0.4166666567325592,
      "rewards/format_reward": 0.9722222089767456,
      "step": 187
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 95.27777862548828,
      "epoch": 1.4104477611940298,
      "grad_norm": 5.159936848762315,
      "learning_rate": 7.014925373134329e-08,
      "loss": 0.0385,
      "reward": 1.5833333730697632,
      "reward_std": 0.2949667274951935,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 188
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 96.66666412353516,
      "epoch": 1.417910447761194,
      "grad_norm": 5.039301134303032,
      "learning_rate": 7.05223880597015e-08,
      "loss": -0.0304,
      "reward": 1.5277777910232544,
      "reward_std": 0.34192779660224915,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 189
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 94.16666412353516,
      "epoch": 1.4253731343283582,
      "grad_norm": 2.751753528022648,
      "learning_rate": 7.089552238805969e-08,
      "loss": 0.0231,
      "reward": 1.5555555820465088,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 190
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 100.8888931274414,
      "epoch": 1.4328358208955223,
      "grad_norm": 3.236263958382955,
      "learning_rate": 7.126865671641791e-08,
      "loss": -0.0359,
      "reward": 1.5,
      "reward_std": 0.3035612106323242,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 0.9722222089767456,
      "step": 191
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 93.6388931274414,
      "epoch": 1.4402985074626866,
      "grad_norm": 2.244083009367267,
      "learning_rate": 7.164179104477612e-08,
      "loss": 0.0406,
      "reward": 1.6111111640930176,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 0.9722222089767456,
      "step": 192
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 87.25,
      "epoch": 1.4477611940298507,
      "grad_norm": 6.4189095652802,
      "learning_rate": 7.201492537313432e-08,
      "loss": 0.0207,
      "reward": 1.7222222089767456,
      "reward_std": 0.3505222797393799,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 193
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 93.25,
      "epoch": 1.455223880597015,
      "grad_norm": 5.377859815899512,
      "learning_rate": 7.238805970149253e-08,
      "loss": -0.0101,
      "reward": 1.2777777910232544,
      "reward_std": 0.4444444477558136,
      "rewards/accuracy_reward": 0.3055555522441864,
      "rewards/format_reward": 0.9722222089767456,
      "step": 194
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 100.58333587646484,
      "epoch": 1.462686567164179,
      "grad_norm": 22.546942366465643,
      "learning_rate": 7.276119402985074e-08,
      "loss": 0.0039,
      "reward": 1.638888955116272,
      "reward_std": 0.4060778021812439,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 0.9722222089767456,
      "step": 195
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 88.25,
      "epoch": 1.4701492537313432,
      "grad_norm": 5.093529010386086,
      "learning_rate": 7.313432835820896e-08,
      "loss": -0.0229,
      "reward": 1.638888955116272,
      "reward_std": 0.3591167628765106,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 0.9166666865348816,
      "step": 196
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 95.69444274902344,
      "epoch": 1.4776119402985075,
      "grad_norm": 4.444315659301383,
      "learning_rate": 7.350746268656715e-08,
      "loss": 0.0184,
      "reward": 1.4722222089767456,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 0.9722222089767456,
      "step": 197
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 93.08333587646484,
      "epoch": 1.4850746268656716,
      "grad_norm": 5.74023364621085,
      "learning_rate": 7.388059701492537e-08,
      "loss": -0.0057,
      "reward": 1.6666666269302368,
      "reward_std": 0.3505222797393799,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 0.9722222089767456,
      "step": 198
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 82.97222137451172,
      "epoch": 1.4925373134328357,
      "grad_norm": 8.834573048449572,
      "learning_rate": 7.425373134328358e-08,
      "loss": -0.0191,
      "reward": 1.3611111640930176,
      "reward_std": 0.3215385675430298,
      "rewards/accuracy_reward": 0.3888888955116272,
      "rewards/format_reward": 0.9722222089767456,
      "step": 199
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 78.11111450195312,
      "epoch": 1.5,
      "grad_norm": 2.182155168965748,
      "learning_rate": 7.462686567164178e-08,
      "loss": 0.025,
      "reward": 1.4166666269302368,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.4166666567325592,
      "rewards/format_reward": 1.0,
      "step": 200
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 101.41666412353516,
      "epoch": 1.5074626865671643,
      "grad_norm": 3.3591589231793417,
      "learning_rate": 7.5e-08,
      "loss": -0.0323,
      "reward": 1.6111111640930176,
      "reward_std": 0.33013302087783813,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 0.9722222089767456,
      "step": 201
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 89.72222137451172,
      "epoch": 1.5149253731343284,
      "grad_norm": 3.2951438948594864,
      "learning_rate": 7.53731343283582e-08,
      "loss": -0.0301,
      "reward": 1.6944444179534912,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 0.9722222089767456,
      "step": 202
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 85.3888931274414,
      "epoch": 1.5223880597014925,
      "grad_norm": 2.754489600632751,
      "learning_rate": 7.574626865671642e-08,
      "loss": 0.0448,
      "reward": 1.7222222089767456,
      "reward_std": 0.2222222238779068,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 0.9722222089767456,
      "step": 203
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 87.61111450195312,
      "epoch": 1.5298507462686568,
      "grad_norm": 3.3376235017114144,
      "learning_rate": 7.611940298507462e-08,
      "loss": 0.0047,
      "reward": 1.5,
      "reward_std": 0.28637224435806274,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 0.8888888955116272,
      "step": 204
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.6388931274414,
      "epoch": 1.537313432835821,
      "grad_norm": 3.6522515048380413,
      "learning_rate": 7.649253731343283e-08,
      "loss": -0.059,
      "reward": 1.7222222089767456,
      "reward_std": 0.31294408440589905,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 0.944444477558136,
      "step": 205
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 97.83333587646484,
      "epoch": 1.544776119402985,
      "grad_norm": 32.66490123155298,
      "learning_rate": 7.686567164179105e-08,
      "loss": 0.0519,
      "reward": 1.5,
      "reward_std": 0.23941117525100708,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 206
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 97.25,
      "epoch": 1.5522388059701493,
      "grad_norm": 3.6016957612474827,
      "learning_rate": 7.723880597014925e-08,
      "loss": -0.0128,
      "reward": 1.8055555820465088,
      "reward_std": 0.25738850235939026,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 0.944444477558136,
      "step": 207
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 84.97222137451172,
      "epoch": 1.5597014925373134,
      "grad_norm": 4.6772187048457985,
      "learning_rate": 7.761194029850746e-08,
      "loss": 0.0277,
      "reward": 1.8333333730697632,
      "reward_std": 0.28637224435806274,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 208
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 99.08333587646484,
      "epoch": 1.5671641791044775,
      "grad_norm": 3.502517803484107,
      "learning_rate": 7.798507462686567e-08,
      "loss": -0.0796,
      "reward": 1.388888955116272,
      "reward_std": 0.3035612106323242,
      "rewards/accuracy_reward": 0.3888888955116272,
      "rewards/format_reward": 1.0,
      "step": 209
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.44444274902344,
      "epoch": 1.5746268656716418,
      "grad_norm": 4.247815792128417,
      "learning_rate": 7.835820895522388e-08,
      "loss": -0.1056,
      "reward": 1.5277777910232544,
      "reward_std": 0.3591167628765106,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 210
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 101.41666412353516,
      "epoch": 1.582089552238806,
      "grad_norm": 4.535354036307955,
      "learning_rate": 7.873134328358208e-08,
      "loss": 0.0047,
      "reward": 1.5555555820465088,
      "reward_std": 0.4013475477695465,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 0.9722222089767456,
      "step": 211
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 101.8888931274414,
      "epoch": 1.5895522388059702,
      "grad_norm": 3.015680784292382,
      "learning_rate": 7.910447761194029e-08,
      "loss": -0.0343,
      "reward": 1.7222222089767456,
      "reward_std": 0.23941117525100708,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 212
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 86.75,
      "epoch": 1.5970149253731343,
      "grad_norm": 3.693352218240683,
      "learning_rate": 7.947761194029851e-08,
      "loss": 0.0143,
      "reward": 1.6666666269302368,
      "reward_std": 0.2222222238779068,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 0.9722222089767456,
      "step": 213
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 96.0,
      "epoch": 1.6044776119402986,
      "grad_norm": 2.4458848748754543,
      "learning_rate": 7.985074626865672e-08,
      "loss": 0.0465,
      "reward": 1.6944444179534912,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 214
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 93.83333587646484,
      "epoch": 1.6119402985074627,
      "grad_norm": 4.3652661306480995,
      "learning_rate": 8.022388059701491e-08,
      "loss": 0.0149,
      "reward": 1.6111111640930176,
      "reward_std": 0.3505222797393799,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 0.9722222089767456,
      "step": 215
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 81.36111450195312,
      "epoch": 1.6194029850746268,
      "grad_norm": 7.40201528273585,
      "learning_rate": 8.059701492537313e-08,
      "loss": 0.0077,
      "reward": 1.4722222089767456,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 0.944444477558136,
      "step": 216
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 85.86111450195312,
      "epoch": 1.626865671641791,
      "grad_norm": 5.321435955911986,
      "learning_rate": 8.097014925373134e-08,
      "loss": -0.0662,
      "reward": 1.388888955116272,
      "reward_std": 0.39748334884643555,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 0.9166666865348816,
      "step": 217
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 93.5,
      "epoch": 1.6343283582089554,
      "grad_norm": 7.165529303861552,
      "learning_rate": 8.134328358208955e-08,
      "loss": 0.0169,
      "reward": 1.4722222089767456,
      "reward_std": 0.3591167628765106,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 1.0,
      "step": 218
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 107.0,
      "epoch": 1.6417910447761193,
      "grad_norm": 7.960846713526901,
      "learning_rate": 8.171641791044776e-08,
      "loss": 0.037,
      "reward": 1.5277777910232544,
      "reward_std": 0.40994200110435486,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 0.9722222089767456,
      "step": 219
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 93.75,
      "epoch": 1.6492537313432836,
      "grad_norm": 8.427814891082935,
      "learning_rate": 8.208955223880596e-08,
      "loss": -0.1011,
      "reward": 1.5833333730697632,
      "reward_std": 0.4060778021812439,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 0.9722222089767456,
      "step": 220
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 93.05555725097656,
      "epoch": 1.6567164179104479,
      "grad_norm": 6.715574268554174,
      "learning_rate": 8.246268656716418e-08,
      "loss": 0.0096,
      "reward": 1.5277777910232544,
      "reward_std": 0.2777777910232544,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 0.9722222089767456,
      "step": 221
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 98.08333587646484,
      "epoch": 1.664179104477612,
      "grad_norm": 4.107091461756697,
      "learning_rate": 8.283582089552238e-08,
      "loss": -0.0414,
      "reward": 1.6666666269302368,
      "reward_std": 0.3505222499370575,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 222
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 108.75,
      "epoch": 1.671641791044776,
      "grad_norm": 5.944513589591996,
      "learning_rate": 8.32089552238806e-08,
      "loss": 0.0491,
      "reward": 1.3611111640930176,
      "reward_std": 0.38568857312202454,
      "rewards/accuracy_reward": 0.4166666567325592,
      "rewards/format_reward": 0.944444477558136,
      "step": 223
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 83.58333587646484,
      "epoch": 1.6791044776119404,
      "grad_norm": 4.90696427767513,
      "learning_rate": 8.35820895522388e-08,
      "loss": -0.0291,
      "reward": 1.5277777910232544,
      "reward_std": 0.34192779660224915,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 0.944444477558136,
      "step": 224
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 95.80555725097656,
      "epoch": 1.6865671641791045,
      "grad_norm": 5.3093768868196545,
      "learning_rate": 8.395522388059701e-08,
      "loss": 0.0619,
      "reward": 1.4166666269302368,
      "reward_std": 0.3591167628765106,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 0.9722222089767456,
      "step": 225
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 93.75,
      "epoch": 1.6940298507462686,
      "grad_norm": 3.1532426533233253,
      "learning_rate": 8.432835820895522e-08,
      "loss": -0.0476,
      "reward": 1.5,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 226
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 96.19444274902344,
      "epoch": 1.7014925373134329,
      "grad_norm": 5.18274663816285,
      "learning_rate": 8.470149253731343e-08,
      "loss": -0.0265,
      "reward": 1.4444444179534912,
      "reward_std": 0.23941117525100708,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 227
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 96.41666412353516,
      "epoch": 1.7089552238805972,
      "grad_norm": 2.778910264052793,
      "learning_rate": 8.507462686567165e-08,
      "loss": -0.0073,
      "reward": 1.2777777910232544,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.2777777910232544,
      "rewards/format_reward": 1.0,
      "step": 228
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 105.02777862548828,
      "epoch": 1.716417910447761,
      "grad_norm": 6.4619119841099035,
      "learning_rate": 8.544776119402984e-08,
      "loss": 0.037,
      "reward": 1.388888955116272,
      "reward_std": 0.23941117525100708,
      "rewards/accuracy_reward": 0.3888888955116272,
      "rewards/format_reward": 1.0,
      "step": 229
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 82.52777862548828,
      "epoch": 1.7238805970149254,
      "grad_norm": 3.099774059574883,
      "learning_rate": 8.582089552238805e-08,
      "loss": 0.0025,
      "reward": 1.3333333730697632,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.3611111044883728,
      "rewards/format_reward": 0.9722222089767456,
      "step": 230
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 104.33333587646484,
      "epoch": 1.7313432835820897,
      "grad_norm": 1.83722788602808,
      "learning_rate": 8.619402985074627e-08,
      "loss": 0.0232,
      "reward": 1.388888955116272,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.3888888955116272,
      "rewards/format_reward": 1.0,
      "step": 231
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 87.66666412353516,
      "epoch": 1.7388059701492538,
      "grad_norm": 4.226553866477799,
      "learning_rate": 8.656716417910448e-08,
      "loss": 0.0461,
      "reward": 1.5277777910232544,
      "reward_std": 0.34192779660224915,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 232
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 86.0,
      "epoch": 1.7462686567164178,
      "grad_norm": 3.3944354680721274,
      "learning_rate": 8.694029850746267e-08,
      "loss": -0.0062,
      "reward": 1.6111111640930176,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 233
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 89.22222137451172,
      "epoch": 1.7537313432835822,
      "grad_norm": 3.174353422140278,
      "learning_rate": 8.731343283582089e-08,
      "loss": 0.0066,
      "reward": 1.3333333730697632,
      "reward_std": 0.23941117525100708,
      "rewards/accuracy_reward": 0.3333333432674408,
      "rewards/format_reward": 1.0,
      "step": 234
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.83333587646484,
      "epoch": 1.7611940298507462,
      "grad_norm": 2.7331424637913866,
      "learning_rate": 8.76865671641791e-08,
      "loss": -0.0169,
      "reward": 1.638888955116272,
      "reward_std": 0.18385560810565948,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 0.9722222089767456,
      "step": 235
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 96.08333587646484,
      "epoch": 1.7686567164179103,
      "grad_norm": 6.710437481805461,
      "learning_rate": 8.805970149253731e-08,
      "loss": -0.0722,
      "reward": 1.3611111640930176,
      "reward_std": 0.45303890109062195,
      "rewards/accuracy_reward": 0.3888888955116272,
      "rewards/format_reward": 0.9722222089767456,
      "step": 236
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.16666412353516,
      "epoch": 1.7761194029850746,
      "grad_norm": 16.67550691421521,
      "learning_rate": 8.843283582089551e-08,
      "loss": -0.0123,
      "reward": 1.6944444179534912,
      "reward_std": 0.42326679825782776,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 237
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 100.33333587646484,
      "epoch": 1.783582089552239,
      "grad_norm": 3.7359977752835616,
      "learning_rate": 8.880597014925372e-08,
      "loss": 0.0115,
      "reward": 1.8333333730697632,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 238
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 87.72222137451172,
      "epoch": 1.7910447761194028,
      "grad_norm": 3.8316936139844455,
      "learning_rate": 8.917910447761194e-08,
      "loss": 0.0521,
      "reward": 1.5,
      "reward_std": 0.2222222238779068,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 239
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 107.83333587646484,
      "epoch": 1.7985074626865671,
      "grad_norm": 4.447665781806364,
      "learning_rate": 8.955223880597014e-08,
      "loss": 0.0232,
      "reward": 1.388888955116272,
      "reward_std": 0.3333333432674408,
      "rewards/accuracy_reward": 0.3888888955116272,
      "rewards/format_reward": 1.0,
      "step": 240
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 93.05555725097656,
      "epoch": 1.8059701492537314,
      "grad_norm": 2.641578025464363,
      "learning_rate": 8.992537313432836e-08,
      "loss": -0.0265,
      "reward": 1.388888955116272,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.3888888955116272,
      "rewards/format_reward": 1.0,
      "step": 241
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 97.22222137451172,
      "epoch": 1.8134328358208955,
      "grad_norm": 2.456578602536733,
      "learning_rate": 9.029850746268656e-08,
      "loss": -0.0396,
      "reward": 1.388888955116272,
      "reward_std": 0.2222222238779068,
      "rewards/accuracy_reward": 0.4166666567325592,
      "rewards/format_reward": 0.9722222089767456,
      "step": 242
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 102.72222137451172,
      "epoch": 1.8208955223880596,
      "grad_norm": 4.5881891788140114,
      "learning_rate": 9.067164179104477e-08,
      "loss": -0.0883,
      "reward": 1.6944444179534912,
      "reward_std": 0.3591167628765106,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 243
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.77777862548828,
      "epoch": 1.828358208955224,
      "grad_norm": 7.022808194051805,
      "learning_rate": 9.104477611940298e-08,
      "loss": -0.016,
      "reward": 1.638888955116272,
      "reward_std": 0.34192779660224915,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 244
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 84.30555725097656,
      "epoch": 1.835820895522388,
      "grad_norm": 6.344454364957092,
      "learning_rate": 9.141791044776119e-08,
      "loss": 0.0074,
      "reward": 1.5555555820465088,
      "reward_std": 0.3333333432674408,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 245
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 90.83333587646484,
      "epoch": 1.8432835820895521,
      "grad_norm": 4.119341857336282,
      "learning_rate": 9.179104477611941e-08,
      "loss": -0.0352,
      "reward": 1.4722222089767456,
      "reward_std": 0.4060778021812439,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 1.0,
      "step": 246
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 86.69444274902344,
      "epoch": 1.8507462686567164,
      "grad_norm": 2.6581107842127922,
      "learning_rate": 9.21641791044776e-08,
      "loss": 0.0334,
      "reward": 1.5277777910232544,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 247
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 91.94444274902344,
      "epoch": 1.8582089552238807,
      "grad_norm": 3.986758724245643,
      "learning_rate": 9.253731343283581e-08,
      "loss": -0.0669,
      "reward": 1.5555555820465088,
      "reward_std": 0.4616333544254303,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 0.9722222089767456,
      "step": 248
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 88.86111450195312,
      "epoch": 1.8656716417910446,
      "grad_norm": 30.179592200704377,
      "learning_rate": 9.291044776119403e-08,
      "loss": -0.036,
      "reward": 1.5833333730697632,
      "reward_std": 0.2777777910232544,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 0.9722222089767456,
      "step": 249
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 90.75,
      "epoch": 1.873134328358209,
      "grad_norm": 3.2064335144332516,
      "learning_rate": 9.328358208955224e-08,
      "loss": -0.0196,
      "reward": 1.6666666269302368,
      "reward_std": 0.2222222238779068,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 250
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 85.33333587646484,
      "epoch": 1.8805970149253732,
      "grad_norm": 3.5346442764562696,
      "learning_rate": 9.365671641791044e-08,
      "loss": 0.0318,
      "reward": 1.5833333730697632,
      "reward_std": 0.14627739787101746,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 0.9722222089767456,
      "step": 251
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 105.36111450195312,
      "epoch": 1.8880597014925373,
      "grad_norm": 1.9016850463267914,
      "learning_rate": 9.402985074626865e-08,
      "loss": -0.0538,
      "reward": 1.638888955116272,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 252
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 97.02777862548828,
      "epoch": 1.8955223880597014,
      "grad_norm": 4.759713030320155,
      "learning_rate": 9.440298507462686e-08,
      "loss": 0.0158,
      "reward": 1.638888955116272,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 253
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 98.02777862548828,
      "epoch": 1.9029850746268657,
      "grad_norm": 3.181568914095294,
      "learning_rate": 9.477611940298507e-08,
      "loss": -0.0498,
      "reward": 1.4722222089767456,
      "reward_std": 0.2949667274951935,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 1.0,
      "step": 254
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 90.30555725097656,
      "epoch": 1.9104477611940298,
      "grad_norm": 3.4772945293660973,
      "learning_rate": 9.514925373134327e-08,
      "loss": 0.0219,
      "reward": 1.4444444179534912,
      "reward_std": 0.2222222238779068,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 255
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 89.33333587646484,
      "epoch": 1.917910447761194,
      "grad_norm": 12.262366301551932,
      "learning_rate": 9.55223880597015e-08,
      "loss": 0.0224,
      "reward": 1.3333333730697632,
      "reward_std": 0.23941117525100708,
      "rewards/accuracy_reward": 0.3333333432674408,
      "rewards/format_reward": 1.0,
      "step": 256
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 87.25,
      "epoch": 1.9253731343283582,
      "grad_norm": 7.566932119539012,
      "learning_rate": 9.58955223880597e-08,
      "loss": 0.0687,
      "reward": 1.7222222089767456,
      "reward_std": 0.36771121621131897,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 257
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 88.30555725097656,
      "epoch": 1.9328358208955225,
      "grad_norm": 3.1418626155076685,
      "learning_rate": 9.62686567164179e-08,
      "loss": -0.0126,
      "reward": 1.638888955116272,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 258
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 96.02777862548828,
      "epoch": 1.9402985074626866,
      "grad_norm": 4.167660893938438,
      "learning_rate": 9.664179104477612e-08,
      "loss": -0.0211,
      "reward": 1.6111111640930176,
      "reward_std": 0.3333333432674408,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 259
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 89.25,
      "epoch": 1.9477611940298507,
      "grad_norm": 3.2467228953676863,
      "learning_rate": 9.701492537313432e-08,
      "loss": 0.0478,
      "reward": 1.6944444179534912,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 260
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 95.5,
      "epoch": 1.955223880597015,
      "grad_norm": 2.354751108990831,
      "learning_rate": 9.738805970149254e-08,
      "loss": 0.0429,
      "reward": 1.6944444179534912,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 0.9722222089767456,
      "step": 261
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 103.69444274902344,
      "epoch": 1.962686567164179,
      "grad_norm": 5.071541490251262,
      "learning_rate": 9.776119402985074e-08,
      "loss": -0.0224,
      "reward": 1.5555555820465088,
      "reward_std": 0.3035612106323242,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 262
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 78.72222137451172,
      "epoch": 1.9701492537313432,
      "grad_norm": 2.6740087321381405,
      "learning_rate": 9.813432835820895e-08,
      "loss": -0.0245,
      "reward": 1.3611111640930176,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.3611111044883728,
      "rewards/format_reward": 1.0,
      "step": 263
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 89.58333587646484,
      "epoch": 1.9776119402985075,
      "grad_norm": 3.827431790829969,
      "learning_rate": 9.850746268656717e-08,
      "loss": 0.0426,
      "reward": 1.7222222089767456,
      "reward_std": 0.28637224435806274,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 0.944444477558136,
      "step": 264
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 96.27777862548828,
      "epoch": 1.9850746268656716,
      "grad_norm": 7.18860997964886,
      "learning_rate": 9.888059701492536e-08,
      "loss": -0.0209,
      "reward": 1.4166666269302368,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.4166666567325592,
      "rewards/format_reward": 1.0,
      "step": 265
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 97.41667175292969,
      "epoch": 1.9925373134328357,
      "grad_norm": 3.25912526705129,
      "learning_rate": 9.925373134328358e-08,
      "loss": -0.0121,
      "reward": 1.5555555820465088,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 266
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 108.30555725097656,
      "epoch": 2.0074626865671643,
      "grad_norm": 6.576721648322182,
      "learning_rate": 9.962686567164179e-08,
      "loss": 0.036,
      "reward": 1.5277777910232544,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 267
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 86.36111450195312,
      "epoch": 2.014925373134328,
      "grad_norm": 6.559997806969322,
      "learning_rate": 1e-07,
      "loss": -0.0148,
      "reward": 1.6666666269302368,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 268
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 90.1388931274414,
      "epoch": 2.0223880597014925,
      "grad_norm": 2.557424370250731,
      "learning_rate": 1.003731343283582e-07,
      "loss": -0.0139,
      "reward": 1.6666666269302368,
      "reward_std": 0.12830005586147308,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 269
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 90.61111450195312,
      "epoch": 2.029850746268657,
      "grad_norm": 3.4283428359378565,
      "learning_rate": 1.0074626865671641e-07,
      "loss": 0.0312,
      "reward": 1.5555555820465088,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 270
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 98.55555725097656,
      "epoch": 2.0373134328358207,
      "grad_norm": 11.83809285770176,
      "learning_rate": 1.0111940298507463e-07,
      "loss": -0.0018,
      "reward": 1.5833333730697632,
      "reward_std": 0.34192779660224915,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 271
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 101.16666412353516,
      "epoch": 2.044776119402985,
      "grad_norm": 4.817131661062967,
      "learning_rate": 1.0149253731343282e-07,
      "loss": 0.0214,
      "reward": 1.8055555820465088,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 272
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 95.75,
      "epoch": 2.0522388059701493,
      "grad_norm": 4.910111342181681,
      "learning_rate": 1.0186567164179103e-07,
      "loss": -0.029,
      "reward": 1.4444444179534912,
      "reward_std": 0.4318612813949585,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 273
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 100.6388931274414,
      "epoch": 2.0597014925373136,
      "grad_norm": 4.696096133184201,
      "learning_rate": 1.0223880597014925e-07,
      "loss": -0.0658,
      "reward": 1.5555555820465088,
      "reward_std": 0.414672315120697,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 274
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 99.08333587646484,
      "epoch": 2.0671641791044775,
      "grad_norm": 5.9652595756873,
      "learning_rate": 1.0261194029850746e-07,
      "loss": -0.0011,
      "reward": 1.5555555820465088,
      "reward_std": 0.2222222238779068,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 275
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 86.52777862548828,
      "epoch": 2.074626865671642,
      "grad_norm": 4.546069855134548,
      "learning_rate": 1.0298507462686567e-07,
      "loss": 0.0302,
      "reward": 1.6666666269302368,
      "reward_std": 0.28637224435806274,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 276
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 90.5,
      "epoch": 2.082089552238806,
      "grad_norm": 3.116666968522006,
      "learning_rate": 1.0335820895522387e-07,
      "loss": 0.055,
      "reward": 1.4722222089767456,
      "reward_std": 0.2949667274951935,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 1.0,
      "step": 277
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 95.97222137451172,
      "epoch": 2.08955223880597,
      "grad_norm": 7.702101533328854,
      "learning_rate": 1.0373134328358208e-07,
      "loss": 0.0903,
      "reward": 1.638888955116272,
      "reward_std": 0.34192779660224915,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 278
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 88.58333587646484,
      "epoch": 2.0970149253731343,
      "grad_norm": 3.3541492799352937,
      "learning_rate": 1.041044776119403e-07,
      "loss": -0.0059,
      "reward": 1.4722222089767456,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 1.0,
      "step": 279
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 101.86111450195312,
      "epoch": 2.1044776119402986,
      "grad_norm": 3.712057326733724,
      "learning_rate": 1.044776119402985e-07,
      "loss": 0.0407,
      "reward": 1.5277777910232544,
      "reward_std": 0.2949667274951935,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 280
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 90.3888931274414,
      "epoch": 2.111940298507463,
      "grad_norm": 3.425430157441795,
      "learning_rate": 1.0485074626865672e-07,
      "loss": -0.0146,
      "reward": 1.4444444179534912,
      "reward_std": 0.28637224435806274,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 0.9722222089767456,
      "step": 281
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 80.72222137451172,
      "epoch": 2.1194029850746268,
      "grad_norm": 3.1978487260036483,
      "learning_rate": 1.0522388059701492e-07,
      "loss": -0.0427,
      "reward": 1.5833333730697632,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 282
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 95.27777862548828,
      "epoch": 2.126865671641791,
      "grad_norm": 3.6654029279566966,
      "learning_rate": 1.0559701492537312e-07,
      "loss": -0.0707,
      "reward": 1.4722222089767456,
      "reward_std": 0.38568857312202454,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 0.9722222089767456,
      "step": 283
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 90.19444274902344,
      "epoch": 2.1343283582089554,
      "grad_norm": 9.362063357151307,
      "learning_rate": 1.0597014925373134e-07,
      "loss": -0.0176,
      "reward": 1.5,
      "reward_std": 0.3505222797393799,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 284
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 99.25,
      "epoch": 2.1417910447761193,
      "grad_norm": 3.064492212247737,
      "learning_rate": 1.0634328358208955e-07,
      "loss": 0.0236,
      "reward": 1.388888955116272,
      "reward_std": 0.19245009124279022,
      "rewards/accuracy_reward": 0.3888888955116272,
      "rewards/format_reward": 1.0,
      "step": 285
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 83.30555725097656,
      "epoch": 2.1492537313432836,
      "grad_norm": 4.416325436600688,
      "learning_rate": 1.0671641791044777e-07,
      "loss": 0.139,
      "reward": 1.5555555820465088,
      "reward_std": 0.23941117525100708,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 286
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 107.58333587646484,
      "epoch": 2.156716417910448,
      "grad_norm": 4.786963596435378,
      "learning_rate": 1.0708955223880596e-07,
      "loss": -0.0129,
      "reward": 1.3611111640930176,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.3611111044883728,
      "rewards/format_reward": 1.0,
      "step": 287
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 75.16666412353516,
      "epoch": 2.1641791044776117,
      "grad_norm": 3.143547285412549,
      "learning_rate": 1.0746268656716417e-07,
      "loss": -0.0236,
      "reward": 1.6111111640930176,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 288
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 96.5,
      "epoch": 2.171641791044776,
      "grad_norm": 3.150841737523684,
      "learning_rate": 1.0783582089552239e-07,
      "loss": -0.0031,
      "reward": 1.3055555820465088,
      "reward_std": 0.3591167628765106,
      "rewards/accuracy_reward": 0.3333333432674408,
      "rewards/format_reward": 0.9722222089767456,
      "step": 289
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 85.0,
      "epoch": 2.1791044776119404,
      "grad_norm": 4.583098202163112,
      "learning_rate": 1.0820895522388058e-07,
      "loss": -0.0033,
      "reward": 1.6111111640930176,
      "reward_std": 0.5257834196090698,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 0.944444477558136,
      "step": 290
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 87.75,
      "epoch": 2.1865671641791047,
      "grad_norm": 2.3963819560365924,
      "learning_rate": 1.085820895522388e-07,
      "loss": 0.0555,
      "reward": 1.7777777910232544,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 291
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 89.44444274902344,
      "epoch": 2.1940298507462686,
      "grad_norm": 3.519369364259054,
      "learning_rate": 1.0895522388059701e-07,
      "loss": 0.0066,
      "reward": 1.75,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 292
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 103.33333587646484,
      "epoch": 2.201492537313433,
      "grad_norm": 5.868692924467089,
      "learning_rate": 1.0932835820895522e-07,
      "loss": -0.0489,
      "reward": 1.6111111640930176,
      "reward_std": 0.3333333432674408,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 293
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.33333587646484,
      "epoch": 2.208955223880597,
      "grad_norm": 5.6853783039133265,
      "learning_rate": 1.0970149253731343e-07,
      "loss": 0.0779,
      "reward": 1.5833333730697632,
      "reward_std": 0.4060778319835663,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 0.9722222089767456,
      "step": 294
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 102.83333587646484,
      "epoch": 2.216417910447761,
      "grad_norm": 3.6231618326178645,
      "learning_rate": 1.1007462686567163e-07,
      "loss": -0.0009,
      "reward": 1.5,
      "reward_std": 0.28637224435806274,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 295
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 76.94444274902344,
      "epoch": 2.2238805970149254,
      "grad_norm": 3.431717943324898,
      "learning_rate": 1.1044776119402985e-07,
      "loss": 0.0501,
      "reward": 1.5277777910232544,
      "reward_std": 0.18385560810565948,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 296
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 98.30555725097656,
      "epoch": 2.2313432835820897,
      "grad_norm": 3.48586770700928,
      "learning_rate": 1.1082089552238806e-07,
      "loss": 0.0022,
      "reward": 1.3333333730697632,
      "reward_std": 0.28637224435806274,
      "rewards/accuracy_reward": 0.3333333432674408,
      "rewards/format_reward": 1.0,
      "step": 297
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 90.52777862548828,
      "epoch": 2.2388059701492535,
      "grad_norm": 6.091448081041563,
      "learning_rate": 1.1119402985074626e-07,
      "loss": 0.0098,
      "reward": 1.2777777910232544,
      "reward_std": 0.2222222238779068,
      "rewards/accuracy_reward": 0.2777777910232544,
      "rewards/format_reward": 1.0,
      "step": 298
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 77.22222137451172,
      "epoch": 2.246268656716418,
      "grad_norm": 2.4339033943407693,
      "learning_rate": 1.1156716417910448e-07,
      "loss": -0.0351,
      "reward": 1.75,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 299
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 90.5,
      "epoch": 2.253731343283582,
      "grad_norm": 4.5694781802858495,
      "learning_rate": 1.1194029850746268e-07,
      "loss": -0.028,
      "reward": 1.8055555820465088,
      "reward_std": 0.2949667274951935,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 300
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 103.22222137451172,
      "epoch": 2.2611940298507465,
      "grad_norm": 4.541816548216542,
      "learning_rate": 1.1231343283582088e-07,
      "loss": -0.0397,
      "reward": 1.4444444179534912,
      "reward_std": 0.2222222238779068,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 301
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 89.44444274902344,
      "epoch": 2.2686567164179103,
      "grad_norm": 4.309872532116747,
      "learning_rate": 1.126865671641791e-07,
      "loss": -0.0035,
      "reward": 1.6111111640930176,
      "reward_std": 0.2222222238779068,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 0.9722222089767456,
      "step": 302
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 105.08333587646484,
      "epoch": 2.2761194029850746,
      "grad_norm": 7.082188607230782,
      "learning_rate": 1.130597014925373e-07,
      "loss": 0.0073,
      "reward": 1.3055555820465088,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.3055555522441864,
      "rewards/format_reward": 1.0,
      "step": 303
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 95.30555725097656,
      "epoch": 2.283582089552239,
      "grad_norm": 4.241419517614737,
      "learning_rate": 1.1343283582089553e-07,
      "loss": -0.0314,
      "reward": 1.5555555820465088,
      "reward_std": 0.39748334884643555,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 304
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 99.22222137451172,
      "epoch": 2.291044776119403,
      "grad_norm": 4.411572596005005,
      "learning_rate": 1.1380597014925372e-07,
      "loss": 0.1109,
      "reward": 1.7777777910232544,
      "reward_std": 0.28637224435806274,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 305
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 102.91666412353516,
      "epoch": 2.298507462686567,
      "grad_norm": 3.527954774267406,
      "learning_rate": 1.1417910447761193e-07,
      "loss": 0.0604,
      "reward": 1.638888955116272,
      "reward_std": 0.2949667274951935,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 306
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 89.69444274902344,
      "epoch": 2.3059701492537314,
      "grad_norm": 3.1572427827510445,
      "learning_rate": 1.1455223880597015e-07,
      "loss": 0.0174,
      "reward": 1.6111111640930176,
      "reward_std": 0.28637224435806274,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 307
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 99.58333587646484,
      "epoch": 2.3134328358208958,
      "grad_norm": 5.685808418270927,
      "learning_rate": 1.1492537313432834e-07,
      "loss": 0.0191,
      "reward": 1.4444444179534912,
      "reward_std": 0.337197482585907,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 0.944444477558136,
      "step": 308
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 103.16666412353516,
      "epoch": 2.3208955223880596,
      "grad_norm": 2.6692162226741387,
      "learning_rate": 1.1529850746268656e-07,
      "loss": 0.0086,
      "reward": 1.5555555820465088,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 309
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 90.52777862548828,
      "epoch": 2.328358208955224,
      "grad_norm": 2.4646089058294884,
      "learning_rate": 1.1567164179104477e-07,
      "loss": 0.0412,
      "reward": 1.75,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 310
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 100.66666412353516,
      "epoch": 2.3358208955223883,
      "grad_norm": 9.297911905488704,
      "learning_rate": 1.1604477611940298e-07,
      "loss": 0.0171,
      "reward": 1.3055555820465088,
      "reward_std": 0.2949667274951935,
      "rewards/accuracy_reward": 0.3055555522441864,
      "rewards/format_reward": 1.0,
      "step": 311
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 104.69444274902344,
      "epoch": 2.343283582089552,
      "grad_norm": 3.180925795932138,
      "learning_rate": 1.1641791044776119e-07,
      "loss": -0.0122,
      "reward": 1.4722222089767456,
      "reward_std": 0.2949667274951935,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 1.0,
      "step": 312
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 94.94444274902344,
      "epoch": 2.3507462686567164,
      "grad_norm": 11.628249707549546,
      "learning_rate": 1.1679104477611939e-07,
      "loss": -0.0032,
      "reward": 1.5833333730697632,
      "reward_std": 0.2777777910232544,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 313
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 84.05555725097656,
      "epoch": 2.3582089552238807,
      "grad_norm": 2.649208374399032,
      "learning_rate": 1.1716417910447761e-07,
      "loss": -0.0169,
      "reward": 1.6944444179534912,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 314
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 111.55555725097656,
      "epoch": 2.3656716417910446,
      "grad_norm": 5.784292987185097,
      "learning_rate": 1.1753731343283582e-07,
      "loss": -0.0297,
      "reward": 1.638888955116272,
      "reward_std": 0.4702278673648834,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 315
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 90.22222137451172,
      "epoch": 2.373134328358209,
      "grad_norm": 6.707904109857851,
      "learning_rate": 1.1791044776119401e-07,
      "loss": -0.0181,
      "reward": 1.5833333730697632,
      "reward_std": 0.2816419303417206,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 0.9722222089767456,
      "step": 316
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 83.05555725097656,
      "epoch": 2.3805970149253732,
      "grad_norm": 3.4978072128038966,
      "learning_rate": 1.1828358208955224e-07,
      "loss": -0.0432,
      "reward": 1.638888955116272,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 317
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 98.97222137451172,
      "epoch": 2.388059701492537,
      "grad_norm": 3.312837815415078,
      "learning_rate": 1.1865671641791044e-07,
      "loss": -0.0016,
      "reward": 1.5277777910232544,
      "reward_std": 0.18385560810565948,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 318
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.6388931274414,
      "epoch": 2.3955223880597014,
      "grad_norm": 3.4135800107024536,
      "learning_rate": 1.1902985074626865e-07,
      "loss": 0.047,
      "reward": 1.7777777910232544,
      "reward_std": 0.23941117525100708,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 319
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 106.1388931274414,
      "epoch": 2.4029850746268657,
      "grad_norm": 2.8869134908057856,
      "learning_rate": 1.1940298507462686e-07,
      "loss": -0.0619,
      "reward": 1.6666666269302368,
      "reward_std": 0.12830005586147308,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 320
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 80.0,
      "epoch": 2.41044776119403,
      "grad_norm": 4.730958425157984,
      "learning_rate": 1.1977611940298506e-07,
      "loss": -0.0329,
      "reward": 1.6666666269302368,
      "reward_std": 0.28637224435806274,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 321
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 106.97222137451172,
      "epoch": 2.417910447761194,
      "grad_norm": 5.525192241236482,
      "learning_rate": 1.2014925373134327e-07,
      "loss": 0.007,
      "reward": 1.4444444179534912,
      "reward_std": 0.3505222797393799,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 322
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 83.77777862548828,
      "epoch": 2.425373134328358,
      "grad_norm": 1.9128471766392663,
      "learning_rate": 1.2052238805970148e-07,
      "loss": -0.0044,
      "reward": 1.5833333730697632,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 323
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 89.30555725097656,
      "epoch": 2.4328358208955225,
      "grad_norm": 3.3787067222406213,
      "learning_rate": 1.208955223880597e-07,
      "loss": -0.0137,
      "reward": 1.4444444179534912,
      "reward_std": 0.23941117525100708,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 324
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 98.27777862548828,
      "epoch": 2.4402985074626864,
      "grad_norm": 3.7674755313099975,
      "learning_rate": 1.2126865671641792e-07,
      "loss": 0.0271,
      "reward": 1.638888955116272,
      "reward_std": 0.2949667274951935,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 0.9722222089767456,
      "step": 325
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 101.66666412353516,
      "epoch": 2.4477611940298507,
      "grad_norm": 1.4812930467198344,
      "learning_rate": 1.216417910447761e-07,
      "loss": -0.003,
      "reward": 1.5,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 326
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.97222137451172,
      "epoch": 2.455223880597015,
      "grad_norm": 2.824840610367587,
      "learning_rate": 1.220149253731343e-07,
      "loss": -0.0175,
      "reward": 1.6944444179534912,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 327
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 91.55555725097656,
      "epoch": 2.4626865671641793,
      "grad_norm": 3.303131215704138,
      "learning_rate": 1.2238805970149254e-07,
      "loss": 0.0193,
      "reward": 1.4722222089767456,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 1.0,
      "step": 328
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 93.97222137451172,
      "epoch": 2.470149253731343,
      "grad_norm": 3.942682005128843,
      "learning_rate": 1.2276119402985075e-07,
      "loss": -0.0042,
      "reward": 1.5,
      "reward_std": 0.36771121621131897,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 329
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.6388931274414,
      "epoch": 2.4776119402985075,
      "grad_norm": 14.68986799010089,
      "learning_rate": 1.2313432835820893e-07,
      "loss": 0.0467,
      "reward": 1.638888955116272,
      "reward_std": 0.2777777910232544,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 330
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 89.55555725097656,
      "epoch": 2.485074626865672,
      "grad_norm": 2.9330871711018474,
      "learning_rate": 1.2350746268656716e-07,
      "loss": 0.0311,
      "reward": 1.3333333730697632,
      "reward_std": 0.2222222238779068,
      "rewards/accuracy_reward": 0.3333333432674408,
      "rewards/format_reward": 1.0,
      "step": 331
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 90.86111450195312,
      "epoch": 2.4925373134328357,
      "grad_norm": 5.371674832156211,
      "learning_rate": 1.2388059701492537e-07,
      "loss": -0.0327,
      "reward": 1.6111111640930176,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 332
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 94.08333587646484,
      "epoch": 2.5,
      "grad_norm": 2.9091835031599453,
      "learning_rate": 1.2425373134328358e-07,
      "loss": -0.0018,
      "reward": 1.4166666269302368,
      "reward_std": 0.2777777910232544,
      "rewards/accuracy_reward": 0.4166666567325592,
      "rewards/format_reward": 1.0,
      "step": 333
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 86.58333587646484,
      "epoch": 2.5074626865671643,
      "grad_norm": 3.781667350386142,
      "learning_rate": 1.246268656716418e-07,
      "loss": 0.0,
      "reward": 1.5833333730697632,
      "reward_std": 0.18385560810565948,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 334
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 89.80555725097656,
      "epoch": 2.5149253731343286,
      "grad_norm": 2.2961764001507006,
      "learning_rate": 1.25e-07,
      "loss": -0.0064,
      "reward": 1.388888955116272,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.3888888955116272,
      "rewards/format_reward": 1.0,
      "step": 335
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 87.66666412353516,
      "epoch": 2.5223880597014925,
      "grad_norm": 4.531282653778878,
      "learning_rate": 1.253731343283582e-07,
      "loss": -0.0474,
      "reward": 1.5277777910232544,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 336
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 109.97222137451172,
      "epoch": 2.529850746268657,
      "grad_norm": 1.2041325356736434,
      "learning_rate": 1.257462686567164e-07,
      "loss": 0.0061,
      "reward": 1.388888955116272,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.3888888955116272,
      "rewards/format_reward": 1.0,
      "step": 337
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 94.16666412353516,
      "epoch": 2.5373134328358207,
      "grad_norm": 3.343863464357245,
      "learning_rate": 1.2611940298507462e-07,
      "loss": -0.0456,
      "reward": 1.75,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 338
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 106.41666412353516,
      "epoch": 2.544776119402985,
      "grad_norm": 2.5754626777377054,
      "learning_rate": 1.2649253731343282e-07,
      "loss": -0.0021,
      "reward": 1.5833333730697632,
      "reward_std": 0.18385560810565948,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 339
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.0,
      "epoch": 2.5522388059701493,
      "grad_norm": 3.3973036069695177,
      "learning_rate": 1.2686567164179106e-07,
      "loss": -0.0003,
      "reward": 1.5277777910232544,
      "reward_std": 0.3927530348300934,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 0.9722222089767456,
      "step": 340
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 108.47222137451172,
      "epoch": 2.5597014925373136,
      "grad_norm": 2.8385221379547985,
      "learning_rate": 1.2723880597014924e-07,
      "loss": -0.0072,
      "reward": 1.4444444179534912,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 341
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 101.27777862548828,
      "epoch": 2.5671641791044775,
      "grad_norm": 27.010369337122253,
      "learning_rate": 1.2761194029850747e-07,
      "loss": 0.0211,
      "reward": 1.5555555820465088,
      "reward_std": 0.3770941197872162,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 0.9722222089767456,
      "step": 342
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 104.77777862548828,
      "epoch": 2.574626865671642,
      "grad_norm": 1.9322087302761968,
      "learning_rate": 1.2798507462686568e-07,
      "loss": -0.017,
      "reward": 1.4444444179534912,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 343
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 85.27777862548828,
      "epoch": 2.582089552238806,
      "grad_norm": 3.611529827511315,
      "learning_rate": 1.2835820895522386e-07,
      "loss": -0.0097,
      "reward": 1.5833333730697632,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 344
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 86.91666412353516,
      "epoch": 2.58955223880597,
      "grad_norm": 2.210854012903067,
      "learning_rate": 1.287313432835821e-07,
      "loss": -0.0219,
      "reward": 1.6111111640930176,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 345
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 100.94444274902344,
      "epoch": 2.5970149253731343,
      "grad_norm": 5.966337236221211,
      "learning_rate": 1.291044776119403e-07,
      "loss": -0.012,
      "reward": 1.6111111640930176,
      "reward_std": 0.3505222797393799,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 346
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 90.55555725097656,
      "epoch": 2.6044776119402986,
      "grad_norm": 4.551204593831507,
      "learning_rate": 1.2947761194029848e-07,
      "loss": -0.002,
      "reward": 1.5555555820465088,
      "reward_std": 0.3505222797393799,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 0.9722222089767456,
      "step": 347
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 94.1388931274414,
      "epoch": 2.611940298507463,
      "grad_norm": 6.583296782565421,
      "learning_rate": 1.2985074626865672e-07,
      "loss": 0.0214,
      "reward": 1.6944444179534912,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 348
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 97.30555725097656,
      "epoch": 2.6194029850746268,
      "grad_norm": 4.574521724908316,
      "learning_rate": 1.3022388059701492e-07,
      "loss": 0.002,
      "reward": 1.5833333730697632,
      "reward_std": 0.34192779660224915,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 349
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 88.30555725097656,
      "epoch": 2.626865671641791,
      "grad_norm": 3.3398824228342328,
      "learning_rate": 1.305970149253731e-07,
      "loss": -0.0128,
      "reward": 1.6944444179534912,
      "reward_std": 0.2949667274951935,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 350
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 91.86111450195312,
      "epoch": 2.6343283582089554,
      "grad_norm": 6.120636717196511,
      "learning_rate": 1.3097014925373134e-07,
      "loss": -0.0157,
      "reward": 1.5555555820465088,
      "reward_std": 0.414672315120697,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 351
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 98.30555725097656,
      "epoch": 2.6417910447761193,
      "grad_norm": 3.331901115067816,
      "learning_rate": 1.3134328358208955e-07,
      "loss": 0.0242,
      "reward": 1.6111111640930176,
      "reward_std": 0.2222222238779068,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 352
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 87.41666412353516,
      "epoch": 2.6492537313432836,
      "grad_norm": 9.667911764331068,
      "learning_rate": 1.3171641791044778e-07,
      "loss": -0.0293,
      "reward": 1.8611111640930176,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 353
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.6388931274414,
      "epoch": 2.656716417910448,
      "grad_norm": 6.7344595081364345,
      "learning_rate": 1.3208955223880596e-07,
      "loss": -0.019,
      "reward": 1.6944444179534912,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 354
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 99.69444274902344,
      "epoch": 2.664179104477612,
      "grad_norm": 3.5359270577549182,
      "learning_rate": 1.3246268656716417e-07,
      "loss": -0.0219,
      "reward": 1.5277777910232544,
      "reward_std": 0.31215566396713257,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 355
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 97.6388931274414,
      "epoch": 2.671641791044776,
      "grad_norm": 4.313085694695638,
      "learning_rate": 1.328358208955224e-07,
      "loss": -0.0249,
      "reward": 1.4444444179534912,
      "reward_std": 0.3505222797393799,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 0.9722222089767456,
      "step": 356
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 96.80555725097656,
      "epoch": 2.6791044776119404,
      "grad_norm": 2.5275238608547332,
      "learning_rate": 1.3320895522388058e-07,
      "loss": 0.0032,
      "reward": 1.6666666269302368,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 357
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 113.0,
      "epoch": 2.6865671641791042,
      "grad_norm": 4.781594682884512,
      "learning_rate": 1.335820895522388e-07,
      "loss": 0.0001,
      "reward": 1.5277777910232544,
      "reward_std": 0.4702278673648834,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 0.9722222089767456,
      "step": 358
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 86.3888931274414,
      "epoch": 2.6940298507462686,
      "grad_norm": 15.743401356364966,
      "learning_rate": 1.3395522388059702e-07,
      "loss": -0.0007,
      "reward": 1.7222222089767456,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 359
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 104.58333587646484,
      "epoch": 2.701492537313433,
      "grad_norm": 3.4062568632920214,
      "learning_rate": 1.343283582089552e-07,
      "loss": -0.0453,
      "reward": 1.6944444179534912,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 360
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 91.30555725097656,
      "epoch": 2.708955223880597,
      "grad_norm": 2.993693224583829,
      "learning_rate": 1.347014925373134e-07,
      "loss": -0.0088,
      "reward": 1.6944444179534912,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 361
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 104.83333587646484,
      "epoch": 2.716417910447761,
      "grad_norm": 3.6400868382895393,
      "learning_rate": 1.3507462686567165e-07,
      "loss": -0.0187,
      "reward": 1.4444444179534912,
      "reward_std": 0.2222222238779068,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 362
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 90.6388931274414,
      "epoch": 2.7238805970149254,
      "grad_norm": 4.1755963291037554,
      "learning_rate": 1.3544776119402985e-07,
      "loss": 0.0193,
      "reward": 1.3333333730697632,
      "reward_std": 0.28637224435806274,
      "rewards/accuracy_reward": 0.3333333432674408,
      "rewards/format_reward": 1.0,
      "step": 363
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 105.02777862548828,
      "epoch": 2.7313432835820897,
      "grad_norm": 3.2847704082567533,
      "learning_rate": 1.3582089552238803e-07,
      "loss": 0.1288,
      "reward": 1.8055555820465088,
      "reward_std": 0.2777777910232544,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 364
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 93.33333587646484,
      "epoch": 2.7388059701492535,
      "grad_norm": 4.010008674997675,
      "learning_rate": 1.3619402985074627e-07,
      "loss": -0.0066,
      "reward": 1.638888955116272,
      "reward_std": 0.24800565838813782,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 365
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 97.91666412353516,
      "epoch": 2.746268656716418,
      "grad_norm": 2.407594779067125,
      "learning_rate": 1.3656716417910448e-07,
      "loss": -0.008,
      "reward": 1.3333333730697632,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.3333333432674408,
      "rewards/format_reward": 1.0,
      "step": 366
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 88.3888931274414,
      "epoch": 2.753731343283582,
      "grad_norm": 1.8912675146884856,
      "learning_rate": 1.3694029850746268e-07,
      "loss": -0.0084,
      "reward": 1.4722222089767456,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 1.0,
      "step": 367
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 90.33333587646484,
      "epoch": 2.7611940298507465,
      "grad_norm": 4.104596937896232,
      "learning_rate": 1.373134328358209e-07,
      "loss": 0.0748,
      "reward": 1.6666666269302368,
      "reward_std": 0.28637224435806274,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 368
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 117.75,
      "epoch": 2.7686567164179103,
      "grad_norm": 22.132249277532583,
      "learning_rate": 1.376865671641791e-07,
      "loss": 0.0556,
      "reward": 1.5833333730697632,
      "reward_std": 0.4060778021812439,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 0.9722222089767456,
      "step": 369
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 95.72222137451172,
      "epoch": 2.7761194029850746,
      "grad_norm": 3.4946169365316297,
      "learning_rate": 1.380597014925373e-07,
      "loss": 0.0584,
      "reward": 1.6944444179534912,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 370
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 89.0,
      "epoch": 2.783582089552239,
      "grad_norm": 4.822417916706948,
      "learning_rate": 1.384328358208955e-07,
      "loss": -0.0079,
      "reward": 1.75,
      "reward_std": 0.18385560810565948,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 371
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 97.0,
      "epoch": 2.791044776119403,
      "grad_norm": 3.137188956428139,
      "learning_rate": 1.3880597014925372e-07,
      "loss": -0.0227,
      "reward": 1.5,
      "reward_std": 0.2222222238779068,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 0.9722222089767456,
      "step": 372
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 89.83333587646484,
      "epoch": 2.798507462686567,
      "grad_norm": 7.607010424310085,
      "learning_rate": 1.3917910447761195e-07,
      "loss": -0.0344,
      "reward": 1.5277777910232544,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 373
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 99.02777862548828,
      "epoch": 2.8059701492537314,
      "grad_norm": 2.4854747808784188,
      "learning_rate": 1.3955223880597013e-07,
      "loss": 0.0221,
      "reward": 1.3611111640930176,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.3611111044883728,
      "rewards/format_reward": 1.0,
      "step": 374
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 95.91666412353516,
      "epoch": 2.8134328358208958,
      "grad_norm": 3.637739923391132,
      "learning_rate": 1.3992537313432834e-07,
      "loss": -0.0525,
      "reward": 1.5833333730697632,
      "reward_std": 0.4060778319835663,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 375
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 86.0,
      "epoch": 2.8208955223880596,
      "grad_norm": 5.120428368922636,
      "learning_rate": 1.4029850746268658e-07,
      "loss": 0.0033,
      "reward": 1.5833333730697632,
      "reward_std": 0.2949667274951935,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 376
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 100.44444274902344,
      "epoch": 2.828358208955224,
      "grad_norm": 4.65786463302828,
      "learning_rate": 1.4067164179104476e-07,
      "loss": -0.0558,
      "reward": 1.638888955116272,
      "reward_std": 0.2949667274951935,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 377
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 96.80555725097656,
      "epoch": 2.835820895522388,
      "grad_norm": 5.174826184651894,
      "learning_rate": 1.41044776119403e-07,
      "loss": -0.0532,
      "reward": 1.5,
      "reward_std": 0.3505222797393799,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 378
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 99.86111450195312,
      "epoch": 2.843283582089552,
      "grad_norm": 11.365779457439995,
      "learning_rate": 1.414179104477612e-07,
      "loss": 0.0055,
      "reward": 1.6666666269302368,
      "reward_std": 0.28637224435806274,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 379
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 89.86111450195312,
      "epoch": 2.8507462686567164,
      "grad_norm": 2.5000305562146523,
      "learning_rate": 1.4179104477611938e-07,
      "loss": -0.027,
      "reward": 1.5833333730697632,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 380
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 103.61111450195312,
      "epoch": 2.8582089552238807,
      "grad_norm": 3.6865946723374496,
      "learning_rate": 1.421641791044776e-07,
      "loss": 0.031,
      "reward": 1.7222222089767456,
      "reward_std": 0.28637224435806274,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 381
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 100.25,
      "epoch": 2.8656716417910446,
      "grad_norm": 3.6118140271664276,
      "learning_rate": 1.4253731343283582e-07,
      "loss": -0.0327,
      "reward": 1.6666666269302368,
      "reward_std": 0.28637224435806274,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 382
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 89.6388931274414,
      "epoch": 2.873134328358209,
      "grad_norm": 27.71985124289787,
      "learning_rate": 1.4291044776119403e-07,
      "loss": 0.0342,
      "reward": 1.6944444179534912,
      "reward_std": 0.2777777910232544,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 383
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 98.33333587646484,
      "epoch": 2.8805970149253732,
      "grad_norm": 5.338159195805407,
      "learning_rate": 1.4328358208955223e-07,
      "loss": -0.0409,
      "reward": 1.888888955116272,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 384
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 104.47222137451172,
      "epoch": 2.888059701492537,
      "grad_norm": 7.526371575690768,
      "learning_rate": 1.4365671641791044e-07,
      "loss": -0.0146,
      "reward": 1.5,
      "reward_std": 0.3505222499370575,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 385
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 101.80555725097656,
      "epoch": 2.8955223880597014,
      "grad_norm": 3.019541912749266,
      "learning_rate": 1.4402985074626865e-07,
      "loss": -0.0845,
      "reward": 1.5,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 386
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 90.69444274902344,
      "epoch": 2.9029850746268657,
      "grad_norm": 1.4739697291369809,
      "learning_rate": 1.4440298507462686e-07,
      "loss": -0.0283,
      "reward": 1.638888955116272,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 387
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 105.05555725097656,
      "epoch": 2.91044776119403,
      "grad_norm": 3.0297179475721783,
      "learning_rate": 1.4477611940298506e-07,
      "loss": -0.1032,
      "reward": 1.4722222089767456,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 1.0,
      "step": 388
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 86.33333587646484,
      "epoch": 2.917910447761194,
      "grad_norm": 4.044755126504235,
      "learning_rate": 1.451492537313433e-07,
      "loss": 0.0511,
      "reward": 1.7222222089767456,
      "reward_std": 0.19245009124279022,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 389
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.58333587646484,
      "epoch": 2.925373134328358,
      "grad_norm": 4.98365197997197,
      "learning_rate": 1.4552238805970148e-07,
      "loss": 0.0516,
      "reward": 1.3611111640930176,
      "reward_std": 0.2949667274951935,
      "rewards/accuracy_reward": 0.3888888955116272,
      "rewards/format_reward": 0.9722222089767456,
      "step": 390
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 93.77777862548828,
      "epoch": 2.9328358208955225,
      "grad_norm": 5.3561167221169255,
      "learning_rate": 1.4589552238805969e-07,
      "loss": 0.0187,
      "reward": 1.6111111640930176,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 391
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 95.02777862548828,
      "epoch": 2.9402985074626864,
      "grad_norm": 5.36183141778411,
      "learning_rate": 1.4626865671641792e-07,
      "loss": 0.0658,
      "reward": 1.75,
      "reward_std": 0.3591167628765106,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 392
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 89.3888931274414,
      "epoch": 2.9477611940298507,
      "grad_norm": 5.81590313858692,
      "learning_rate": 1.4664179104477613e-07,
      "loss": 0.0104,
      "reward": 1.5277777910232544,
      "reward_std": 0.5171889066696167,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 393
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 95.97222137451172,
      "epoch": 2.955223880597015,
      "grad_norm": 2.7060094278827926,
      "learning_rate": 1.470149253731343e-07,
      "loss": -0.0192,
      "reward": 1.5833333730697632,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 0.9722222089767456,
      "step": 394
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 101.44444274902344,
      "epoch": 2.9626865671641793,
      "grad_norm": 4.484584695320217,
      "learning_rate": 1.4738805970149254e-07,
      "loss": -0.0044,
      "reward": 1.5833333730697632,
      "reward_std": 0.35911673307418823,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 395
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 103.08333587646484,
      "epoch": 2.970149253731343,
      "grad_norm": 3.2493054014202007,
      "learning_rate": 1.4776119402985075e-07,
      "loss": 0.0111,
      "reward": 1.6944444179534912,
      "reward_std": 0.24800565838813782,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 396
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 88.91666412353516,
      "epoch": 2.9776119402985075,
      "grad_norm": 2.6419500283174733,
      "learning_rate": 1.4813432835820893e-07,
      "loss": -0.0131,
      "reward": 1.6944444179534912,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 397
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 107.08333587646484,
      "epoch": 2.9850746268656714,
      "grad_norm": 4.974735120908446,
      "learning_rate": 1.4850746268656716e-07,
      "loss": 0.0267,
      "reward": 1.4722222089767456,
      "reward_std": 0.4060778021812439,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 1.0,
      "step": 398
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 105.41667175292969,
      "epoch": 2.9925373134328357,
      "grad_norm": 2.9222674658999037,
      "learning_rate": 1.4888059701492537e-07,
      "loss": 0.0316,
      "reward": 1.5277777910232544,
      "reward_std": 0.18385560810565948,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 399
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 88.0,
      "epoch": 3.0074626865671643,
      "grad_norm": 5.611655386383085,
      "learning_rate": 1.4925373134328355e-07,
      "loss": 0.024,
      "reward": 1.5,
      "reward_std": 0.28637224435806274,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 400
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 109.91666412353516,
      "epoch": 3.014925373134328,
      "grad_norm": 3.5862389182537,
      "learning_rate": 1.4962686567164179e-07,
      "loss": 0.0639,
      "reward": 1.5833333730697632,
      "reward_std": 0.3591167628765106,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 401
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 98.8888931274414,
      "epoch": 3.0223880597014925,
      "grad_norm": 1.6900403282474945,
      "learning_rate": 1.5e-07,
      "loss": -0.0141,
      "reward": 1.6111111640930176,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 402
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 98.58333587646484,
      "epoch": 3.029850746268657,
      "grad_norm": 2.6961709910991707,
      "learning_rate": 1.5037313432835823e-07,
      "loss": -0.0129,
      "reward": 1.6944444179534912,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 403
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 113.44444274902344,
      "epoch": 3.0373134328358207,
      "grad_norm": 4.001147294412236,
      "learning_rate": 1.507462686567164e-07,
      "loss": -0.0056,
      "reward": 1.3611111640930176,
      "reward_std": 0.2949667274951935,
      "rewards/accuracy_reward": 0.3611111044883728,
      "rewards/format_reward": 1.0,
      "step": 404
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 98.05555725097656,
      "epoch": 3.044776119402985,
      "grad_norm": 3.3385984075972464,
      "learning_rate": 1.5111940298507462e-07,
      "loss": 0.0048,
      "reward": 1.2777777910232544,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.2777777910232544,
      "rewards/format_reward": 1.0,
      "step": 405
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 103.80555725097656,
      "epoch": 3.0522388059701493,
      "grad_norm": 3.221961239905719,
      "learning_rate": 1.5149253731343285e-07,
      "loss": 0.0383,
      "reward": 1.6666666269302368,
      "reward_std": 0.2222222238779068,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 406
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 100.61111450195312,
      "epoch": 3.0597014925373136,
      "grad_norm": 3.9592662147056767,
      "learning_rate": 1.5186567164179103e-07,
      "loss": -0.0414,
      "reward": 1.5555555820465088,
      "reward_std": 0.23941117525100708,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 0.9722222089767456,
      "step": 407
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 84.3888931274414,
      "epoch": 3.0671641791044775,
      "grad_norm": 4.499901077195121,
      "learning_rate": 1.5223880597014924e-07,
      "loss": -0.0044,
      "reward": 1.5277777910232544,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 408
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 91.58333587646484,
      "epoch": 3.074626865671642,
      "grad_norm": 3.496362331462116,
      "learning_rate": 1.5261194029850747e-07,
      "loss": 0.0093,
      "reward": 1.7222222089767456,
      "reward_std": 0.3035612106323242,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 409
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 98.75,
      "epoch": 3.082089552238806,
      "grad_norm": 3.9955550822226016,
      "learning_rate": 1.5298507462686565e-07,
      "loss": 0.0373,
      "reward": 1.6666666269302368,
      "reward_std": 0.3035612106323242,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 410
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 95.66666412353516,
      "epoch": 3.08955223880597,
      "grad_norm": 3.3485669161086555,
      "learning_rate": 1.5335820895522386e-07,
      "loss": -0.0479,
      "reward": 1.5,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 411
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 94.6388931274414,
      "epoch": 3.0970149253731343,
      "grad_norm": 4.802668066036581,
      "learning_rate": 1.537313432835821e-07,
      "loss": 0.0272,
      "reward": 1.6944444179534912,
      "reward_std": 0.2777777910232544,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 412
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 86.05555725097656,
      "epoch": 3.1044776119402986,
      "grad_norm": 4.736875944674833,
      "learning_rate": 1.5410447761194027e-07,
      "loss": -0.0884,
      "reward": 1.8333333730697632,
      "reward_std": 0.28637224435806274,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 413
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 111.41666412353516,
      "epoch": 3.111940298507463,
      "grad_norm": 3.7783027440370605,
      "learning_rate": 1.544776119402985e-07,
      "loss": 0.0143,
      "reward": 1.4444444179534912,
      "reward_std": 0.3505222797393799,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 414
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 89.41666412353516,
      "epoch": 3.1194029850746268,
      "grad_norm": 3.1109190717271216,
      "learning_rate": 1.5485074626865672e-07,
      "loss": 0.0523,
      "reward": 1.5,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 415
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 93.36111450195312,
      "epoch": 3.126865671641791,
      "grad_norm": 2.835762611627117,
      "learning_rate": 1.5522388059701492e-07,
      "loss": 0.0153,
      "reward": 1.6944444179534912,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 0.9722222089767456,
      "step": 416
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 104.0,
      "epoch": 3.1343283582089554,
      "grad_norm": 4.289033371684195,
      "learning_rate": 1.5559701492537313e-07,
      "loss": 0.0303,
      "reward": 1.638888955116272,
      "reward_std": 0.2949667274951935,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 417
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 99.69444274902344,
      "epoch": 3.1417910447761193,
      "grad_norm": 4.844875948276848,
      "learning_rate": 1.5597014925373134e-07,
      "loss": -0.0284,
      "reward": 1.5833333730697632,
      "reward_std": 0.34192779660224915,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 418
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 98.5,
      "epoch": 3.1492537313432836,
      "grad_norm": 3.299365742566098,
      "learning_rate": 1.5634328358208954e-07,
      "loss": 0.0319,
      "reward": 1.638888955116272,
      "reward_std": 0.24800565838813782,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 419
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.86111450195312,
      "epoch": 3.156716417910448,
      "grad_norm": 4.282983985963221,
      "learning_rate": 1.5671641791044775e-07,
      "loss": 0.0427,
      "reward": 1.638888955116272,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 420
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 100.66666412353516,
      "epoch": 3.1641791044776117,
      "grad_norm": 3.286394646792084,
      "learning_rate": 1.5708955223880596e-07,
      "loss": 0.0225,
      "reward": 1.6944444179534912,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 421
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 94.6388931274414,
      "epoch": 3.171641791044776,
      "grad_norm": 3.045163858547997,
      "learning_rate": 1.5746268656716417e-07,
      "loss": 0.0347,
      "reward": 1.5555555820465088,
      "reward_std": 0.23941117525100708,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 422
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.08333587646484,
      "epoch": 3.1791044776119404,
      "grad_norm": 4.03954362049257,
      "learning_rate": 1.5783582089552237e-07,
      "loss": -0.0031,
      "reward": 1.7222222089767456,
      "reward_std": 0.28637224435806274,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 423
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 99.66666412353516,
      "epoch": 3.1865671641791047,
      "grad_norm": 2.944372644055572,
      "learning_rate": 1.5820895522388058e-07,
      "loss": -0.0043,
      "reward": 1.7777777910232544,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 424
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 98.19444274902344,
      "epoch": 3.1940298507462686,
      "grad_norm": 7.830892550075679,
      "learning_rate": 1.5858208955223882e-07,
      "loss": -0.0055,
      "reward": 1.5555555820465088,
      "reward_std": 0.23941117525100708,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 425
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 101.75,
      "epoch": 3.201492537313433,
      "grad_norm": 4.103816987317488,
      "learning_rate": 1.5895522388059702e-07,
      "loss": -0.0124,
      "reward": 1.6111111640930176,
      "reward_std": 0.28637224435806274,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 426
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 83.16666412353516,
      "epoch": 3.208955223880597,
      "grad_norm": 4.0474972612617925,
      "learning_rate": 1.593283582089552e-07,
      "loss": -0.0294,
      "reward": 1.8055555820465088,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 427
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 89.1388931274414,
      "epoch": 3.216417910447761,
      "grad_norm": 3.2149389215520308,
      "learning_rate": 1.5970149253731344e-07,
      "loss": 0.0595,
      "reward": 1.5555555820465088,
      "reward_std": 0.2222222238779068,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 428
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 108.91666412353516,
      "epoch": 3.2238805970149254,
      "grad_norm": 8.864891136022097,
      "learning_rate": 1.6007462686567164e-07,
      "loss": 0.0115,
      "reward": 1.6666666269302368,
      "reward_std": 0.39748334884643555,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 429
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.86111450195312,
      "epoch": 3.2313432835820897,
      "grad_norm": 3.877368181383116,
      "learning_rate": 1.6044776119402983e-07,
      "loss": -0.0257,
      "reward": 1.5555555820465088,
      "reward_std": 0.2222222238779068,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 430
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 85.33333587646484,
      "epoch": 3.2388059701492535,
      "grad_norm": 3.124979840680011,
      "learning_rate": 1.6082089552238806e-07,
      "loss": 0.0331,
      "reward": 1.8055555820465088,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 431
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 98.94444274902344,
      "epoch": 3.246268656716418,
      "grad_norm": 1.5972849590612104,
      "learning_rate": 1.6119402985074627e-07,
      "loss": 0.0236,
      "reward": 1.5833333730697632,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 432
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 100.0,
      "epoch": 3.253731343283582,
      "grad_norm": 3.6099781527820736,
      "learning_rate": 1.6156716417910445e-07,
      "loss": -0.0295,
      "reward": 1.4444444179534912,
      "reward_std": 0.3505222797393799,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 433
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 109.5,
      "epoch": 3.2611940298507465,
      "grad_norm": 6.333745283277868,
      "learning_rate": 1.6194029850746268e-07,
      "loss": 0.0354,
      "reward": 1.4444444179534912,
      "reward_std": 0.47882235050201416,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 434
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 104.22222137451172,
      "epoch": 3.2686567164179103,
      "grad_norm": 3.427278754187254,
      "learning_rate": 1.623134328358209e-07,
      "loss": 0.0264,
      "reward": 1.7222222089767456,
      "reward_std": 0.3505222797393799,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 435
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 96.97222137451172,
      "epoch": 3.2761194029850746,
      "grad_norm": 6.544520169930309,
      "learning_rate": 1.626865671641791e-07,
      "loss": 0.0467,
      "reward": 1.5555555820465088,
      "reward_std": 0.25660011172294617,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 436
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 108.5,
      "epoch": 3.283582089552239,
      "grad_norm": 3.4419496388064283,
      "learning_rate": 1.630597014925373e-07,
      "loss": -0.0094,
      "reward": 1.638888955116272,
      "reward_std": 0.2949667274951935,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 437
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 103.8888931274414,
      "epoch": 3.291044776119403,
      "grad_norm": 4.818791312235616,
      "learning_rate": 1.634328358208955e-07,
      "loss": -0.0438,
      "reward": 1.3611111640930176,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.3611111044883728,
      "rewards/format_reward": 1.0,
      "step": 438
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 96.05555725097656,
      "epoch": 3.298507462686567,
      "grad_norm": 6.83941366040597,
      "learning_rate": 1.6380597014925374e-07,
      "loss": -0.0813,
      "reward": 1.6666666269302368,
      "reward_std": 0.28637224435806274,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 439
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 103.11111450195312,
      "epoch": 3.3059701492537314,
      "grad_norm": 3.599618857352972,
      "learning_rate": 1.6417910447761193e-07,
      "loss": 0.0183,
      "reward": 1.5555555820465088,
      "reward_std": 0.23941117525100708,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 440
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 98.02777862548828,
      "epoch": 3.3134328358208958,
      "grad_norm": 2.2541184862573362,
      "learning_rate": 1.6455223880597013e-07,
      "loss": -0.0183,
      "reward": 1.6666666269302368,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 441
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 94.80555725097656,
      "epoch": 3.3208955223880596,
      "grad_norm": 2.0662631835524916,
      "learning_rate": 1.6492537313432837e-07,
      "loss": 0.0258,
      "reward": 1.75,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 442
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 83.72222137451172,
      "epoch": 3.328358208955224,
      "grad_norm": 8.181942245330887,
      "learning_rate": 1.6529850746268655e-07,
      "loss": 0.0409,
      "reward": 1.388888955116272,
      "reward_std": 0.3035612106323242,
      "rewards/accuracy_reward": 0.3888888955116272,
      "rewards/format_reward": 1.0,
      "step": 443
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 87.86111450195312,
      "epoch": 3.3358208955223883,
      "grad_norm": 12.59612948514309,
      "learning_rate": 1.6567164179104476e-07,
      "loss": 0.0578,
      "reward": 1.5277777910232544,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 0.9722222089767456,
      "step": 444
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 100.19444274902344,
      "epoch": 3.343283582089552,
      "grad_norm": 8.059675201157251,
      "learning_rate": 1.66044776119403e-07,
      "loss": 0.0025,
      "reward": 1.5833333730697632,
      "reward_std": 0.4060778021812439,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 445
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 100.0,
      "epoch": 3.3507462686567164,
      "grad_norm": 3.9870249563334283,
      "learning_rate": 1.664179104477612e-07,
      "loss": -0.0584,
      "reward": 1.8055555820465088,
      "reward_std": 0.2949667274951935,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 446
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 101.16666412353516,
      "epoch": 3.3582089552238807,
      "grad_norm": 28.0801425050388,
      "learning_rate": 1.6679104477611938e-07,
      "loss": -0.0127,
      "reward": 1.6111111640930176,
      "reward_std": 0.19245009124279022,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 447
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.33333587646484,
      "epoch": 3.3656716417910446,
      "grad_norm": 4.554579429186237,
      "learning_rate": 1.671641791044776e-07,
      "loss": 0.005,
      "reward": 1.5,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 448
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 87.6388931274414,
      "epoch": 3.373134328358209,
      "grad_norm": 3.2129964010294274,
      "learning_rate": 1.6753731343283582e-07,
      "loss": 0.0401,
      "reward": 1.4444444179534912,
      "reward_std": 0.23941117525100708,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 449
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 97.55555725097656,
      "epoch": 3.3805970149253732,
      "grad_norm": 2.225419619141448,
      "learning_rate": 1.6791044776119403e-07,
      "loss": 0.0177,
      "reward": 1.5,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 450
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 98.44444274902344,
      "epoch": 3.388059701492537,
      "grad_norm": 4.441636844519174,
      "learning_rate": 1.6828358208955223e-07,
      "loss": 0.0202,
      "reward": 1.75,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 451
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 96.91666412353516,
      "epoch": 3.3955223880597014,
      "grad_norm": 4.201216756959023,
      "learning_rate": 1.6865671641791044e-07,
      "loss": 0.0084,
      "reward": 1.7222222089767456,
      "reward_std": 0.2222222238779068,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 452
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 89.16666412353516,
      "epoch": 3.4029850746268657,
      "grad_norm": 2.103876717687613,
      "learning_rate": 1.6902985074626865e-07,
      "loss": 0.0021,
      "reward": 1.6944444179534912,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 453
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 97.58333587646484,
      "epoch": 3.41044776119403,
      "grad_norm": 6.845767923804229,
      "learning_rate": 1.6940298507462686e-07,
      "loss": 0.0046,
      "reward": 1.6666666269302368,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 454
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 90.83333587646484,
      "epoch": 3.417910447761194,
      "grad_norm": 3.2572005762327083,
      "learning_rate": 1.6977611940298506e-07,
      "loss": 0.0129,
      "reward": 1.4444444179534912,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 455
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 99.22222137451172,
      "epoch": 3.425373134328358,
      "grad_norm": 4.452492612628453,
      "learning_rate": 1.701492537313433e-07,
      "loss": 0.0427,
      "reward": 1.6111111640930176,
      "reward_std": 0.3505222797393799,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 456
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 86.16666412353516,
      "epoch": 3.4328358208955225,
      "grad_norm": 1.5583555046527389,
      "learning_rate": 1.7052238805970148e-07,
      "loss": -0.0063,
      "reward": 1.5277777910232544,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 457
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 89.0,
      "epoch": 3.4402985074626864,
      "grad_norm": 2.6931559264158023,
      "learning_rate": 1.7089552238805968e-07,
      "loss": -0.0087,
      "reward": 1.3333333730697632,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.3333333432674408,
      "rewards/format_reward": 1.0,
      "step": 458
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 83.19444274902344,
      "epoch": 3.4477611940298507,
      "grad_norm": 0.0,
      "learning_rate": 1.7126865671641792e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 459
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 87.69444274902344,
      "epoch": 3.455223880597015,
      "grad_norm": 3.6185651315876184,
      "learning_rate": 1.716417910447761e-07,
      "loss": -0.0215,
      "reward": 1.6944444179534912,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 460
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 101.27777862548828,
      "epoch": 3.4626865671641793,
      "grad_norm": 16.176135782152677,
      "learning_rate": 1.7201492537313433e-07,
      "loss": -0.0072,
      "reward": 1.4722222089767456,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 1.0,
      "step": 461
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 91.1388931274414,
      "epoch": 3.470149253731343,
      "grad_norm": 2.4137768921629603,
      "learning_rate": 1.7238805970149254e-07,
      "loss": 0.0693,
      "reward": 1.4722222089767456,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 1.0,
      "step": 462
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 89.11111450195312,
      "epoch": 3.4776119402985075,
      "grad_norm": 3.601377024280582,
      "learning_rate": 1.7276119402985072e-07,
      "loss": 0.0708,
      "reward": 1.388888955116272,
      "reward_std": 0.3035612106323242,
      "rewards/accuracy_reward": 0.3888888955116272,
      "rewards/format_reward": 1.0,
      "step": 463
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 90.80555725097656,
      "epoch": 3.485074626865672,
      "grad_norm": 3.245398548804312,
      "learning_rate": 1.7313432835820896e-07,
      "loss": 0.0169,
      "reward": 1.7777777910232544,
      "reward_std": 0.23941117525100708,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 464
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 84.6388931274414,
      "epoch": 3.4925373134328357,
      "grad_norm": 2.5810437097137537,
      "learning_rate": 1.7350746268656716e-07,
      "loss": -0.0013,
      "reward": 1.638888955116272,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 465
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 88.41666412353516,
      "epoch": 3.5,
      "grad_norm": 2.9446925220399396,
      "learning_rate": 1.7388059701492534e-07,
      "loss": 0.05,
      "reward": 1.5,
      "reward_std": 0.23941117525100708,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 466
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 89.5,
      "epoch": 3.5074626865671643,
      "grad_norm": 2.9784983494649317,
      "learning_rate": 1.7425373134328358e-07,
      "loss": -0.0238,
      "reward": 1.4722222089767456,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 1.0,
      "step": 467
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 94.1388931274414,
      "epoch": 3.5149253731343286,
      "grad_norm": 4.462693219224962,
      "learning_rate": 1.7462686567164178e-07,
      "loss": 0.0532,
      "reward": 1.638888955116272,
      "reward_std": 0.42326679825782776,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 468
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 89.83333587646484,
      "epoch": 3.5223880597014925,
      "grad_norm": 2.1168462477218726,
      "learning_rate": 1.75e-07,
      "loss": 0.0047,
      "reward": 1.888888955116272,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 469
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.0,
      "epoch": 3.529850746268657,
      "grad_norm": 10.171534584498238,
      "learning_rate": 1.753731343283582e-07,
      "loss": -0.0205,
      "reward": 1.5277777910232544,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 470
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 82.05555725097656,
      "epoch": 3.5373134328358207,
      "grad_norm": 3.0091160251785025,
      "learning_rate": 1.757462686567164e-07,
      "loss": -0.0245,
      "reward": 1.5277777910232544,
      "reward_std": 0.18385560810565948,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 471
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 83.66666412353516,
      "epoch": 3.544776119402985,
      "grad_norm": 8.931390059255019,
      "learning_rate": 1.7611940298507461e-07,
      "loss": 0.0523,
      "reward": 1.6944444179534912,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 472
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 88.27777862548828,
      "epoch": 3.5522388059701493,
      "grad_norm": 2.87839729080662,
      "learning_rate": 1.7649253731343282e-07,
      "loss": 0.0087,
      "reward": 1.75,
      "reward_std": 0.18385560810565948,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 473
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 104.94444274902344,
      "epoch": 3.5597014925373136,
      "grad_norm": 2.9926747145228143,
      "learning_rate": 1.7686567164179103e-07,
      "loss": -0.0213,
      "reward": 1.3611111640930176,
      "reward_std": 0.24800565838813782,
      "rewards/accuracy_reward": 0.3888888955116272,
      "rewards/format_reward": 0.9722222089767456,
      "step": 474
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.61111450195312,
      "epoch": 3.5671641791044775,
      "grad_norm": 3.6422511759252787,
      "learning_rate": 1.7723880597014926e-07,
      "loss": 0.0027,
      "reward": 1.388888955116272,
      "reward_std": 0.28637224435806274,
      "rewards/accuracy_reward": 0.3888888955116272,
      "rewards/format_reward": 1.0,
      "step": 475
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 84.86111450195312,
      "epoch": 3.574626865671642,
      "grad_norm": 3.8935748590871495,
      "learning_rate": 1.7761194029850744e-07,
      "loss": -0.1081,
      "reward": 1.6111111640930176,
      "reward_std": 0.28637224435806274,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 476
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 96.22222137451172,
      "epoch": 3.582089552238806,
      "grad_norm": 5.675732742357749,
      "learning_rate": 1.7798507462686565e-07,
      "loss": -0.0806,
      "reward": 1.2222222089767456,
      "reward_std": 0.28637224435806274,
      "rewards/accuracy_reward": 0.2222222238779068,
      "rewards/format_reward": 1.0,
      "step": 477
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.52777862548828,
      "epoch": 3.58955223880597,
      "grad_norm": 2.258062454373552,
      "learning_rate": 1.7835820895522388e-07,
      "loss": -0.0603,
      "reward": 1.5555555820465088,
      "reward_std": 0.12830005586147308,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 478
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 91.27777862548828,
      "epoch": 3.5970149253731343,
      "grad_norm": 3.7146935040239395,
      "learning_rate": 1.787313432835821e-07,
      "loss": -0.0138,
      "reward": 1.6111111640930176,
      "reward_std": 0.23941117525100708,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 479
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 79.55555725097656,
      "epoch": 3.6044776119402986,
      "grad_norm": 5.196543387236077,
      "learning_rate": 1.7910447761194027e-07,
      "loss": 0.0043,
      "reward": 1.4444444179534912,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 480
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 83.91666412353516,
      "epoch": 3.611940298507463,
      "grad_norm": 0.0,
      "learning_rate": 1.794776119402985e-07,
      "loss": 0.0,
      "reward": 1.2222222089767456,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.2222222238779068,
      "rewards/format_reward": 1.0,
      "step": 481
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 85.8888931274414,
      "epoch": 3.6194029850746268,
      "grad_norm": 3.823859653068852,
      "learning_rate": 1.7985074626865671e-07,
      "loss": -0.0287,
      "reward": 1.6111111640930176,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 482
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 98.30555725097656,
      "epoch": 3.626865671641791,
      "grad_norm": 4.490120882448431,
      "learning_rate": 1.802238805970149e-07,
      "loss": -0.0022,
      "reward": 1.5,
      "reward_std": 0.2222222238779068,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 483
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 86.44444274902344,
      "epoch": 3.6343283582089554,
      "grad_norm": 4.865800549948043,
      "learning_rate": 1.8059701492537313e-07,
      "loss": 0.018,
      "reward": 1.4722222089767456,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 1.0,
      "step": 484
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 97.27777862548828,
      "epoch": 3.6417910447761193,
      "grad_norm": 3.825315437859637,
      "learning_rate": 1.8097014925373134e-07,
      "loss": -0.0023,
      "reward": 1.4166666269302368,
      "reward_std": 0.34192779660224915,
      "rewards/accuracy_reward": 0.4166666567325592,
      "rewards/format_reward": 1.0,
      "step": 485
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 87.69444274902344,
      "epoch": 3.6492537313432836,
      "grad_norm": 3.0218192092569938,
      "learning_rate": 1.8134328358208954e-07,
      "loss": -0.033,
      "reward": 1.4722222089767456,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 1.0,
      "step": 486
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 91.05555725097656,
      "epoch": 3.656716417910448,
      "grad_norm": 3.9201647828741253,
      "learning_rate": 1.8171641791044775e-07,
      "loss": -0.0395,
      "reward": 1.6944444179534912,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 487
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 85.5,
      "epoch": 3.664179104477612,
      "grad_norm": 3.3940519832205513,
      "learning_rate": 1.8208955223880596e-07,
      "loss": -0.0186,
      "reward": 1.4444444179534912,
      "reward_std": 0.12830005586147308,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 488
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 96.05555725097656,
      "epoch": 3.671641791044776,
      "grad_norm": 1.844999122058815,
      "learning_rate": 1.824626865671642e-07,
      "loss": 0.0127,
      "reward": 1.6944444179534912,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 489
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 88.47222137451172,
      "epoch": 3.6791044776119404,
      "grad_norm": 9.712751526293866,
      "learning_rate": 1.8283582089552237e-07,
      "loss": -0.0652,
      "reward": 1.6666666269302368,
      "reward_std": 0.47882235050201416,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 490
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 94.3888931274414,
      "epoch": 3.6865671641791042,
      "grad_norm": 3.159579215966701,
      "learning_rate": 1.8320895522388058e-07,
      "loss": 0.0098,
      "reward": 1.8055555820465088,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 491
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 81.47222137451172,
      "epoch": 3.6940298507462686,
      "grad_norm": 2.785042405500059,
      "learning_rate": 1.8358208955223881e-07,
      "loss": -0.0048,
      "reward": 1.6666666269302368,
      "reward_std": 0.12830005586147308,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 492
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 86.61111450195312,
      "epoch": 3.701492537313433,
      "grad_norm": 5.446496214602373,
      "learning_rate": 1.83955223880597e-07,
      "loss": -0.0172,
      "reward": 1.4722222089767456,
      "reward_std": 0.2949667274951935,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 1.0,
      "step": 493
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 99.16666412353516,
      "epoch": 3.708955223880597,
      "grad_norm": 3.0771066541197354,
      "learning_rate": 1.843283582089552e-07,
      "loss": -0.0168,
      "reward": 1.5555555820465088,
      "reward_std": 0.2222222238779068,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 494
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 99.27777862548828,
      "epoch": 3.716417910447761,
      "grad_norm": 4.188577562898843,
      "learning_rate": 1.8470149253731344e-07,
      "loss": -0.0162,
      "reward": 1.5555555820465088,
      "reward_std": 0.2222222238779068,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 495
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 108.30555725097656,
      "epoch": 3.7238805970149254,
      "grad_norm": 9.861694082817285,
      "learning_rate": 1.8507462686567162e-07,
      "loss": 0.0041,
      "reward": 1.4722222089767456,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 1.0,
      "step": 496
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 94.36111450195312,
      "epoch": 3.7313432835820897,
      "grad_norm": 0.0,
      "learning_rate": 1.8544776119402985e-07,
      "loss": 0.0,
      "reward": 1.3333333730697632,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.3333333432674408,
      "rewards/format_reward": 1.0,
      "step": 497
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 95.41666412353516,
      "epoch": 3.7388059701492535,
      "grad_norm": 6.980610697886305,
      "learning_rate": 1.8582089552238806e-07,
      "loss": -0.0358,
      "reward": 1.638888955116272,
      "reward_std": 0.18385560810565948,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 498
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 85.66666412353516,
      "epoch": 3.746268656716418,
      "grad_norm": 8.911616953685895,
      "learning_rate": 1.8619402985074627e-07,
      "loss": 0.0151,
      "reward": 1.8611111640930176,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 499
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.19444274902344,
      "epoch": 3.753731343283582,
      "grad_norm": 2.7150778654116356,
      "learning_rate": 1.8656716417910447e-07,
      "loss": -0.0423,
      "reward": 1.7222222089767456,
      "reward_std": 0.23941117525100708,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 500
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 93.0,
      "epoch": 3.7611940298507465,
      "grad_norm": 9.285571045510807,
      "learning_rate": 1.8694029850746268e-07,
      "loss": 0.0198,
      "reward": 1.5833333730697632,
      "reward_std": 0.18385560810565948,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 501
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 95.69444274902344,
      "epoch": 3.7686567164179103,
      "grad_norm": 2.2942711371485345,
      "learning_rate": 1.873134328358209e-07,
      "loss": 0.0109,
      "reward": 1.6944444179534912,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 502
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 103.41666412353516,
      "epoch": 3.7761194029850746,
      "grad_norm": 3.821377411407092,
      "learning_rate": 1.876865671641791e-07,
      "loss": 0.0261,
      "reward": 1.5555555820465088,
      "reward_std": 0.3505222797393799,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 503
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 84.91666412353516,
      "epoch": 3.783582089552239,
      "grad_norm": 4.137841608421447,
      "learning_rate": 1.880597014925373e-07,
      "loss": 0.0277,
      "reward": 1.8611111640930176,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 504
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 101.5,
      "epoch": 3.791044776119403,
      "grad_norm": 3.8526177312671592,
      "learning_rate": 1.884328358208955e-07,
      "loss": 0.012,
      "reward": 1.6111111640930176,
      "reward_std": 0.3035612106323242,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 505
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 90.3888931274414,
      "epoch": 3.798507462686567,
      "grad_norm": 11.186756310765933,
      "learning_rate": 1.8880597014925372e-07,
      "loss": 0.0234,
      "reward": 1.388888955116272,
      "reward_std": 0.3505222797393799,
      "rewards/accuracy_reward": 0.3888888955116272,
      "rewards/format_reward": 1.0,
      "step": 506
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 88.91666412353516,
      "epoch": 3.8059701492537314,
      "grad_norm": 19.95444166408972,
      "learning_rate": 1.8917910447761192e-07,
      "loss": 0.0285,
      "reward": 1.6666666269302368,
      "reward_std": 0.23941117525100708,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 0.9722222089767456,
      "step": 507
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 101.41666412353516,
      "epoch": 3.8134328358208958,
      "grad_norm": 3.805653906213485,
      "learning_rate": 1.8955223880597013e-07,
      "loss": 0.0544,
      "reward": 1.4444444179534912,
      "reward_std": 0.36771121621131897,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 508
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 115.02777862548828,
      "epoch": 3.8208955223880596,
      "grad_norm": 2.0796159582633016,
      "learning_rate": 1.8992537313432837e-07,
      "loss": -0.0265,
      "reward": 1.3333333730697632,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.3333333432674408,
      "rewards/format_reward": 1.0,
      "step": 509
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 91.33333587646484,
      "epoch": 3.828358208955224,
      "grad_norm": 3.8841304626223527,
      "learning_rate": 1.9029850746268655e-07,
      "loss": -0.0179,
      "reward": 1.75,
      "reward_std": 0.2777777910232544,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 510
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 101.86111450195312,
      "epoch": 3.835820895522388,
      "grad_norm": 1.6233215457063603,
      "learning_rate": 1.9067164179104478e-07,
      "loss": -0.0141,
      "reward": 1.638888955116272,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 511
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 90.05555725097656,
      "epoch": 3.843283582089552,
      "grad_norm": 2.342763592080348,
      "learning_rate": 1.91044776119403e-07,
      "loss": -0.0214,
      "reward": 1.4722222089767456,
      "reward_std": 0.18385560810565948,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 1.0,
      "step": 512
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 102.75,
      "epoch": 3.8507462686567164,
      "grad_norm": 5.320975040012405,
      "learning_rate": 1.9141791044776117e-07,
      "loss": -0.095,
      "reward": 1.7222222089767456,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 513
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 106.66666412353516,
      "epoch": 3.8582089552238807,
      "grad_norm": 3.5301808887242765,
      "learning_rate": 1.917910447761194e-07,
      "loss": -0.0233,
      "reward": 1.4722222089767456,
      "reward_std": 0.2949667274951935,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 1.0,
      "step": 514
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 88.16666412353516,
      "epoch": 3.8656716417910446,
      "grad_norm": 3.7226019039446694,
      "learning_rate": 1.921641791044776e-07,
      "loss": 0.0348,
      "reward": 1.5555555820465088,
      "reward_std": 0.23941117525100708,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 515
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 96.3888931274414,
      "epoch": 3.873134328358209,
      "grad_norm": 3.9445350972008812,
      "learning_rate": 1.925373134328358e-07,
      "loss": -0.0332,
      "reward": 1.4444444179534912,
      "reward_std": 0.23941117525100708,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 516
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 95.30555725097656,
      "epoch": 3.8805970149253732,
      "grad_norm": 3.41638842964403,
      "learning_rate": 1.9291044776119402e-07,
      "loss": -0.0002,
      "reward": 1.5555555820465088,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 517
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 101.83333587646484,
      "epoch": 3.888059701492537,
      "grad_norm": 4.1324609441007905,
      "learning_rate": 1.9328358208955223e-07,
      "loss": 0.0292,
      "reward": 1.6111111640930176,
      "reward_std": 0.23941117525100708,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 518
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 89.36111450195312,
      "epoch": 3.8955223880597014,
      "grad_norm": 3.1903877882994176,
      "learning_rate": 1.9365671641791044e-07,
      "loss": -0.0109,
      "reward": 1.6666666269302368,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 519
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 98.66666412353516,
      "epoch": 3.9029850746268657,
      "grad_norm": 4.133588558191013,
      "learning_rate": 1.9402985074626865e-07,
      "loss": 0.0036,
      "reward": 1.5555555820465088,
      "reward_std": 0.23941117525100708,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 520
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 96.69444274902344,
      "epoch": 3.91044776119403,
      "grad_norm": 8.888908134878584,
      "learning_rate": 1.9440298507462685e-07,
      "loss": 0.1165,
      "reward": 1.6944444179534912,
      "reward_std": 0.2777777910232544,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 521
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 90.66666412353516,
      "epoch": 3.917910447761194,
      "grad_norm": 3.913398931290551,
      "learning_rate": 1.947761194029851e-07,
      "loss": -0.0498,
      "reward": 1.5833333730697632,
      "reward_std": 0.24800565838813782,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 522
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 80.86111450195312,
      "epoch": 3.925373134328358,
      "grad_norm": 1.4033917651423504,
      "learning_rate": 1.9514925373134327e-07,
      "loss": -0.0048,
      "reward": 1.6944444179534912,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 523
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 82.11111450195312,
      "epoch": 3.9328358208955225,
      "grad_norm": 3.477652121413865,
      "learning_rate": 1.9552238805970148e-07,
      "loss": -0.0226,
      "reward": 1.6111111640930176,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 524
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 94.08333587646484,
      "epoch": 3.9402985074626864,
      "grad_norm": 6.441402416007454,
      "learning_rate": 1.958955223880597e-07,
      "loss": -0.0046,
      "reward": 1.7222222089767456,
      "reward_std": 0.23941117525100708,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 525
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 95.52777862548828,
      "epoch": 3.9477611940298507,
      "grad_norm": 3.200249238339246,
      "learning_rate": 1.962686567164179e-07,
      "loss": -0.0217,
      "reward": 1.6111111640930176,
      "reward_std": 0.2222222238779068,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 526
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 109.0,
      "epoch": 3.955223880597015,
      "grad_norm": 4.48901038307522,
      "learning_rate": 1.966417910447761e-07,
      "loss": 0.0384,
      "reward": 1.4444444179534912,
      "reward_std": 0.23941117525100708,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 527
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 94.08333587646484,
      "epoch": 3.9626865671641793,
      "grad_norm": 6.647220629962082,
      "learning_rate": 1.9701492537313433e-07,
      "loss": -0.0163,
      "reward": 1.3055555820465088,
      "reward_std": 0.24800565838813782,
      "rewards/accuracy_reward": 0.3055555522441864,
      "rewards/format_reward": 1.0,
      "step": 528
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 94.83333587646484,
      "epoch": 3.970149253731343,
      "grad_norm": 5.047290248451909,
      "learning_rate": 1.9738805970149254e-07,
      "loss": 0.0442,
      "reward": 1.4444444179534912,
      "reward_std": 0.39748334884643555,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 529
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 88.5,
      "epoch": 3.9776119402985075,
      "grad_norm": 20.761013041627656,
      "learning_rate": 1.9776119402985072e-07,
      "loss": 0.0049,
      "reward": 1.8055555820465088,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 530
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 95.58333587646484,
      "epoch": 3.9850746268656714,
      "grad_norm": 4.051359865634505,
      "learning_rate": 1.9813432835820895e-07,
      "loss": 0.0052,
      "reward": 1.4166666269302368,
      "reward_std": 0.18385560810565948,
      "rewards/accuracy_reward": 0.4166666567325592,
      "rewards/format_reward": 1.0,
      "step": 531
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 93.41667175292969,
      "epoch": 3.9925373134328357,
      "grad_norm": 3.0515350499116023,
      "learning_rate": 1.9850746268656716e-07,
      "loss": 0.0081,
      "reward": 1.638888955116272,
      "reward_std": 0.2777777910232544,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 532
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 101.25,
      "epoch": 4.007462686567164,
      "grad_norm": 6.362211757647216,
      "learning_rate": 1.9888059701492537e-07,
      "loss": 0.0217,
      "reward": 1.5833333730697632,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 533
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 114.69444274902344,
      "epoch": 4.014925373134329,
      "grad_norm": 2.7460392409361396,
      "learning_rate": 1.9925373134328358e-07,
      "loss": 0.0336,
      "reward": 1.5,
      "reward_std": 0.2222222238779068,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 534
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 83.08333587646484,
      "epoch": 4.022388059701493,
      "grad_norm": 3.2082688144728255,
      "learning_rate": 1.9962686567164178e-07,
      "loss": -0.0069,
      "reward": 1.638888955116272,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 535
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 104.27777862548828,
      "epoch": 4.029850746268656,
      "grad_norm": 2.5889988950464096,
      "learning_rate": 2e-07,
      "loss": -0.0515,
      "reward": 1.4166666269302368,
      "reward_std": 0.18385560810565948,
      "rewards/accuracy_reward": 0.4166666567325592,
      "rewards/format_reward": 1.0,
      "step": 536
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 104.30555725097656,
      "epoch": 4.037313432835821,
      "grad_norm": 2.989606130438464,
      "learning_rate": 2.003731343283582e-07,
      "loss": -0.0045,
      "reward": 1.388888955116272,
      "reward_std": 0.23941117525100708,
      "rewards/accuracy_reward": 0.3888888955116272,
      "rewards/format_reward": 1.0,
      "step": 537
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 97.61111450195312,
      "epoch": 4.044776119402985,
      "grad_norm": 4.218869387987925,
      "learning_rate": 2.007462686567164e-07,
      "loss": -0.0247,
      "reward": 1.4166666269302368,
      "reward_std": 0.2949667274951935,
      "rewards/accuracy_reward": 0.4166666567325592,
      "rewards/format_reward": 1.0,
      "step": 538
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 106.58333587646484,
      "epoch": 4.052238805970149,
      "grad_norm": 3.538697730903022,
      "learning_rate": 2.0111940298507464e-07,
      "loss": 0.0579,
      "reward": 1.5555555820465088,
      "reward_std": 0.3505222499370575,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 539
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 101.97222137451172,
      "epoch": 4.059701492537314,
      "grad_norm": 5.214418868510331,
      "learning_rate": 2.0149253731343282e-07,
      "loss": 0.0173,
      "reward": 1.638888955116272,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 540
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 100.6388931274414,
      "epoch": 4.067164179104478,
      "grad_norm": 2.4154078688429594,
      "learning_rate": 2.0186567164179103e-07,
      "loss": 0.0196,
      "reward": 1.8333333730697632,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 541
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 91.58333587646484,
      "epoch": 4.074626865671641,
      "grad_norm": 9.674086157379367,
      "learning_rate": 2.0223880597014926e-07,
      "loss": 0.048,
      "reward": 1.5555555820465088,
      "reward_std": 0.3505222499370575,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 542
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.75,
      "epoch": 4.082089552238806,
      "grad_norm": 2.79048396760558,
      "learning_rate": 2.0261194029850744e-07,
      "loss": 0.0358,
      "reward": 1.5277777910232544,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 543
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 99.33333587646484,
      "epoch": 4.08955223880597,
      "grad_norm": 2.9086162471307087,
      "learning_rate": 2.0298507462686565e-07,
      "loss": 0.019,
      "reward": 1.5833333730697632,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 544
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 85.52777862548828,
      "epoch": 4.097014925373134,
      "grad_norm": 1.3110358545970318,
      "learning_rate": 2.0335820895522388e-07,
      "loss": -0.0256,
      "reward": 1.638888955116272,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 545
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 103.6388931274414,
      "epoch": 4.104477611940299,
      "grad_norm": 3.565514245579337,
      "learning_rate": 2.0373134328358206e-07,
      "loss": 0.028,
      "reward": 1.7777777910232544,
      "reward_std": 0.23941117525100708,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 546
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 103.30555725097656,
      "epoch": 4.111940298507463,
      "grad_norm": 5.880126993922097,
      "learning_rate": 2.041044776119403e-07,
      "loss": -0.0311,
      "reward": 1.5555555820465088,
      "reward_std": 0.3035612106323242,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 0.9722222089767456,
      "step": 547
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 107.61111450195312,
      "epoch": 4.119402985074627,
      "grad_norm": 3.0819987023576343,
      "learning_rate": 2.044776119402985e-07,
      "loss": -0.0261,
      "reward": 1.638888955116272,
      "reward_std": 0.18385560810565948,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 548
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 101.25,
      "epoch": 4.126865671641791,
      "grad_norm": 3.427503588044289,
      "learning_rate": 2.0485074626865669e-07,
      "loss": -0.0178,
      "reward": 1.7222222089767456,
      "reward_std": 0.23941117525100708,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 549
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 98.22222137451172,
      "epoch": 4.134328358208955,
      "grad_norm": 3.353450860547236,
      "learning_rate": 2.0522388059701492e-07,
      "loss": -0.0009,
      "reward": 1.6111111640930176,
      "reward_std": 0.28637224435806274,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 550
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.27777862548828,
      "epoch": 4.141791044776119,
      "grad_norm": 6.4273158017810825,
      "learning_rate": 2.0559701492537313e-07,
      "loss": 0.0224,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 551
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 107.02777862548828,
      "epoch": 4.149253731343284,
      "grad_norm": 2.913298216753893,
      "learning_rate": 2.0597014925373134e-07,
      "loss": 0.0122,
      "reward": 1.5277777910232544,
      "reward_std": 0.2949667274951935,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 552
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 94.61111450195312,
      "epoch": 4.156716417910448,
      "grad_norm": 9.499984910023176,
      "learning_rate": 2.0634328358208954e-07,
      "loss": 0.0018,
      "reward": 1.4722222089767456,
      "reward_std": 0.34192779660224915,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 1.0,
      "step": 553
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 90.86111450195312,
      "epoch": 4.164179104477612,
      "grad_norm": 2.091431570141906,
      "learning_rate": 2.0671641791044775e-07,
      "loss": 0.0098,
      "reward": 1.5277777910232544,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 554
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 90.66666412353516,
      "epoch": 4.1716417910447765,
      "grad_norm": 1.989075064155075,
      "learning_rate": 2.0708955223880596e-07,
      "loss": 0.0365,
      "reward": 1.4166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.4166666567325592,
      "rewards/format_reward": 1.0,
      "step": 555
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 95.69444274902344,
      "epoch": 4.17910447761194,
      "grad_norm": 2.029427915696283,
      "learning_rate": 2.0746268656716416e-07,
      "loss": 0.0363,
      "reward": 1.6111111640930176,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 556
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 97.11111450195312,
      "epoch": 4.186567164179104,
      "grad_norm": 6.382386397660908,
      "learning_rate": 2.0783582089552237e-07,
      "loss": 0.0148,
      "reward": 1.8333333730697632,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 557
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 94.22222137451172,
      "epoch": 4.1940298507462686,
      "grad_norm": 5.1811394102814825,
      "learning_rate": 2.082089552238806e-07,
      "loss": -0.0129,
      "reward": 1.8333333730697632,
      "reward_std": 0.23941117525100708,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 558
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 112.08333587646484,
      "epoch": 4.201492537313433,
      "grad_norm": 2.5559201083221206,
      "learning_rate": 2.0858208955223879e-07,
      "loss": -0.0839,
      "reward": 1.3333333730697632,
      "reward_std": 0.23941117525100708,
      "rewards/accuracy_reward": 0.3333333432674408,
      "rewards/format_reward": 1.0,
      "step": 559
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 97.19444274902344,
      "epoch": 4.208955223880597,
      "grad_norm": 8.847699333425682,
      "learning_rate": 2.08955223880597e-07,
      "loss": 0.0133,
      "reward": 1.6666666269302368,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 560
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.66666412353516,
      "epoch": 4.2164179104477615,
      "grad_norm": 3.802983736583297,
      "learning_rate": 2.0932835820895523e-07,
      "loss": -0.0348,
      "reward": 1.75,
      "reward_std": 0.2949667274951935,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 561
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 95.91666412353516,
      "epoch": 4.223880597014926,
      "grad_norm": 8.287663212330939,
      "learning_rate": 2.0970149253731344e-07,
      "loss": 0.0309,
      "reward": 1.6111111640930176,
      "reward_std": 0.3505222797393799,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 562
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 98.69444274902344,
      "epoch": 4.231343283582089,
      "grad_norm": 1.2146795909907109,
      "learning_rate": 2.1007462686567162e-07,
      "loss": -0.015,
      "reward": 1.3055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.3055555522441864,
      "rewards/format_reward": 1.0,
      "step": 563
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 96.6388931274414,
      "epoch": 4.2388059701492535,
      "grad_norm": 3.2119943844522587,
      "learning_rate": 2.1044776119402985e-07,
      "loss": -0.0049,
      "reward": 1.6666666269302368,
      "reward_std": 0.28637224435806274,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 0.9722222089767456,
      "step": 564
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 98.52777862548828,
      "epoch": 4.246268656716418,
      "grad_norm": 5.151435329509511,
      "learning_rate": 2.1082089552238806e-07,
      "loss": -0.0186,
      "reward": 1.5277777910232544,
      "reward_std": 0.44983863830566406,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 0.9722222089767456,
      "step": 565
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 99.3888931274414,
      "epoch": 4.253731343283582,
      "grad_norm": 3.471303639613197,
      "learning_rate": 2.1119402985074624e-07,
      "loss": -0.0127,
      "reward": 1.6111111640930176,
      "reward_std": 0.23941117525100708,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 566
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 112.66666412353516,
      "epoch": 4.2611940298507465,
      "grad_norm": 10.8144500710477,
      "learning_rate": 2.1156716417910447e-07,
      "loss": -0.0011,
      "reward": 1.5833333730697632,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 567
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 97.66666412353516,
      "epoch": 4.268656716417911,
      "grad_norm": 9.939363506122373,
      "learning_rate": 2.1194029850746268e-07,
      "loss": -0.0287,
      "reward": 1.75,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 568
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 101.3888931274414,
      "epoch": 4.276119402985074,
      "grad_norm": 3.1799033295217964,
      "learning_rate": 2.1231343283582089e-07,
      "loss": -0.0014,
      "reward": 1.4722222089767456,
      "reward_std": 0.2777777910232544,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 1.0,
      "step": 569
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 93.94444274902344,
      "epoch": 4.2835820895522385,
      "grad_norm": 8.311090015879152,
      "learning_rate": 2.126865671641791e-07,
      "loss": 0.014,
      "reward": 1.5,
      "reward_std": 0.3035612106323242,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 0.9722222089767456,
      "step": 570
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 103.30555725097656,
      "epoch": 4.291044776119403,
      "grad_norm": 3.626042972748576,
      "learning_rate": 2.130597014925373e-07,
      "loss": 0.0091,
      "reward": 1.4444444179534912,
      "reward_std": 0.28637224435806274,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 571
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 94.86111450195312,
      "epoch": 4.298507462686567,
      "grad_norm": 2.8359920509048853,
      "learning_rate": 2.1343283582089554e-07,
      "loss": 0.0069,
      "reward": 1.6666666269302368,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 572
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 95.83333587646484,
      "epoch": 4.3059701492537314,
      "grad_norm": 14.754463521044972,
      "learning_rate": 2.1380597014925372e-07,
      "loss": 0.0375,
      "reward": 1.8611111640930176,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 573
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 103.41666412353516,
      "epoch": 4.313432835820896,
      "grad_norm": 4.163264577400204,
      "learning_rate": 2.1417910447761192e-07,
      "loss": 0.0304,
      "reward": 1.6666666269302368,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 574
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.11111450195312,
      "epoch": 4.32089552238806,
      "grad_norm": 5.802879673279458,
      "learning_rate": 2.1455223880597016e-07,
      "loss": 0.0212,
      "reward": 1.7222222089767456,
      "reward_std": 0.2222222238779068,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 575
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 95.86111450195312,
      "epoch": 4.3283582089552235,
      "grad_norm": 7.1004747817618155,
      "learning_rate": 2.1492537313432834e-07,
      "loss": 0.0054,
      "reward": 1.5833333730697632,
      "reward_std": 0.2949667274951935,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 576
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 111.6388931274414,
      "epoch": 4.335820895522388,
      "grad_norm": 2.6665092679277453,
      "learning_rate": 2.1529850746268655e-07,
      "loss": -0.0017,
      "reward": 1.4166666269302368,
      "reward_std": 0.24800565838813782,
      "rewards/accuracy_reward": 0.4166666567325592,
      "rewards/format_reward": 1.0,
      "step": 577
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 109.75,
      "epoch": 4.343283582089552,
      "grad_norm": 2.0562424111970925,
      "learning_rate": 2.1567164179104478e-07,
      "loss": -0.01,
      "reward": 1.7777777910232544,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 578
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 97.75,
      "epoch": 4.350746268656716,
      "grad_norm": 2.325153122846234,
      "learning_rate": 2.1604477611940296e-07,
      "loss": 0.017,
      "reward": 1.6666666269302368,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 579
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 106.0,
      "epoch": 4.358208955223881,
      "grad_norm": 11.82035644287036,
      "learning_rate": 2.1641791044776117e-07,
      "loss": -0.0496,
      "reward": 1.6944444179534912,
      "reward_std": 0.34192779660224915,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 580
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.5,
      "epoch": 4.365671641791045,
      "grad_norm": 5.016599474991958,
      "learning_rate": 2.167910447761194e-07,
      "loss": -0.0047,
      "reward": 1.5833333730697632,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 581
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 106.66666412353516,
      "epoch": 4.373134328358209,
      "grad_norm": 7.7105810633998555,
      "learning_rate": 2.171641791044776e-07,
      "loss": 0.009,
      "reward": 1.4166666269302368,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.4166666567325592,
      "rewards/format_reward": 1.0,
      "step": 582
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 110.22222137451172,
      "epoch": 4.380597014925373,
      "grad_norm": 24.167051091312505,
      "learning_rate": 2.1753731343283582e-07,
      "loss": -0.0014,
      "reward": 1.6666666269302368,
      "reward_std": 0.3333333432674408,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 583
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 113.22222137451172,
      "epoch": 4.388059701492537,
      "grad_norm": 79.4547760988606,
      "learning_rate": 2.1791044776119402e-07,
      "loss": 0.01,
      "reward": 1.8611111640930176,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 584
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 100.72222137451172,
      "epoch": 4.395522388059701,
      "grad_norm": 3.363151520596453,
      "learning_rate": 2.1828358208955223e-07,
      "loss": 0.0671,
      "reward": 1.5277777910232544,
      "reward_std": 0.2949667274951935,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 585
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 107.05555725097656,
      "epoch": 4.402985074626866,
      "grad_norm": 2.3487616370156985,
      "learning_rate": 2.1865671641791044e-07,
      "loss": 0.0234,
      "reward": 1.75,
      "reward_std": 0.18385560810565948,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 586
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 100.02777862548828,
      "epoch": 4.41044776119403,
      "grad_norm": 9.482192843693955,
      "learning_rate": 2.1902985074626865e-07,
      "loss": -0.0113,
      "reward": 1.5277777910232544,
      "reward_std": 0.24800565838813782,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 587
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 109.08333587646484,
      "epoch": 4.417910447761194,
      "grad_norm": 2.444593685774375,
      "learning_rate": 2.1940298507462685e-07,
      "loss": -0.0513,
      "reward": 1.8055555820465088,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 588
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 105.77777862548828,
      "epoch": 4.425373134328359,
      "grad_norm": 287.30021548721044,
      "learning_rate": 2.1977611940298506e-07,
      "loss": -0.0383,
      "reward": 1.7777777910232544,
      "reward_std": 0.3035612106323242,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 589
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 93.6388931274414,
      "epoch": 4.432835820895522,
      "grad_norm": 4.067322824580552,
      "learning_rate": 2.2014925373134327e-07,
      "loss": -0.0041,
      "reward": 1.4722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 1.0,
      "step": 590
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 93.80555725097656,
      "epoch": 4.440298507462686,
      "grad_norm": 2.6423762976336933,
      "learning_rate": 2.2052238805970148e-07,
      "loss": -0.0067,
      "reward": 1.638888955116272,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 591
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 102.30555725097656,
      "epoch": 4.447761194029851,
      "grad_norm": 2.6366043719351104,
      "learning_rate": 2.208955223880597e-07,
      "loss": -0.0109,
      "reward": 1.888888955116272,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 592
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 111.1388931274414,
      "epoch": 4.455223880597015,
      "grad_norm": 3.4152901049209388,
      "learning_rate": 2.212686567164179e-07,
      "loss": -0.0545,
      "reward": 1.7777777910232544,
      "reward_std": 0.3505222797393799,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 593
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 91.22222137451172,
      "epoch": 4.462686567164179,
      "grad_norm": 4.290044404709519,
      "learning_rate": 2.2164179104477612e-07,
      "loss": -0.0431,
      "reward": 1.5833333730697632,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 594
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 107.5,
      "epoch": 4.470149253731344,
      "grad_norm": 8.609653734733218,
      "learning_rate": 2.2201492537313433e-07,
      "loss": -0.0425,
      "reward": 1.5,
      "reward_std": 0.3505222499370575,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 0.9722222089767456,
      "step": 595
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 113.25,
      "epoch": 4.477611940298507,
      "grad_norm": 2.9872687006567027,
      "learning_rate": 2.223880597014925e-07,
      "loss": -0.0106,
      "reward": 1.5555555820465088,
      "reward_std": 0.2222222238779068,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 596
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 102.08333587646484,
      "epoch": 4.485074626865671,
      "grad_norm": 2.405950752287043,
      "learning_rate": 2.2276119402985075e-07,
      "loss": 0.0071,
      "reward": 1.5555555820465088,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 597
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 99.08333587646484,
      "epoch": 4.492537313432836,
      "grad_norm": 2.9995767513983123,
      "learning_rate": 2.2313432835820895e-07,
      "loss": -0.0364,
      "reward": 1.4444444179534912,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 598
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 97.02777862548828,
      "epoch": 4.5,
      "grad_norm": 3.138825901437639,
      "learning_rate": 2.2350746268656713e-07,
      "loss": 0.0189,
      "reward": 1.8611111640930176,
      "reward_std": 0.18385560810565948,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 599
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 89.36111450195312,
      "epoch": 4.507462686567164,
      "grad_norm": 4.1555823712306745,
      "learning_rate": 2.2388059701492537e-07,
      "loss": 0.0241,
      "reward": 1.5277777910232544,
      "reward_std": 0.2777777910232544,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 600
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 99.83333587646484,
      "epoch": 4.514925373134329,
      "grad_norm": 0.0,
      "learning_rate": 2.2425373134328358e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 601
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 104.33333587646484,
      "epoch": 4.522388059701493,
      "grad_norm": 2.188644455782896,
      "learning_rate": 2.2462686567164176e-07,
      "loss": -0.0154,
      "reward": 1.638888955116272,
      "reward_std": 0.18385560810565948,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 602
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 102.6388931274414,
      "epoch": 4.529850746268656,
      "grad_norm": 6.3355438703918585,
      "learning_rate": 2.25e-07,
      "loss": -0.0084,
      "reward": 1.6111111640930176,
      "reward_std": 0.23941117525100708,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 603
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 111.44444274902344,
      "epoch": 4.537313432835821,
      "grad_norm": 3.054896072792569,
      "learning_rate": 2.253731343283582e-07,
      "loss": 0.0555,
      "reward": 1.5555555820465088,
      "reward_std": 0.28637224435806274,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 604
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 93.61111450195312,
      "epoch": 4.544776119402985,
      "grad_norm": 2.6491609322180882,
      "learning_rate": 2.2574626865671643e-07,
      "loss": 0.0033,
      "reward": 1.5277777910232544,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 605
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 94.83333587646484,
      "epoch": 4.552238805970149,
      "grad_norm": 5.463818421501756,
      "learning_rate": 2.261194029850746e-07,
      "loss": 0.045,
      "reward": 1.7222222089767456,
      "reward_std": 0.33013302087783813,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 0.9722222089767456,
      "step": 606
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 106.83333587646484,
      "epoch": 4.559701492537314,
      "grad_norm": 2.4764282397200814,
      "learning_rate": 2.2649253731343282e-07,
      "loss": 0.0013,
      "reward": 1.388888955116272,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.3888888955116272,
      "rewards/format_reward": 1.0,
      "step": 607
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 116.0,
      "epoch": 4.567164179104478,
      "grad_norm": 7.3447193282579075,
      "learning_rate": 2.2686567164179105e-07,
      "loss": -0.0192,
      "reward": 1.638888955116272,
      "reward_std": 0.2777777910232544,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 608
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 108.94444274902344,
      "epoch": 4.574626865671641,
      "grad_norm": 2.901413802235633,
      "learning_rate": 2.2723880597014923e-07,
      "loss": 0.0354,
      "reward": 1.638888955116272,
      "reward_std": 0.18385560810565948,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 609
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 101.61111450195312,
      "epoch": 4.582089552238806,
      "grad_norm": 2.706892213340716,
      "learning_rate": 2.2761194029850744e-07,
      "loss": -0.0465,
      "reward": 1.4722222089767456,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 1.0,
      "step": 610
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 93.86111450195312,
      "epoch": 4.58955223880597,
      "grad_norm": 2.0594535980456787,
      "learning_rate": 2.2798507462686568e-07,
      "loss": -0.0331,
      "reward": 1.8333333730697632,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 611
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 102.66666412353516,
      "epoch": 4.597014925373134,
      "grad_norm": 1.5936078248796843,
      "learning_rate": 2.2835820895522386e-07,
      "loss": 0.0,
      "reward": 1.4166666269302368,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.4166666567325592,
      "rewards/format_reward": 1.0,
      "step": 612
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 106.22222137451172,
      "epoch": 4.604477611940299,
      "grad_norm": 3.7205423460950686,
      "learning_rate": 2.2873134328358206e-07,
      "loss": 0.0157,
      "reward": 1.7777777910232544,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 613
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 100.6388931274414,
      "epoch": 4.611940298507463,
      "grad_norm": 3.631722520806767,
      "learning_rate": 2.291044776119403e-07,
      "loss": -0.001,
      "reward": 1.6666666269302368,
      "reward_std": 0.2222222238779068,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 614
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 97.36111450195312,
      "epoch": 4.619402985074627,
      "grad_norm": 3.144856602203535,
      "learning_rate": 2.294776119402985e-07,
      "loss": -0.0193,
      "reward": 1.6944444179534912,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 615
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 104.5,
      "epoch": 4.6268656716417915,
      "grad_norm": 2.504603594149811,
      "learning_rate": 2.2985074626865669e-07,
      "loss": 0.0481,
      "reward": 1.7777777910232544,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 616
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 104.61111450195312,
      "epoch": 4.634328358208955,
      "grad_norm": 3.3665986423753087,
      "learning_rate": 2.3022388059701492e-07,
      "loss": 0.0163,
      "reward": 1.7222222089767456,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 617
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 106.75,
      "epoch": 4.641791044776119,
      "grad_norm": 3.2930117120033295,
      "learning_rate": 2.3059701492537313e-07,
      "loss": -0.0016,
      "reward": 1.5555555820465088,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 618
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 96.66666412353516,
      "epoch": 4.649253731343284,
      "grad_norm": 4.269419680157058,
      "learning_rate": 2.3097014925373133e-07,
      "loss": -0.0162,
      "reward": 1.6944444179534912,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 619
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 103.3888931274414,
      "epoch": 4.656716417910448,
      "grad_norm": 3.4194571071369393,
      "learning_rate": 2.3134328358208954e-07,
      "loss": -0.0267,
      "reward": 1.638888955116272,
      "reward_std": 0.31215566396713257,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 620
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 117.22222137451172,
      "epoch": 4.664179104477612,
      "grad_norm": 4.988849474128902,
      "learning_rate": 2.3171641791044775e-07,
      "loss": -0.0242,
      "reward": 1.5,
      "reward_std": 0.28637224435806274,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 621
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 89.27777862548828,
      "epoch": 4.6716417910447765,
      "grad_norm": 2.5583723486473726,
      "learning_rate": 2.3208955223880596e-07,
      "loss": -0.0155,
      "reward": 1.638888955116272,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 622
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 99.58333587646484,
      "epoch": 4.67910447761194,
      "grad_norm": 2.0098679775457096,
      "learning_rate": 2.3246268656716416e-07,
      "loss": 0.022,
      "reward": 1.6666666269302368,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 623
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 112.91666412353516,
      "epoch": 4.686567164179104,
      "grad_norm": 4.632482896418451,
      "learning_rate": 2.3283582089552237e-07,
      "loss": 0.0204,
      "reward": 1.6111111640930176,
      "reward_std": 0.3505222499370575,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 624
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 100.94444274902344,
      "epoch": 4.6940298507462686,
      "grad_norm": 7.483148109815753,
      "learning_rate": 2.332089552238806e-07,
      "loss": -0.0124,
      "reward": 1.75,
      "reward_std": 0.2949667274951935,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 625
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 109.3888931274414,
      "epoch": 4.701492537313433,
      "grad_norm": 2.5289748978138795,
      "learning_rate": 2.3358208955223879e-07,
      "loss": -0.0035,
      "reward": 1.5277777910232544,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 626
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 104.61111450195312,
      "epoch": 4.708955223880597,
      "grad_norm": 4.435309061065739,
      "learning_rate": 2.33955223880597e-07,
      "loss": 0.0536,
      "reward": 1.9444444179534912,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.944444477558136,
      "rewards/format_reward": 1.0,
      "step": 627
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 109.30555725097656,
      "epoch": 4.7164179104477615,
      "grad_norm": 2.4480637433319616,
      "learning_rate": 2.3432835820895523e-07,
      "loss": -0.0353,
      "reward": 1.4444444179534912,
      "reward_std": 0.12830005586147308,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 628
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 114.30555725097656,
      "epoch": 4.723880597014926,
      "grad_norm": 3.9207799410614372,
      "learning_rate": 2.347014925373134e-07,
      "loss": 0.0177,
      "reward": 1.4444444179534912,
      "reward_std": 0.25660011172294617,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 629
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 108.77777862548828,
      "epoch": 4.731343283582089,
      "grad_norm": 1.2120383825459289,
      "learning_rate": 2.3507462686567164e-07,
      "loss": -0.0038,
      "reward": 1.4722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 1.0,
      "step": 630
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 120.0,
      "epoch": 4.7388059701492535,
      "grad_norm": 11.771185524494404,
      "learning_rate": 2.3544776119402985e-07,
      "loss": -0.0486,
      "reward": 1.4166666269302368,
      "reward_std": 0.18385560810565948,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 0.9722222089767456,
      "step": 631
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 120.0,
      "epoch": 4.746268656716418,
      "grad_norm": 2.4344894760987357,
      "learning_rate": 2.3582089552238803e-07,
      "loss": 0.0338,
      "reward": 1.8333333730697632,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 632
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 111.61111450195312,
      "epoch": 4.753731343283582,
      "grad_norm": 9.910885920159576,
      "learning_rate": 2.3619402985074626e-07,
      "loss": 0.0031,
      "reward": 1.7222222089767456,
      "reward_std": 0.23941117525100708,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 633
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 106.8888931274414,
      "epoch": 4.7611940298507465,
      "grad_norm": 4.572745359669184,
      "learning_rate": 2.3656716417910447e-07,
      "loss": 0.0527,
      "reward": 1.5277777910232544,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 634
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 103.52777862548828,
      "epoch": 4.768656716417911,
      "grad_norm": 3.1641316008380778,
      "learning_rate": 2.3694029850746268e-07,
      "loss": 0.025,
      "reward": 1.638888955116272,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 635
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 107.08333587646484,
      "epoch": 4.776119402985074,
      "grad_norm": 4.749146212044845,
      "learning_rate": 2.3731343283582089e-07,
      "loss": 0.0415,
      "reward": 1.5,
      "reward_std": 0.28637224435806274,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 636
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 113.72222137451172,
      "epoch": 4.7835820895522385,
      "grad_norm": 5.49541144881297,
      "learning_rate": 2.376865671641791e-07,
      "loss": 0.0219,
      "reward": 1.4444444179534912,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 637
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 109.80555725097656,
      "epoch": 4.791044776119403,
      "grad_norm": 3.316790089003814,
      "learning_rate": 2.380597014925373e-07,
      "loss": 0.0594,
      "reward": 1.6111111640930176,
      "reward_std": 0.3333333432674408,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 638
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 110.22222137451172,
      "epoch": 4.798507462686567,
      "grad_norm": 6.607084778387232,
      "learning_rate": 2.3843283582089553e-07,
      "loss": 0.041,
      "reward": 1.5,
      "reward_std": 0.28637224435806274,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 639
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 133.8333282470703,
      "epoch": 4.8059701492537314,
      "grad_norm": 2.9031120776176205,
      "learning_rate": 2.388059701492537e-07,
      "loss": 0.01,
      "reward": 1.5277777910232544,
      "reward_std": 0.2949667274951935,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 640
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 109.05555725097656,
      "epoch": 4.813432835820896,
      "grad_norm": 2.3425842987083576,
      "learning_rate": 2.3917910447761195e-07,
      "loss": -0.0083,
      "reward": 1.7222222089767456,
      "reward_std": 0.19245009124279022,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 641
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 106.66666412353516,
      "epoch": 4.82089552238806,
      "grad_norm": 4.921476551039808,
      "learning_rate": 2.3955223880597013e-07,
      "loss": 0.061,
      "reward": 1.5555555820465088,
      "reward_std": 0.23941117525100708,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 642
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 112.1388931274414,
      "epoch": 4.8283582089552235,
      "grad_norm": 3.16352045726368,
      "learning_rate": 2.3992537313432836e-07,
      "loss": -0.0202,
      "reward": 1.7222222089767456,
      "reward_std": 0.3505222797393799,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 643
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 108.80555725097656,
      "epoch": 4.835820895522388,
      "grad_norm": 2.8900076771118117,
      "learning_rate": 2.4029850746268654e-07,
      "loss": 0.0078,
      "reward": 1.6111111640930176,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 644
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 106.44444274902344,
      "epoch": 4.843283582089552,
      "grad_norm": 2.3254171436092093,
      "learning_rate": 2.406716417910448e-07,
      "loss": 0.0066,
      "reward": 1.2777777910232544,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.2777777910232544,
      "rewards/format_reward": 1.0,
      "step": 645
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 107.94444274902344,
      "epoch": 4.850746268656716,
      "grad_norm": 6.425388143756114,
      "learning_rate": 2.4104477611940296e-07,
      "loss": -0.0278,
      "reward": 1.2222222089767456,
      "reward_std": 0.2659830152988434,
      "rewards/accuracy_reward": 0.25,
      "rewards/format_reward": 0.9722222089767456,
      "step": 646
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 105.30555725097656,
      "epoch": 4.858208955223881,
      "grad_norm": 2.0491033853893432,
      "learning_rate": 2.414179104477612e-07,
      "loss": 0.0114,
      "reward": 1.4444444179534912,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 647
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 108.33333587646484,
      "epoch": 4.865671641791045,
      "grad_norm": 2.0059924427698435,
      "learning_rate": 2.417910447761194e-07,
      "loss": -0.0363,
      "reward": 1.4722222089767456,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 1.0,
      "step": 648
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 102.77777862548828,
      "epoch": 4.8731343283582085,
      "grad_norm": 3.023868186259874,
      "learning_rate": 2.421641791044776e-07,
      "loss": 0.0686,
      "reward": 1.7777777910232544,
      "reward_std": 0.2222222238779068,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 649
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 96.55555725097656,
      "epoch": 4.880597014925373,
      "grad_norm": 3.463672097636162,
      "learning_rate": 2.4253731343283584e-07,
      "loss": -0.007,
      "reward": 1.7222222089767456,
      "reward_std": 0.2222222238779068,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 650
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 98.86111450195312,
      "epoch": 4.888059701492537,
      "grad_norm": 1.6733148019931636,
      "learning_rate": 2.42910447761194e-07,
      "loss": -0.0138,
      "reward": 1.9444444179534912,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.944444477558136,
      "rewards/format_reward": 1.0,
      "step": 651
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 106.22222137451172,
      "epoch": 4.895522388059701,
      "grad_norm": 2.99119804577129,
      "learning_rate": 2.432835820895522e-07,
      "loss": -0.0197,
      "reward": 1.5,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 652
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 110.05555725097656,
      "epoch": 4.902985074626866,
      "grad_norm": 2.11055104637644,
      "learning_rate": 2.4365671641791044e-07,
      "loss": 0.0486,
      "reward": 1.3611111640930176,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.3611111044883728,
      "rewards/format_reward": 1.0,
      "step": 653
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 96.97222137451172,
      "epoch": 4.91044776119403,
      "grad_norm": 4.196865511674428,
      "learning_rate": 2.440298507462686e-07,
      "loss": -0.0446,
      "reward": 1.6944444179534912,
      "reward_std": 0.3591167628765106,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 654
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 109.72222137451172,
      "epoch": 4.917910447761194,
      "grad_norm": 3.610055046674302,
      "learning_rate": 2.4440298507462685e-07,
      "loss": -0.0437,
      "reward": 1.75,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 655
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 96.86111450195312,
      "epoch": 4.925373134328359,
      "grad_norm": 1.1329246549260155,
      "learning_rate": 2.447761194029851e-07,
      "loss": 0.0016,
      "reward": 1.638888955116272,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 656
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 108.33333587646484,
      "epoch": 4.932835820895522,
      "grad_norm": 10.030855149242996,
      "learning_rate": 2.4514925373134327e-07,
      "loss": 0.0155,
      "reward": 1.5555555820465088,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 657
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 107.30555725097656,
      "epoch": 4.940298507462686,
      "grad_norm": 5.012322283529661,
      "learning_rate": 2.455223880597015e-07,
      "loss": 0.0287,
      "reward": 1.7777777910232544,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 658
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 110.36111450195312,
      "epoch": 4.947761194029851,
      "grad_norm": 3.02102041329069,
      "learning_rate": 2.458955223880597e-07,
      "loss": -0.0231,
      "reward": 1.388888955116272,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.3888888955116272,
      "rewards/format_reward": 1.0,
      "step": 659
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 108.22222137451172,
      "epoch": 4.955223880597015,
      "grad_norm": 4.184193718674451,
      "learning_rate": 2.4626865671641786e-07,
      "loss": -0.0519,
      "reward": 1.6944444179534912,
      "reward_std": 0.3591167628765106,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 660
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 100.1388931274414,
      "epoch": 4.962686567164179,
      "grad_norm": 3.2532325949626615,
      "learning_rate": 2.466417910447761e-07,
      "loss": -0.0084,
      "reward": 1.6111111640930176,
      "reward_std": 0.28637224435806274,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 0.9722222089767456,
      "step": 661
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 117.77777862548828,
      "epoch": 4.970149253731344,
      "grad_norm": 5.505499516211584,
      "learning_rate": 2.4701492537313433e-07,
      "loss": 0.0284,
      "reward": 1.6111111640930176,
      "reward_std": 0.3505222797393799,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 662
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 106.05555725097656,
      "epoch": 4.977611940298507,
      "grad_norm": 3.251319728448814,
      "learning_rate": 2.473880597014925e-07,
      "loss": 0.0085,
      "reward": 1.7222222089767456,
      "reward_std": 0.2222222238779068,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 663
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 110.08333587646484,
      "epoch": 4.985074626865671,
      "grad_norm": 4.032650417170294,
      "learning_rate": 2.4776119402985074e-07,
      "loss": -0.0558,
      "reward": 1.4722222089767456,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 1.0,
      "step": 664
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 102.5,
      "epoch": 4.992537313432836,
      "grad_norm": 3.635643081406757,
      "learning_rate": 2.481343283582089e-07,
      "loss": -0.0607,
      "reward": 1.4722222089767456,
      "reward_std": 0.2777777910232544,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 1.0,
      "step": 665
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 113.61111450195312,
      "epoch": 5.007462686567164,
      "grad_norm": 2.750622360334434,
      "learning_rate": 2.4850746268656716e-07,
      "loss": 0.0187,
      "reward": 1.5277777910232544,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 0.9722222089767456,
      "step": 666
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 108.36111450195312,
      "epoch": 5.014925373134329,
      "grad_norm": 9.322561576541037,
      "learning_rate": 2.4888059701492534e-07,
      "loss": -0.0554,
      "reward": 1.5555555820465088,
      "reward_std": 0.2222222238779068,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 667
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 101.6388931274414,
      "epoch": 5.022388059701493,
      "grad_norm": 3.2325279792986086,
      "learning_rate": 2.492537313432836e-07,
      "loss": -0.0652,
      "reward": 1.5555555820465088,
      "reward_std": 0.3035612106323242,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 668
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 104.5,
      "epoch": 5.029850746268656,
      "grad_norm": 2.807724071390044,
      "learning_rate": 2.496268656716418e-07,
      "loss": 0.014,
      "reward": 1.5,
      "reward_std": 0.2222222238779068,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 669
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 102.47222137451172,
      "epoch": 5.037313432835821,
      "grad_norm": 96.09276283531408,
      "learning_rate": 2.5e-07,
      "loss": 0.0036,
      "reward": 1.5833333730697632,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 670
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 98.83333587646484,
      "epoch": 5.044776119402985,
      "grad_norm": 5.275265350497621,
      "learning_rate": 2.503731343283582e-07,
      "loss": -0.0375,
      "reward": 1.638888955116272,
      "reward_std": 0.2949667274951935,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 671
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 104.25,
      "epoch": 5.052238805970149,
      "grad_norm": 3.581681297699224,
      "learning_rate": 2.507462686567164e-07,
      "loss": -0.0399,
      "reward": 1.4722222089767456,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 1.0,
      "step": 672
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 101.52777862548828,
      "epoch": 5.059701492537314,
      "grad_norm": 3.078767711436729,
      "learning_rate": 2.5111940298507464e-07,
      "loss": -0.0117,
      "reward": 1.638888955116272,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 673
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 106.72222137451172,
      "epoch": 5.067164179104478,
      "grad_norm": 3.803253349156666,
      "learning_rate": 2.514925373134328e-07,
      "loss": -0.0086,
      "reward": 1.8611111640930176,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 674
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 116.44444274902344,
      "epoch": 5.074626865671641,
      "grad_norm": 9.366142991015497,
      "learning_rate": 2.51865671641791e-07,
      "loss": 0.0531,
      "reward": 1.5277777910232544,
      "reward_std": 0.35911673307418823,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 675
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 97.33333587646484,
      "epoch": 5.082089552238806,
      "grad_norm": 3.517482786695015,
      "learning_rate": 2.5223880597014923e-07,
      "loss": 0.0911,
      "reward": 1.5833333730697632,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 676
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 108.41666412353516,
      "epoch": 5.08955223880597,
      "grad_norm": 16.364650428636736,
      "learning_rate": 2.5261194029850747e-07,
      "loss": -0.0148,
      "reward": 1.4444444179534912,
      "reward_std": 0.2222222238779068,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 677
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 104.75,
      "epoch": 5.097014925373134,
      "grad_norm": 2.7673153345181083,
      "learning_rate": 2.5298507462686565e-07,
      "loss": 0.0127,
      "reward": 1.5277777910232544,
      "reward_std": 0.24800565838813782,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 678
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 103.3888931274414,
      "epoch": 5.104477611940299,
      "grad_norm": 2.8734398077894836,
      "learning_rate": 2.533582089552239e-07,
      "loss": -0.0424,
      "reward": 1.75,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 679
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 105.25,
      "epoch": 5.111940298507463,
      "grad_norm": 5.406998712583905,
      "learning_rate": 2.537313432835821e-07,
      "loss": -0.0326,
      "reward": 1.5555555820465088,
      "reward_std": 0.28637224435806274,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 680
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 86.66666412353516,
      "epoch": 5.119402985074627,
      "grad_norm": 2.9768718859941536,
      "learning_rate": 2.5410447761194024e-07,
      "loss": -0.0145,
      "reward": 1.4722222089767456,
      "reward_std": 0.24800565838813782,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 1.0,
      "step": 681
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 107.86111450195312,
      "epoch": 5.126865671641791,
      "grad_norm": 4.574753984648153,
      "learning_rate": 2.544776119402985e-07,
      "loss": 0.0252,
      "reward": 1.638888955116272,
      "reward_std": 0.24800565838813782,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 682
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 98.19444274902344,
      "epoch": 5.134328358208955,
      "grad_norm": 6.874045116915979,
      "learning_rate": 2.548507462686567e-07,
      "loss": 0.0465,
      "reward": 1.8055555820465088,
      "reward_std": 0.2777777910232544,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 0.944444477558136,
      "step": 683
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 106.94444274902344,
      "epoch": 5.141791044776119,
      "grad_norm": 4.8150058078191575,
      "learning_rate": 2.5522388059701494e-07,
      "loss": -0.0058,
      "reward": 1.6666666269302368,
      "reward_std": 0.3505222797393799,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 684
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 107.86111450195312,
      "epoch": 5.149253731343284,
      "grad_norm": 3.632768335950192,
      "learning_rate": 2.555970149253731e-07,
      "loss": 0.0178,
      "reward": 1.5,
      "reward_std": 0.2222222238779068,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 685
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 111.72222137451172,
      "epoch": 5.156716417910448,
      "grad_norm": 20.77680630571177,
      "learning_rate": 2.5597014925373136e-07,
      "loss": 0.0403,
      "reward": 1.5555555820465088,
      "reward_std": 0.3035612106323242,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 686
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 105.22222137451172,
      "epoch": 5.164179104477612,
      "grad_norm": 2.3046760132959805,
      "learning_rate": 2.5634328358208954e-07,
      "loss": 0.0525,
      "reward": 1.8333333730697632,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 687
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 99.3888931274414,
      "epoch": 5.1716417910447765,
      "grad_norm": 3.3071885690490386,
      "learning_rate": 2.567164179104477e-07,
      "loss": -0.0015,
      "reward": 1.7777777910232544,
      "reward_std": 0.2222222238779068,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 688
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 105.41666412353516,
      "epoch": 5.17910447761194,
      "grad_norm": 3.5469132202518248,
      "learning_rate": 2.5708955223880595e-07,
      "loss": -0.0383,
      "reward": 1.638888955116272,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 689
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 104.25,
      "epoch": 5.186567164179104,
      "grad_norm": 5.550732051032413,
      "learning_rate": 2.574626865671642e-07,
      "loss": 0.0122,
      "reward": 1.5,
      "reward_std": 0.28637224435806274,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 690
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 96.61111450195312,
      "epoch": 5.1940298507462686,
      "grad_norm": 1.5485179476723252,
      "learning_rate": 2.5783582089552237e-07,
      "loss": 0.0095,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 691
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 107.55555725097656,
      "epoch": 5.201492537313433,
      "grad_norm": 3.8108626566013255,
      "learning_rate": 2.582089552238806e-07,
      "loss": 0.091,
      "reward": 1.8055555820465088,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 692
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 102.72222137451172,
      "epoch": 5.208955223880597,
      "grad_norm": 2.3936983110248287,
      "learning_rate": 2.5858208955223884e-07,
      "loss": 0.0361,
      "reward": 1.4166666269302368,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.4166666567325592,
      "rewards/format_reward": 1.0,
      "step": 693
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 110.41666412353516,
      "epoch": 5.2164179104477615,
      "grad_norm": 2.3476660355900005,
      "learning_rate": 2.5895522388059697e-07,
      "loss": 0.0124,
      "reward": 1.8055555820465088,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 694
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 91.22222137451172,
      "epoch": 5.223880597014926,
      "grad_norm": 10.112297774639176,
      "learning_rate": 2.593283582089552e-07,
      "loss": -0.0218,
      "reward": 1.8611111640930176,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 695
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 107.77777862548828,
      "epoch": 5.231343283582089,
      "grad_norm": 3.8825775993176737,
      "learning_rate": 2.5970149253731343e-07,
      "loss": -0.0525,
      "reward": 1.5833333730697632,
      "reward_std": 0.2777777910232544,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 696
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 88.80555725097656,
      "epoch": 5.2388059701492535,
      "grad_norm": 3.3676745130403827,
      "learning_rate": 2.600746268656716e-07,
      "loss": -0.0293,
      "reward": 1.7777777910232544,
      "reward_std": 0.2222222238779068,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 697
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 114.94444274902344,
      "epoch": 5.246268656716418,
      "grad_norm": 2.3092463796263045,
      "learning_rate": 2.6044776119402985e-07,
      "loss": -0.0447,
      "reward": 1.7777777910232544,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 698
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 126.83333587646484,
      "epoch": 5.253731343283582,
      "grad_norm": 34.53708482579797,
      "learning_rate": 2.608208955223881e-07,
      "loss": -0.0095,
      "reward": 1.388888955116272,
      "reward_std": 0.2222222238779068,
      "rewards/accuracy_reward": 0.3888888955116272,
      "rewards/format_reward": 1.0,
      "step": 699
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 110.05555725097656,
      "epoch": 5.2611940298507465,
      "grad_norm": 5.161097055412229,
      "learning_rate": 2.611940298507462e-07,
      "loss": 0.0446,
      "reward": 1.5555555820465088,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 700
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 101.19444274902344,
      "epoch": 5.268656716417911,
      "grad_norm": 2.7738821923776915,
      "learning_rate": 2.6156716417910444e-07,
      "loss": 0.0215,
      "reward": 1.75,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 701
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 117.44444274902344,
      "epoch": 5.276119402985074,
      "grad_norm": 4.56247452732203,
      "learning_rate": 2.619402985074627e-07,
      "loss": 0.032,
      "reward": 1.4166666269302368,
      "reward_std": 0.2949667274951935,
      "rewards/accuracy_reward": 0.4166666567325592,
      "rewards/format_reward": 1.0,
      "step": 702
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 119.11111450195312,
      "epoch": 5.2835820895522385,
      "grad_norm": 2.7795742379750856,
      "learning_rate": 2.6231343283582086e-07,
      "loss": -0.0298,
      "reward": 1.4166666269302368,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 0.9722222089767456,
      "step": 703
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 124.72222137451172,
      "epoch": 5.291044776119403,
      "grad_norm": 4.105700898486279,
      "learning_rate": 2.626865671641791e-07,
      "loss": 0.0877,
      "reward": 1.5277777910232544,
      "reward_std": 0.2949667274951935,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 704
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 119.41666412353516,
      "epoch": 5.298507462686567,
      "grad_norm": 4.562923852439656,
      "learning_rate": 2.630597014925373e-07,
      "loss": 0.0191,
      "reward": 1.5555555820465088,
      "reward_std": 0.41467228531837463,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 0.9722222089767456,
      "step": 705
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 115.55555725097656,
      "epoch": 5.3059701492537314,
      "grad_norm": 3.0681455540719083,
      "learning_rate": 2.6343283582089556e-07,
      "loss": -0.0062,
      "reward": 1.7777777910232544,
      "reward_std": 0.2222222238779068,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 706
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 94.61111450195312,
      "epoch": 5.313432835820896,
      "grad_norm": 2.3844267753705504,
      "learning_rate": 2.638059701492537e-07,
      "loss": -0.0143,
      "reward": 1.6666666269302368,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 0.9722222089767456,
      "step": 707
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 104.11111450195312,
      "epoch": 5.32089552238806,
      "grad_norm": 27.4756768305286,
      "learning_rate": 2.641791044776119e-07,
      "loss": -0.0248,
      "reward": 1.5555555820465088,
      "reward_std": 0.28637224435806274,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 708
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 123.52777862548828,
      "epoch": 5.3283582089552235,
      "grad_norm": 2.7106945247132956,
      "learning_rate": 2.6455223880597016e-07,
      "loss": 0.009,
      "reward": 1.5,
      "reward_std": 0.23941117525100708,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 709
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 124.08333587646484,
      "epoch": 5.335820895522388,
      "grad_norm": 3.2274465646977033,
      "learning_rate": 2.6492537313432834e-07,
      "loss": -0.0597,
      "reward": 1.5833333730697632,
      "reward_std": 0.2949667274951935,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 710
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 114.47222137451172,
      "epoch": 5.343283582089552,
      "grad_norm": 2.502736491059311,
      "learning_rate": 2.6529850746268657e-07,
      "loss": 0.0272,
      "reward": 1.6944444179534912,
      "reward_std": 0.18385560810565948,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 711
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 101.83333587646484,
      "epoch": 5.350746268656716,
      "grad_norm": 1.7151903858017137,
      "learning_rate": 2.656716417910448e-07,
      "loss": -0.0488,
      "reward": 1.5833333730697632,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 712
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 98.80555725097656,
      "epoch": 5.358208955223881,
      "grad_norm": 2.505149058308276,
      "learning_rate": 2.66044776119403e-07,
      "loss": 0.0009,
      "reward": 1.388888955116272,
      "reward_std": 0.2222222238779068,
      "rewards/accuracy_reward": 0.4166666567325592,
      "rewards/format_reward": 0.9722222089767456,
      "step": 713
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 104.58333587646484,
      "epoch": 5.365671641791045,
      "grad_norm": 26.2387300068245,
      "learning_rate": 2.6641791044776117e-07,
      "loss": -0.0107,
      "reward": 1.6666666269302368,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 714
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 115.27777862548828,
      "epoch": 5.373134328358209,
      "grad_norm": 4.505507419518809,
      "learning_rate": 2.667910447761194e-07,
      "loss": 0.0444,
      "reward": 1.388888955116272,
      "reward_std": 0.414672315120697,
      "rewards/accuracy_reward": 0.3888888955116272,
      "rewards/format_reward": 1.0,
      "step": 715
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 108.52777862548828,
      "epoch": 5.380597014925373,
      "grad_norm": 8.756399287251408,
      "learning_rate": 2.671641791044776e-07,
      "loss": 0.0901,
      "reward": 1.6944444179534912,
      "reward_std": 0.4060778319835663,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 716
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 102.61111450195312,
      "epoch": 5.388059701492537,
      "grad_norm": 3.478798322641028,
      "learning_rate": 2.675373134328358e-07,
      "loss": -0.0525,
      "reward": 1.6666666269302368,
      "reward_std": 0.23941117525100708,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 717
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 104.86111450195312,
      "epoch": 5.395522388059701,
      "grad_norm": 4.979542437395122,
      "learning_rate": 2.6791044776119405e-07,
      "loss": 0.1009,
      "reward": 1.7222222089767456,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 718
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 105.75,
      "epoch": 5.402985074626866,
      "grad_norm": 2.092485798413897,
      "learning_rate": 2.6828358208955223e-07,
      "loss": -0.03,
      "reward": 1.638888955116272,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 719
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 98.61111450195312,
      "epoch": 5.41044776119403,
      "grad_norm": 4.282147636580522,
      "learning_rate": 2.686567164179104e-07,
      "loss": -0.0224,
      "reward": 1.75,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 720
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 117.8888931274414,
      "epoch": 5.417910447761194,
      "grad_norm": 2.9657267228401056,
      "learning_rate": 2.6902985074626864e-07,
      "loss": -0.0251,
      "reward": 1.638888955116272,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 721
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 102.61111450195312,
      "epoch": 5.425373134328359,
      "grad_norm": 2.5490638302641875,
      "learning_rate": 2.694029850746268e-07,
      "loss": 0.0397,
      "reward": 1.8333333730697632,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 722
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 107.22222137451172,
      "epoch": 5.432835820895522,
      "grad_norm": 0.9604518034027624,
      "learning_rate": 2.6977611940298506e-07,
      "loss": -0.0165,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 723
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 100.58333587646484,
      "epoch": 5.440298507462686,
      "grad_norm": 2.6208727782344092,
      "learning_rate": 2.701492537313433e-07,
      "loss": -0.042,
      "reward": 1.638888955116272,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 724
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 115.1388931274414,
      "epoch": 5.447761194029851,
      "grad_norm": 6.7405088724317235,
      "learning_rate": 2.7052238805970147e-07,
      "loss": -0.0218,
      "reward": 1.2222222089767456,
      "reward_std": 0.23941117525100708,
      "rewards/accuracy_reward": 0.2222222238779068,
      "rewards/format_reward": 1.0,
      "step": 725
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 110.1388931274414,
      "epoch": 5.455223880597015,
      "grad_norm": 2.7534295115496636,
      "learning_rate": 2.708955223880597e-07,
      "loss": -0.019,
      "reward": 1.6111111640930176,
      "reward_std": 0.28637224435806274,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 726
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 116.25,
      "epoch": 5.462686567164179,
      "grad_norm": 2.3952421671248896,
      "learning_rate": 2.712686567164179e-07,
      "loss": 0.0257,
      "reward": 1.5277777910232544,
      "reward_std": 0.18385560810565948,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 727
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 97.1388931274414,
      "epoch": 5.470149253731344,
      "grad_norm": 6.519777029100354,
      "learning_rate": 2.7164179104477607e-07,
      "loss": -0.0168,
      "reward": 1.3611111640930176,
      "reward_std": 0.18385560810565948,
      "rewards/accuracy_reward": 0.3611111044883728,
      "rewards/format_reward": 1.0,
      "step": 728
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 105.22222137451172,
      "epoch": 5.477611940298507,
      "grad_norm": 5.009097587256256,
      "learning_rate": 2.720149253731343e-07,
      "loss": 0.0101,
      "reward": 1.6666666269302368,
      "reward_std": 0.28637224435806274,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 729
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 115.52777862548828,
      "epoch": 5.485074626865671,
      "grad_norm": 2.762054922582404,
      "learning_rate": 2.7238805970149254e-07,
      "loss": 0.0397,
      "reward": 1.4722222089767456,
      "reward_std": 0.24800565838813782,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 1.0,
      "step": 730
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 106.66666412353516,
      "epoch": 5.492537313432836,
      "grad_norm": 3.2463503789245336,
      "learning_rate": 2.7276119402985077e-07,
      "loss": 0.0669,
      "reward": 1.7777777910232544,
      "reward_std": 0.28637224435806274,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 731
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 111.97222137451172,
      "epoch": 5.5,
      "grad_norm": 3.0723464240159033,
      "learning_rate": 2.7313432835820895e-07,
      "loss": 0.0648,
      "reward": 1.6944444179534912,
      "reward_std": 0.18385560810565948,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 732
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 105.75,
      "epoch": 5.507462686567164,
      "grad_norm": 4.751715094003373,
      "learning_rate": 2.735074626865672e-07,
      "loss": 0.0742,
      "reward": 1.7222222089767456,
      "reward_std": 0.3333333432674408,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 733
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 113.5,
      "epoch": 5.514925373134329,
      "grad_norm": 24.00036017750576,
      "learning_rate": 2.7388059701492537e-07,
      "loss": -0.0019,
      "reward": 1.638888955116272,
      "reward_std": 0.4060778021812439,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 0.9722222089767456,
      "step": 734
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 130.0,
      "epoch": 5.522388059701493,
      "grad_norm": 15.11878955652011,
      "learning_rate": 2.7425373134328355e-07,
      "loss": -0.027,
      "reward": 1.6666666269302368,
      "reward_std": 0.3035612106323242,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 735
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 106.75,
      "epoch": 5.529850746268656,
      "grad_norm": 3.3151987285281432,
      "learning_rate": 2.746268656716418e-07,
      "loss": 0.0039,
      "reward": 1.6666666269302368,
      "reward_std": 0.23941117525100708,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 736
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 121.02777862548828,
      "epoch": 5.537313432835821,
      "grad_norm": 2.1994509577383043,
      "learning_rate": 2.75e-07,
      "loss": -0.0339,
      "reward": 1.6111111640930176,
      "reward_std": 0.2222222238779068,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 737
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 119.61111450195312,
      "epoch": 5.544776119402985,
      "grad_norm": 3.868651688923289,
      "learning_rate": 2.753731343283582e-07,
      "loss": 0.0166,
      "reward": 1.638888955116272,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 738
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 118.11111450195312,
      "epoch": 5.552238805970149,
      "grad_norm": 3.496075735596779,
      "learning_rate": 2.7574626865671643e-07,
      "loss": -0.0011,
      "reward": 1.4722222089767456,
      "reward_std": 0.31215566396713257,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 0.9722222089767456,
      "step": 739
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 115.61111450195312,
      "epoch": 5.559701492537314,
      "grad_norm": 2.5009796471347494,
      "learning_rate": 2.761194029850746e-07,
      "loss": -0.008,
      "reward": 1.6111111640930176,
      "reward_std": 0.23941117525100708,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 0.9722222089767456,
      "step": 740
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 112.91666412353516,
      "epoch": 5.567164179104478,
      "grad_norm": 1.316268524098626,
      "learning_rate": 2.764925373134328e-07,
      "loss": 0.0177,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 741
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 102.3888931274414,
      "epoch": 5.574626865671641,
      "grad_norm": 5.2943543946356515,
      "learning_rate": 2.76865671641791e-07,
      "loss": -0.0159,
      "reward": 1.6111111640930176,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 742
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 102.58333587646484,
      "epoch": 5.582089552238806,
      "grad_norm": 3.1438283838236947,
      "learning_rate": 2.7723880597014926e-07,
      "loss": -0.0381,
      "reward": 1.75,
      "reward_std": 0.18385560810565948,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 743
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 113.11111450195312,
      "epoch": 5.58955223880597,
      "grad_norm": 1.6883001844457095,
      "learning_rate": 2.7761194029850744e-07,
      "loss": 0.0117,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 744
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 102.30555725097656,
      "epoch": 5.597014925373134,
      "grad_norm": 1.3029891588349776,
      "learning_rate": 2.7798507462686567e-07,
      "loss": 0.0419,
      "reward": 1.6111111640930176,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 745
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 113.72222137451172,
      "epoch": 5.604477611940299,
      "grad_norm": 2.417054549932918,
      "learning_rate": 2.783582089552239e-07,
      "loss": -0.0351,
      "reward": 1.6944444179534912,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 746
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 102.19444274902344,
      "epoch": 5.611940298507463,
      "grad_norm": 2.983797655747183,
      "learning_rate": 2.7873134328358203e-07,
      "loss": 0.0484,
      "reward": 1.8333333730697632,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 747
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 121.02777862548828,
      "epoch": 5.619402985074627,
      "grad_norm": 16.750863051291535,
      "learning_rate": 2.7910447761194027e-07,
      "loss": 0.0414,
      "reward": 1.6111111640930176,
      "reward_std": 0.3035612106323242,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 748
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 110.02777862548828,
      "epoch": 5.6268656716417915,
      "grad_norm": 4.607525504491351,
      "learning_rate": 2.794776119402985e-07,
      "loss": 0.0381,
      "reward": 1.5277777910232544,
      "reward_std": 0.2949667274951935,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 749
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 117.1388931274414,
      "epoch": 5.634328358208955,
      "grad_norm": 2.9505511450796504,
      "learning_rate": 2.798507462686567e-07,
      "loss": -0.071,
      "reward": 1.6944444179534912,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 750
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 105.19444274902344,
      "epoch": 5.641791044776119,
      "grad_norm": 15.205140881433007,
      "learning_rate": 2.802238805970149e-07,
      "loss": -0.042,
      "reward": 1.5277777910232544,
      "reward_std": 0.18385560810565948,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 751
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 114.66666412353516,
      "epoch": 5.649253731343284,
      "grad_norm": 4.593586408866684,
      "learning_rate": 2.8059701492537315e-07,
      "loss": -0.0437,
      "reward": 1.5555555820465088,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 752
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 106.44444274902344,
      "epoch": 5.656716417910448,
      "grad_norm": 2.2262939153769987,
      "learning_rate": 2.809701492537313e-07,
      "loss": 0.0156,
      "reward": 1.75,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 753
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 110.94444274902344,
      "epoch": 5.664179104477612,
      "grad_norm": 0.0,
      "learning_rate": 2.813432835820895e-07,
      "loss": 0.0,
      "reward": 1.2222222089767456,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.2222222238779068,
      "rewards/format_reward": 1.0,
      "step": 754
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 112.8888931274414,
      "epoch": 5.6716417910447765,
      "grad_norm": 2.4536930063489253,
      "learning_rate": 2.8171641791044775e-07,
      "loss": 0.0315,
      "reward": 1.4722222089767456,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 1.0,
      "step": 755
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 113.11111450195312,
      "epoch": 5.67910447761194,
      "grad_norm": 2.4008217320441516,
      "learning_rate": 2.82089552238806e-07,
      "loss": -0.0149,
      "reward": 1.75,
      "reward_std": 0.18385560810565948,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 756
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 105.25,
      "epoch": 5.686567164179104,
      "grad_norm": 2.369866363620909,
      "learning_rate": 2.8246268656716416e-07,
      "loss": 0.0078,
      "reward": 1.7777777910232544,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 757
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 106.61111450195312,
      "epoch": 5.6940298507462686,
      "grad_norm": 3.581016951126338,
      "learning_rate": 2.828358208955224e-07,
      "loss": -0.0314,
      "reward": 1.4444444179534912,
      "reward_std": 0.2222222238779068,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 758
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 117.77777862548828,
      "epoch": 5.701492537313433,
      "grad_norm": 2.4971880583810853,
      "learning_rate": 2.8320895522388063e-07,
      "loss": 0.026,
      "reward": 1.4722222089767456,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 1.0,
      "step": 759
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 105.72222137451172,
      "epoch": 5.708955223880597,
      "grad_norm": 1.005747444451046,
      "learning_rate": 2.8358208955223876e-07,
      "loss": 0.0314,
      "reward": 1.6944444179534912,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 760
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 102.77777862548828,
      "epoch": 5.7164179104477615,
      "grad_norm": 5.324442668215093,
      "learning_rate": 2.83955223880597e-07,
      "loss": 0.0075,
      "reward": 1.5277777910232544,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 761
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 108.55555725097656,
      "epoch": 5.723880597014926,
      "grad_norm": 5.847482902805927,
      "learning_rate": 2.843283582089552e-07,
      "loss": 0.0084,
      "reward": 1.5,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 762
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 103.66666412353516,
      "epoch": 5.731343283582089,
      "grad_norm": 2.1270001977765913,
      "learning_rate": 2.847014925373134e-07,
      "loss": 0.0126,
      "reward": 1.5555555820465088,
      "reward_std": 0.12830005586147308,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 763
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 112.91666412353516,
      "epoch": 5.7388059701492535,
      "grad_norm": 1.5963922397729218,
      "learning_rate": 2.8507462686567164e-07,
      "loss": -0.0107,
      "reward": 1.2777777910232544,
      "reward_std": 0.16193635761737823,
      "rewards/accuracy_reward": 0.3055555522441864,
      "rewards/format_reward": 0.9722222089767456,
      "step": 764
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 108.08333587646484,
      "epoch": 5.746268656716418,
      "grad_norm": 3.0449510521131833,
      "learning_rate": 2.8544776119402987e-07,
      "loss": -0.0064,
      "reward": 1.6666666269302368,
      "reward_std": 0.23941117525100708,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 0.9722222089767456,
      "step": 765
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 108.58333587646484,
      "epoch": 5.753731343283582,
      "grad_norm": 5.0868202420736575,
      "learning_rate": 2.8582089552238805e-07,
      "loss": 0.0113,
      "reward": 1.75,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 766
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 98.94444274902344,
      "epoch": 5.7611940298507465,
      "grad_norm": 0.0,
      "learning_rate": 2.8619402985074623e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 767
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 118.69444274902344,
      "epoch": 5.768656716417911,
      "grad_norm": 2.0476678459090225,
      "learning_rate": 2.8656716417910447e-07,
      "loss": 0.0242,
      "reward": 1.4722222089767456,
      "reward_std": 0.18385560810565948,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 1.0,
      "step": 768
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 107.58333587646484,
      "epoch": 5.776119402985074,
      "grad_norm": 4.280160144903682,
      "learning_rate": 2.8694029850746265e-07,
      "loss": 0.0153,
      "reward": 1.6944444179534912,
      "reward_std": 0.2949667274951935,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 769
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 102.94444274902344,
      "epoch": 5.7835820895522385,
      "grad_norm": 4.484973211413071,
      "learning_rate": 2.873134328358209e-07,
      "loss": -0.0063,
      "reward": 1.4722222089767456,
      "reward_std": 0.2949667274951935,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 1.0,
      "step": 770
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 106.5,
      "epoch": 5.791044776119403,
      "grad_norm": 3.44393022718017,
      "learning_rate": 2.876865671641791e-07,
      "loss": 0.0032,
      "reward": 1.5833333730697632,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 771
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 102.36111450195312,
      "epoch": 5.798507462686567,
      "grad_norm": 3.381160973064716,
      "learning_rate": 2.880597014925373e-07,
      "loss": -0.0174,
      "reward": 1.638888955116272,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 772
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 122.97222137451172,
      "epoch": 5.8059701492537314,
      "grad_norm": 1.9950359707185459,
      "learning_rate": 2.884328358208955e-07,
      "loss": -0.0226,
      "reward": 1.7222222089767456,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 773
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 101.5,
      "epoch": 5.813432835820896,
      "grad_norm": 3.159802632041952,
      "learning_rate": 2.888059701492537e-07,
      "loss": -0.0071,
      "reward": 1.5277777910232544,
      "reward_std": 0.18385560810565948,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 0.9722222089767456,
      "step": 774
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 107.66666412353516,
      "epoch": 5.82089552238806,
      "grad_norm": 1.7479602171465611,
      "learning_rate": 2.891791044776119e-07,
      "loss": -0.0067,
      "reward": 1.6944444179534912,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 775
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 99.77777862548828,
      "epoch": 5.8283582089552235,
      "grad_norm": 2.3040872447605056,
      "learning_rate": 2.8955223880597013e-07,
      "loss": -0.0129,
      "reward": 1.888888955116272,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 776
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 102.61111450195312,
      "epoch": 5.835820895522388,
      "grad_norm": 3.473784053133141,
      "learning_rate": 2.8992537313432836e-07,
      "loss": -0.0682,
      "reward": 1.638888955116272,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 777
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 97.1388931274414,
      "epoch": 5.843283582089552,
      "grad_norm": 5.625640547297562,
      "learning_rate": 2.902985074626866e-07,
      "loss": -0.0311,
      "reward": 1.6944444179534912,
      "reward_std": 0.2949666976928711,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 778
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 112.58333587646484,
      "epoch": 5.850746268656716,
      "grad_norm": 6.87361571442421,
      "learning_rate": 2.906716417910448e-07,
      "loss": -0.0084,
      "reward": 1.4722222089767456,
      "reward_std": 0.18385560810565948,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 1.0,
      "step": 779
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 100.61111450195312,
      "epoch": 5.858208955223881,
      "grad_norm": 2.0621350927764177,
      "learning_rate": 2.9104477611940296e-07,
      "loss": 0.0001,
      "reward": 1.6666666269302368,
      "reward_std": 0.12830005586147308,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 780
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 95.47222137451172,
      "epoch": 5.865671641791045,
      "grad_norm": 5.398179639667688,
      "learning_rate": 2.914179104477612e-07,
      "loss": 0.0253,
      "reward": 1.6111111640930176,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 781
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 109.80555725097656,
      "epoch": 5.8731343283582085,
      "grad_norm": 0.0,
      "learning_rate": 2.9179104477611937e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 782
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 114.41666412353516,
      "epoch": 5.880597014925373,
      "grad_norm": 2.274745628213932,
      "learning_rate": 2.921641791044776e-07,
      "loss": 0.0428,
      "reward": 1.8611111640930176,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 783
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 118.8888931274414,
      "epoch": 5.888059701492537,
      "grad_norm": 6.307335633115958,
      "learning_rate": 2.9253731343283584e-07,
      "loss": 0.0338,
      "reward": 1.3611111640930176,
      "reward_std": 0.34192779660224915,
      "rewards/accuracy_reward": 0.3611111044883728,
      "rewards/format_reward": 1.0,
      "step": 784
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 103.16666412353516,
      "epoch": 5.895522388059701,
      "grad_norm": 1.8720093082993339,
      "learning_rate": 2.92910447761194e-07,
      "loss": -0.0018,
      "reward": 1.5,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 785
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 111.02777862548828,
      "epoch": 5.902985074626866,
      "grad_norm": 1.431687187215496,
      "learning_rate": 2.9328358208955225e-07,
      "loss": -0.0023,
      "reward": 1.5833333730697632,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 786
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 111.86111450195312,
      "epoch": 5.91044776119403,
      "grad_norm": 4.2337567917014285,
      "learning_rate": 2.9365671641791043e-07,
      "loss": -0.0262,
      "reward": 1.7222222089767456,
      "reward_std": 0.23941117525100708,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 787
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 123.44444274902344,
      "epoch": 5.917910447761194,
      "grad_norm": 3.5926190671136142,
      "learning_rate": 2.940298507462686e-07,
      "loss": 0.0064,
      "reward": 1.4722222089767456,
      "reward_std": 0.4060778319835663,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 1.0,
      "step": 788
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 111.30555725097656,
      "epoch": 5.925373134328359,
      "grad_norm": 3.77877355732241,
      "learning_rate": 2.9440298507462685e-07,
      "loss": 0.0488,
      "reward": 1.7777777910232544,
      "reward_std": 0.28637224435806274,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 789
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 107.61111450195312,
      "epoch": 5.932835820895522,
      "grad_norm": 3.414545605885645,
      "learning_rate": 2.947761194029851e-07,
      "loss": 0.0179,
      "reward": 1.8333333730697632,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 790
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 106.94444274902344,
      "epoch": 5.940298507462686,
      "grad_norm": 1.8398745325229742,
      "learning_rate": 2.9514925373134326e-07,
      "loss": 0.0031,
      "reward": 1.5,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 791
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 118.80555725097656,
      "epoch": 5.947761194029851,
      "grad_norm": 7.95251712818311,
      "learning_rate": 2.955223880597015e-07,
      "loss": -0.002,
      "reward": 1.5555555820465088,
      "reward_std": 0.2222222238779068,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 792
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 122.41666412353516,
      "epoch": 5.955223880597015,
      "grad_norm": 12.234370849880593,
      "learning_rate": 2.958955223880597e-07,
      "loss": -0.0659,
      "reward": 1.6944444179534912,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 793
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 102.02777862548828,
      "epoch": 5.962686567164179,
      "grad_norm": 2.58438216141531,
      "learning_rate": 2.9626865671641786e-07,
      "loss": -0.0169,
      "reward": 1.6111111640930176,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 794
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 113.91666412353516,
      "epoch": 5.970149253731344,
      "grad_norm": 3.2491265063340236,
      "learning_rate": 2.966417910447761e-07,
      "loss": 0.0731,
      "reward": 1.7222222089767456,
      "reward_std": 0.2222222238779068,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 795
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 108.61111450195312,
      "epoch": 5.977611940298507,
      "grad_norm": 2.4102145626424916,
      "learning_rate": 2.9701492537313433e-07,
      "loss": 0.0161,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 796
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 95.52777862548828,
      "epoch": 5.985074626865671,
      "grad_norm": 2.2423991963026553,
      "learning_rate": 2.973880597014925e-07,
      "loss": 0.0071,
      "reward": 1.6666666269302368,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 797
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 113.25,
      "epoch": 5.992537313432836,
      "grad_norm": 3.0914471884387837,
      "learning_rate": 2.9776119402985074e-07,
      "loss": -0.029,
      "reward": 1.5555555820465088,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 798
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 90.27777862548828,
      "epoch": 6.007462686567164,
      "grad_norm": 2.210811126234309,
      "learning_rate": 2.98134328358209e-07,
      "loss": 0.0117,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 799
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 109.41666412353516,
      "epoch": 6.014925373134329,
      "grad_norm": 0.0,
      "learning_rate": 2.985074626865671e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 800
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 105.58333587646484,
      "epoch": 6.022388059701493,
      "grad_norm": 3.6964840789563573,
      "learning_rate": 2.9888059701492534e-07,
      "loss": 0.0414,
      "reward": 1.5555555820465088,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 801
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 101.97222137451172,
      "epoch": 6.029850746268656,
      "grad_norm": 2.1610793443611143,
      "learning_rate": 2.9925373134328357e-07,
      "loss": -0.0041,
      "reward": 1.6666666269302368,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 802
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 114.52777862548828,
      "epoch": 6.037313432835821,
      "grad_norm": 13.574469742178433,
      "learning_rate": 2.996268656716418e-07,
      "loss": 0.0213,
      "reward": 1.5277777910232544,
      "reward_std": 0.2777777910232544,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 803
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 105.69444274902344,
      "epoch": 6.044776119402985,
      "grad_norm": 3.2816490440821617,
      "learning_rate": 3e-07,
      "loss": -0.0171,
      "reward": 1.4444444179534912,
      "reward_std": 0.23941117525100708,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 0.9722222089767456,
      "step": 804
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 105.27777862548828,
      "epoch": 6.052238805970149,
      "grad_norm": 3.0294080772184366,
      "learning_rate": 3.003731343283582e-07,
      "loss": -0.028,
      "reward": 1.6111111640930176,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 805
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 107.41666412353516,
      "epoch": 6.059701492537314,
      "grad_norm": 1.9871526951159106,
      "learning_rate": 3.0074626865671645e-07,
      "loss": -0.0015,
      "reward": 1.8055555820465088,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 806
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 108.41666412353516,
      "epoch": 6.067164179104478,
      "grad_norm": 3.0720675675350897,
      "learning_rate": 3.011194029850746e-07,
      "loss": -0.0175,
      "reward": 1.5277777910232544,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 807
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 98.75,
      "epoch": 6.074626865671641,
      "grad_norm": 1.223911657352111,
      "learning_rate": 3.014925373134328e-07,
      "loss": -0.0044,
      "reward": 1.6944444179534912,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 808
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 96.58333587646484,
      "epoch": 6.082089552238806,
      "grad_norm": 1.6040835453941977,
      "learning_rate": 3.0186567164179105e-07,
      "loss": -0.023,
      "reward": 1.6111111640930176,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 809
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 115.94444274902344,
      "epoch": 6.08955223880597,
      "grad_norm": 4.349911819938385,
      "learning_rate": 3.0223880597014923e-07,
      "loss": 0.065,
      "reward": 1.5555555820465088,
      "reward_std": 0.36771121621131897,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 810
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 99.47222137451172,
      "epoch": 6.097014925373134,
      "grad_norm": 0.0,
      "learning_rate": 3.0261194029850746e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 811
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 108.97222137451172,
      "epoch": 6.104477611940299,
      "grad_norm": 3.32454211728886,
      "learning_rate": 3.029850746268657e-07,
      "loss": 0.0134,
      "reward": 1.5,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 812
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 103.55555725097656,
      "epoch": 6.111940298507463,
      "grad_norm": 2.481892936372909,
      "learning_rate": 3.033582089552238e-07,
      "loss": -0.008,
      "reward": 1.6111111640930176,
      "reward_std": 0.19245009124279022,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 813
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 104.33333587646484,
      "epoch": 6.119402985074627,
      "grad_norm": 2.390220962850586,
      "learning_rate": 3.0373134328358206e-07,
      "loss": 0.008,
      "reward": 1.5,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 814
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 98.66666412353516,
      "epoch": 6.126865671641791,
      "grad_norm": 2.0782618960569312,
      "learning_rate": 3.041044776119403e-07,
      "loss": 0.0194,
      "reward": 1.9166666269302368,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 815
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 104.69444274902344,
      "epoch": 6.134328358208955,
      "grad_norm": 2.1670985417429645,
      "learning_rate": 3.044776119402985e-07,
      "loss": 0.0025,
      "reward": 1.6111111640930176,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 816
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 93.30555725097656,
      "epoch": 6.141791044776119,
      "grad_norm": 1.9139519108835132,
      "learning_rate": 3.048507462686567e-07,
      "loss": 0.0056,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 817
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 116.80555725097656,
      "epoch": 6.149253731343284,
      "grad_norm": 9.387265811164202,
      "learning_rate": 3.0522388059701494e-07,
      "loss": 0.0882,
      "reward": 1.8333333730697632,
      "reward_std": 0.2222222238779068,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 818
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 100.97222137451172,
      "epoch": 6.156716417910448,
      "grad_norm": 3.1053514815640235,
      "learning_rate": 3.055970149253731e-07,
      "loss": 0.0225,
      "reward": 1.6111111640930176,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 819
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 87.02777862548828,
      "epoch": 6.164179104477612,
      "grad_norm": 2.1472851997434317,
      "learning_rate": 3.059701492537313e-07,
      "loss": -0.0156,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 820
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 117.61111450195312,
      "epoch": 6.1716417910447765,
      "grad_norm": 2.8241859948950987,
      "learning_rate": 3.0634328358208954e-07,
      "loss": 0.0186,
      "reward": 1.5,
      "reward_std": 0.2222222238779068,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 821
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.8888931274414,
      "epoch": 6.17910447761194,
      "grad_norm": 1.547832696259017,
      "learning_rate": 3.067164179104477e-07,
      "loss": 0.0105,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 822
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 98.66666412353516,
      "epoch": 6.186567164179104,
      "grad_norm": 3.381044742568193,
      "learning_rate": 3.0708955223880595e-07,
      "loss": 0.0373,
      "reward": 1.75,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 823
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 110.33333587646484,
      "epoch": 6.1940298507462686,
      "grad_norm": 2.402843576199356,
      "learning_rate": 3.074626865671642e-07,
      "loss": -0.0326,
      "reward": 1.4722222089767456,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 1.0,
      "step": 824
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 89.5,
      "epoch": 6.201492537313433,
      "grad_norm": 2.805129422340907,
      "learning_rate": 3.0783582089552237e-07,
      "loss": -0.0101,
      "reward": 1.5833333730697632,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 825
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 89.41666412353516,
      "epoch": 6.208955223880597,
      "grad_norm": 2.854008215147192,
      "learning_rate": 3.0820895522388055e-07,
      "loss": 0.0006,
      "reward": 1.5555555820465088,
      "reward_std": 0.2222222238779068,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 826
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 114.3888931274414,
      "epoch": 6.2164179104477615,
      "grad_norm": 2.7523648657663613,
      "learning_rate": 3.085820895522388e-07,
      "loss": 0.0082,
      "reward": 1.5,
      "reward_std": 0.23941117525100708,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 827
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 111.52777862548828,
      "epoch": 6.223880597014926,
      "grad_norm": 1.9809287656748888,
      "learning_rate": 3.08955223880597e-07,
      "loss": -0.002,
      "reward": 1.4444444179534912,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 828
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 98.5,
      "epoch": 6.231343283582089,
      "grad_norm": 11.762029929751046,
      "learning_rate": 3.093283582089552e-07,
      "loss": 0.0141,
      "reward": 1.6944444179534912,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 829
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 98.33333587646484,
      "epoch": 6.2388059701492535,
      "grad_norm": 3.0911211622836077,
      "learning_rate": 3.0970149253731343e-07,
      "loss": -0.0064,
      "reward": 1.7222222089767456,
      "reward_std": 0.23941117525100708,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 830
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 99.5,
      "epoch": 6.246268656716418,
      "grad_norm": 7.689210272952364,
      "learning_rate": 3.1007462686567166e-07,
      "loss": -0.0668,
      "reward": 1.4722222089767456,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 1.0,
      "step": 831
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 102.02777862548828,
      "epoch": 6.253731343283582,
      "grad_norm": 3.1788759579414805,
      "learning_rate": 3.1044776119402985e-07,
      "loss": 0.0271,
      "reward": 1.5555555820465088,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 832
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 97.41666412353516,
      "epoch": 6.2611940298507465,
      "grad_norm": 1.8396174965780276,
      "learning_rate": 3.10820895522388e-07,
      "loss": -0.0215,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 833
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 93.0,
      "epoch": 6.268656716417911,
      "grad_norm": 1.8114526298453537,
      "learning_rate": 3.1119402985074626e-07,
      "loss": 0.0227,
      "reward": 1.75,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 834
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 101.36111450195312,
      "epoch": 6.276119402985074,
      "grad_norm": 3.1839341536168173,
      "learning_rate": 3.1156716417910444e-07,
      "loss": -0.0418,
      "reward": 1.4722222089767456,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 1.0,
      "step": 835
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 108.55555725097656,
      "epoch": 6.2835820895522385,
      "grad_norm": 3.117740350228059,
      "learning_rate": 3.119402985074627e-07,
      "loss": 0.0294,
      "reward": 1.4722222089767456,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 1.0,
      "step": 836
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.02777862548828,
      "epoch": 6.291044776119403,
      "grad_norm": 4.263752723144992,
      "learning_rate": 3.123134328358209e-07,
      "loss": 0.0351,
      "reward": 1.6944444179534912,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 837
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 100.19444274902344,
      "epoch": 6.298507462686567,
      "grad_norm": 3.847618988655726,
      "learning_rate": 3.126865671641791e-07,
      "loss": 0.0313,
      "reward": 1.7777777910232544,
      "reward_std": 0.23941117525100708,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 838
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 87.19444274902344,
      "epoch": 6.3059701492537314,
      "grad_norm": 0.0,
      "learning_rate": 3.130597014925373e-07,
      "loss": 0.0,
      "reward": 1.4444444179534912,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 839
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 96.6388931274414,
      "epoch": 6.313432835820896,
      "grad_norm": 7.6694321158165755,
      "learning_rate": 3.134328358208955e-07,
      "loss": 0.0163,
      "reward": 1.6666666269302368,
      "reward_std": 0.23941117525100708,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 840
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 96.47222137451172,
      "epoch": 6.32089552238806,
      "grad_norm": 1.652168064903558,
      "learning_rate": 3.138059701492537e-07,
      "loss": 0.0033,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 841
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 91.72222137451172,
      "epoch": 6.3283582089552235,
      "grad_norm": 1.2946154417392464,
      "learning_rate": 3.141791044776119e-07,
      "loss": -0.0119,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 842
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 96.30555725097656,
      "epoch": 6.335820895522388,
      "grad_norm": 2.6031249305611097,
      "learning_rate": 3.1455223880597015e-07,
      "loss": 0.0309,
      "reward": 1.5833333730697632,
      "reward_std": 0.18385560810565948,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 843
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 94.41666412353516,
      "epoch": 6.343283582089552,
      "grad_norm": 1.558760381143073,
      "learning_rate": 3.1492537313432833e-07,
      "loss": 0.0167,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 844
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.77777862548828,
      "epoch": 6.350746268656716,
      "grad_norm": 4.944474199854145,
      "learning_rate": 3.1529850746268657e-07,
      "loss": 0.0525,
      "reward": 1.6944444179534912,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 845
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 97.86111450195312,
      "epoch": 6.358208955223881,
      "grad_norm": 30.651031569164232,
      "learning_rate": 3.1567164179104475e-07,
      "loss": -0.0273,
      "reward": 1.6666666269302368,
      "reward_std": 0.12830005586147308,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 846
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.55555725097656,
      "epoch": 6.365671641791045,
      "grad_norm": 1.5658234290434907,
      "learning_rate": 3.1604477611940293e-07,
      "loss": -0.0301,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 847
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 82.86111450195312,
      "epoch": 6.373134328358209,
      "grad_norm": 2.581723091643287,
      "learning_rate": 3.1641791044776116e-07,
      "loss": 0.0031,
      "reward": 1.9444444179534912,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.944444477558136,
      "rewards/format_reward": 1.0,
      "step": 848
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 85.16666412353516,
      "epoch": 6.380597014925373,
      "grad_norm": 2.066837413430685,
      "learning_rate": 3.167910447761194e-07,
      "loss": -0.0392,
      "reward": 1.5277777910232544,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 849
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 91.27777862548828,
      "epoch": 6.388059701492537,
      "grad_norm": 3.047340790457328,
      "learning_rate": 3.1716417910447763e-07,
      "loss": -0.0058,
      "reward": 1.5833333730697632,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 850
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 100.72222137451172,
      "epoch": 6.395522388059701,
      "grad_norm": 6.7730868029653735,
      "learning_rate": 3.175373134328358e-07,
      "loss": 0.0175,
      "reward": 1.6944444179534912,
      "reward_std": 0.24800565838813782,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 851
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 89.66666412353516,
      "epoch": 6.402985074626866,
      "grad_norm": 4.15715264093805,
      "learning_rate": 3.1791044776119405e-07,
      "loss": -0.0055,
      "reward": 1.4722222089767456,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 0.9722222089767456,
      "step": 852
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 100.36111450195312,
      "epoch": 6.41044776119403,
      "grad_norm": 3.169108205771154,
      "learning_rate": 3.182835820895522e-07,
      "loss": -0.0343,
      "reward": 1.5555555820465088,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 853
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 91.58333587646484,
      "epoch": 6.417910447761194,
      "grad_norm": 2.655351980022272,
      "learning_rate": 3.186567164179104e-07,
      "loss": -0.0145,
      "reward": 1.6111111640930176,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 0.9722222089767456,
      "step": 854
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 89.47222137451172,
      "epoch": 6.425373134328359,
      "grad_norm": 3.7944157318013185,
      "learning_rate": 3.1902985074626864e-07,
      "loss": 0.0294,
      "reward": 1.9166666269302368,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 855
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.44444274902344,
      "epoch": 6.432835820895522,
      "grad_norm": 0.0,
      "learning_rate": 3.194029850746269e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 856
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 91.55555725097656,
      "epoch": 6.440298507462686,
      "grad_norm": 6.046472356397599,
      "learning_rate": 3.1977611940298506e-07,
      "loss": -0.0024,
      "reward": 1.5833333730697632,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 857
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 91.41666412353516,
      "epoch": 6.447761194029851,
      "grad_norm": 1.5467757927157677,
      "learning_rate": 3.201492537313433e-07,
      "loss": -0.0155,
      "reward": 1.6111111640930176,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 858
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 89.3888931274414,
      "epoch": 6.455223880597015,
      "grad_norm": 1.6529106389656234,
      "learning_rate": 3.205223880597015e-07,
      "loss": 0.0143,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 859
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 106.36111450195312,
      "epoch": 6.462686567164179,
      "grad_norm": 11.184976227080009,
      "learning_rate": 3.2089552238805965e-07,
      "loss": -0.0093,
      "reward": 1.4444444179534912,
      "reward_std": 0.12830005586147308,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 860
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 100.16666412353516,
      "epoch": 6.470149253731344,
      "grad_norm": 1.2280090741010654,
      "learning_rate": 3.212686567164179e-07,
      "loss": -0.0179,
      "reward": 1.4166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.4166666567325592,
      "rewards/format_reward": 1.0,
      "step": 861
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 91.36111450195312,
      "epoch": 6.477611940298507,
      "grad_norm": 16.81767995337352,
      "learning_rate": 3.216417910447761e-07,
      "loss": -0.0001,
      "reward": 1.4722222089767456,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 1.0,
      "step": 862
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 98.11111450195312,
      "epoch": 6.485074626865671,
      "grad_norm": 0.0,
      "learning_rate": 3.220149253731343e-07,
      "loss": 0.0,
      "reward": 1.4444444179534912,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 863
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 88.80555725097656,
      "epoch": 6.492537313432836,
      "grad_norm": 1.493708519253249,
      "learning_rate": 3.2238805970149253e-07,
      "loss": -0.0004,
      "reward": 1.9166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 864
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 91.08333587646484,
      "epoch": 6.5,
      "grad_norm": 6.774456349405951,
      "learning_rate": 3.2276119402985077e-07,
      "loss": 0.0523,
      "reward": 1.5555555820465088,
      "reward_std": 0.28637224435806274,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 865
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.94444274902344,
      "epoch": 6.507462686567164,
      "grad_norm": 0.0,
      "learning_rate": 3.231343283582089e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 866
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 102.72222137451172,
      "epoch": 6.514925373134329,
      "grad_norm": 2.9929277557684006,
      "learning_rate": 3.2350746268656713e-07,
      "loss": -0.0309,
      "reward": 1.6111111640930176,
      "reward_std": 0.23941117525100708,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 867
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 86.19444274902344,
      "epoch": 6.522388059701493,
      "grad_norm": 5.072483091365831,
      "learning_rate": 3.2388059701492536e-07,
      "loss": 0.0118,
      "reward": 1.638888955116272,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 868
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 87.30555725097656,
      "epoch": 6.529850746268656,
      "grad_norm": 7.932402775981162,
      "learning_rate": 3.2425373134328354e-07,
      "loss": -0.0155,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 869
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 94.58333587646484,
      "epoch": 6.537313432835821,
      "grad_norm": 2.1414127811177495,
      "learning_rate": 3.246268656716418e-07,
      "loss": 0.0251,
      "reward": 1.8055555820465088,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 870
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 85.75,
      "epoch": 6.544776119402985,
      "grad_norm": 1.545150562636088,
      "learning_rate": 3.25e-07,
      "loss": 0.0177,
      "reward": 1.6111111640930176,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 871
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 83.1388931274414,
      "epoch": 6.552238805970149,
      "grad_norm": 4.953693704070846,
      "learning_rate": 3.253731343283582e-07,
      "loss": -0.0342,
      "reward": 1.638888955116272,
      "reward_std": 0.18385560810565948,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 872
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 83.44444274902344,
      "epoch": 6.559701492537314,
      "grad_norm": 2.0688664052023693,
      "learning_rate": 3.257462686567164e-07,
      "loss": 0.0074,
      "reward": 1.5833333730697632,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 873
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 83.86111450195312,
      "epoch": 6.567164179104478,
      "grad_norm": 3.3242345753900144,
      "learning_rate": 3.261194029850746e-07,
      "loss": -0.0086,
      "reward": 1.6944444179534912,
      "reward_std": 0.18385560810565948,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 874
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 90.41666412353516,
      "epoch": 6.574626865671641,
      "grad_norm": 2.77124144331238,
      "learning_rate": 3.2649253731343284e-07,
      "loss": 0.004,
      "reward": 1.638888955116272,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 875
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 83.8888931274414,
      "epoch": 6.582089552238806,
      "grad_norm": 6.371373697687852,
      "learning_rate": 3.26865671641791e-07,
      "loss": -0.0711,
      "reward": 1.638888955116272,
      "reward_std": 0.24800565838813782,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 0.944444477558136,
      "step": 876
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 80.69444274902344,
      "epoch": 6.58955223880597,
      "grad_norm": 2.156675931727573,
      "learning_rate": 3.2723880597014926e-07,
      "loss": 0.0177,
      "reward": 1.5277777910232544,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 877
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.86111450195312,
      "epoch": 6.597014925373134,
      "grad_norm": 3.36403108614984,
      "learning_rate": 3.276119402985075e-07,
      "loss": 0.0176,
      "reward": 1.6944444179534912,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 878
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 81.91666412353516,
      "epoch": 6.604477611940299,
      "grad_norm": 3.762345576205296,
      "learning_rate": 3.279850746268656e-07,
      "loss": -0.0057,
      "reward": 1.7222222089767456,
      "reward_std": 0.2222222238779068,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 879
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 85.19444274902344,
      "epoch": 6.611940298507463,
      "grad_norm": 2.927328709317262,
      "learning_rate": 3.2835820895522385e-07,
      "loss": -0.0386,
      "reward": 1.6944444179534912,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 880
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 84.41666412353516,
      "epoch": 6.619402985074627,
      "grad_norm": 3.233580397044147,
      "learning_rate": 3.287313432835821e-07,
      "loss": -0.0288,
      "reward": 1.5833333730697632,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 881
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 78.5,
      "epoch": 6.6268656716417915,
      "grad_norm": 2.964382317109668,
      "learning_rate": 3.2910447761194027e-07,
      "loss": 0.0358,
      "reward": 1.7777777910232544,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 882
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 89.11111450195312,
      "epoch": 6.634328358208955,
      "grad_norm": 3.2053981609137017,
      "learning_rate": 3.294776119402985e-07,
      "loss": 0.066,
      "reward": 1.6944444179534912,
      "reward_std": 0.18385560810565948,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 883
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 90.75,
      "epoch": 6.641791044776119,
      "grad_norm": 2.213908134314707,
      "learning_rate": 3.2985074626865673e-07,
      "loss": 0.0049,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 884
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 86.47222137451172,
      "epoch": 6.649253731343284,
      "grad_norm": 3.5453397694257576,
      "learning_rate": 3.302238805970149e-07,
      "loss": 0.0118,
      "reward": 1.6111111640930176,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 885
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 85.1388931274414,
      "epoch": 6.656716417910448,
      "grad_norm": 2.284038454112262,
      "learning_rate": 3.305970149253731e-07,
      "loss": 0.0126,
      "reward": 1.6944444179534912,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 886
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 82.5,
      "epoch": 6.664179104477612,
      "grad_norm": 3.26854029461266,
      "learning_rate": 3.3097014925373133e-07,
      "loss": -0.0123,
      "reward": 1.7222222089767456,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 887
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 77.80555725097656,
      "epoch": 6.6716417910447765,
      "grad_norm": 2.431709709006988,
      "learning_rate": 3.313432835820895e-07,
      "loss": 0.0075,
      "reward": 1.75,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 888
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 76.77777862548828,
      "epoch": 6.67910447761194,
      "grad_norm": 5.079345189454251,
      "learning_rate": 3.3171641791044774e-07,
      "loss": -0.037,
      "reward": 1.6111111640930176,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 889
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 80.30555725097656,
      "epoch": 6.686567164179104,
      "grad_norm": 2.788328134746036,
      "learning_rate": 3.32089552238806e-07,
      "loss": -0.0097,
      "reward": 1.7777777910232544,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 890
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 81.61111450195312,
      "epoch": 6.6940298507462686,
      "grad_norm": 4.938050061585926,
      "learning_rate": 3.3246268656716416e-07,
      "loss": 0.0276,
      "reward": 1.3333333730697632,
      "reward_std": 0.12830005586147308,
      "rewards/accuracy_reward": 0.3333333432674408,
      "rewards/format_reward": 1.0,
      "step": 891
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.16666412353516,
      "epoch": 6.701492537313433,
      "grad_norm": 3.715193693198946,
      "learning_rate": 3.328358208955224e-07,
      "loss": -0.0217,
      "reward": 1.5555555820465088,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 892
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 81.11111450195312,
      "epoch": 6.708955223880597,
      "grad_norm": 1.492980995299886,
      "learning_rate": 3.332089552238806e-07,
      "loss": -0.0056,
      "reward": 1.6111111640930176,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 893
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 85.61111450195312,
      "epoch": 6.7164179104477615,
      "grad_norm": 2.356451123783383,
      "learning_rate": 3.3358208955223875e-07,
      "loss": -0.001,
      "reward": 1.6944444179534912,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 894
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 87.61111450195312,
      "epoch": 6.723880597014926,
      "grad_norm": 0.0,
      "learning_rate": 3.33955223880597e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 895
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 86.47222137451172,
      "epoch": 6.731343283582089,
      "grad_norm": 2.0755088573459672,
      "learning_rate": 3.343283582089552e-07,
      "loss": 0.0019,
      "reward": 1.6944444179534912,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 896
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 83.72222137451172,
      "epoch": 6.7388059701492535,
      "grad_norm": 0.0,
      "learning_rate": 3.347014925373134e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 897
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 83.55555725097656,
      "epoch": 6.746268656716418,
      "grad_norm": 6.152064020853829,
      "learning_rate": 3.3507462686567164e-07,
      "loss": 0.0017,
      "reward": 1.4166666269302368,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.4166666567325592,
      "rewards/format_reward": 1.0,
      "step": 898
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 90.1388931274414,
      "epoch": 6.753731343283582,
      "grad_norm": 7.987352890066158,
      "learning_rate": 3.354477611940298e-07,
      "loss": -0.004,
      "reward": 1.638888955116272,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 899
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 82.41666412353516,
      "epoch": 6.7611940298507465,
      "grad_norm": 1.208085488793013,
      "learning_rate": 3.3582089552238805e-07,
      "loss": 0.0118,
      "reward": 1.4722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 1.0,
      "step": 900
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 85.22222137451172,
      "epoch": 6.768656716417911,
      "grad_norm": 9.263385733283167,
      "learning_rate": 3.3619402985074623e-07,
      "loss": -0.0263,
      "reward": 1.4444444179534912,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 901
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 81.61111450195312,
      "epoch": 6.776119402985074,
      "grad_norm": 4.408714704587878,
      "learning_rate": 3.3656716417910447e-07,
      "loss": 0.0267,
      "reward": 1.6944444179534912,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 902
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 86.27777862548828,
      "epoch": 6.7835820895522385,
      "grad_norm": 2.887036691224717,
      "learning_rate": 3.369402985074627e-07,
      "loss": -0.0016,
      "reward": 1.388888955116272,
      "reward_std": 0.23941117525100708,
      "rewards/accuracy_reward": 0.3888888955116272,
      "rewards/format_reward": 1.0,
      "step": 903
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 79.02777862548828,
      "epoch": 6.791044776119403,
      "grad_norm": 0.0,
      "learning_rate": 3.373134328358209e-07,
      "loss": 0.0,
      "reward": 1.4444444179534912,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 904
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 83.08333587646484,
      "epoch": 6.798507462686567,
      "grad_norm": 0.0,
      "learning_rate": 3.376865671641791e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 905
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 79.19444274902344,
      "epoch": 6.8059701492537314,
      "grad_norm": 3.4235500915871984,
      "learning_rate": 3.380597014925373e-07,
      "loss": -0.005,
      "reward": 1.6111111640930176,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 906
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 78.30555725097656,
      "epoch": 6.813432835820896,
      "grad_norm": 2.9762850970214028,
      "learning_rate": 3.384328358208955e-07,
      "loss": -0.0394,
      "reward": 1.638888955116272,
      "reward_std": 0.18385560810565948,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 907
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 78.5,
      "epoch": 6.82089552238806,
      "grad_norm": 3.3933568560662564,
      "learning_rate": 3.388059701492537e-07,
      "loss": -0.0022,
      "reward": 1.9444444179534912,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.944444477558136,
      "rewards/format_reward": 1.0,
      "step": 908
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 94.44444274902344,
      "epoch": 6.8283582089552235,
      "grad_norm": 1.5067296405060515,
      "learning_rate": 3.3917910447761194e-07,
      "loss": -0.0133,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 909
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 84.33333587646484,
      "epoch": 6.835820895522388,
      "grad_norm": 3.0628680094104617,
      "learning_rate": 3.395522388059701e-07,
      "loss": 0.0144,
      "reward": 1.7222222089767456,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 910
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 80.0,
      "epoch": 6.843283582089552,
      "grad_norm": 3.9812959940417816,
      "learning_rate": 3.3992537313432836e-07,
      "loss": 0.0225,
      "reward": 1.7777777910232544,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 911
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 81.44444274902344,
      "epoch": 6.850746268656716,
      "grad_norm": 8.963800908670311,
      "learning_rate": 3.402985074626866e-07,
      "loss": 0.0372,
      "reward": 1.6111111640930176,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 912
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 84.91666412353516,
      "epoch": 6.858208955223881,
      "grad_norm": 2.309083406828536,
      "learning_rate": 3.406716417910447e-07,
      "loss": -0.0005,
      "reward": 1.7777777910232544,
      "reward_std": 0.12830005586147308,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 913
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 73.47222137451172,
      "epoch": 6.865671641791045,
      "grad_norm": 11.527867643546688,
      "learning_rate": 3.4104477611940295e-07,
      "loss": -0.0056,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 914
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 83.58333587646484,
      "epoch": 6.8731343283582085,
      "grad_norm": 2.1463086879034776,
      "learning_rate": 3.414179104477612e-07,
      "loss": 0.022,
      "reward": 1.5,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 915
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 80.97222137451172,
      "epoch": 6.880597014925373,
      "grad_norm": 3.083197523613157,
      "learning_rate": 3.4179104477611937e-07,
      "loss": 0.0138,
      "reward": 1.4722222089767456,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 1.0,
      "step": 916
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 86.75,
      "epoch": 6.888059701492537,
      "grad_norm": 2.1551376530881003,
      "learning_rate": 3.421641791044776e-07,
      "loss": -0.012,
      "reward": 1.8055555820465088,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 917
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 77.11111450195312,
      "epoch": 6.895522388059701,
      "grad_norm": 0.0,
      "learning_rate": 3.4253731343283584e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 918
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 81.80555725097656,
      "epoch": 6.902985074626866,
      "grad_norm": 3.530141420528854,
      "learning_rate": 3.4291044776119396e-07,
      "loss": 0.0121,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 919
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.11111450195312,
      "epoch": 6.91044776119403,
      "grad_norm": 11.874363162754898,
      "learning_rate": 3.432835820895522e-07,
      "loss": 0.0246,
      "reward": 1.638888955116272,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 920
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 83.30555725097656,
      "epoch": 6.917910447761194,
      "grad_norm": 0.0,
      "learning_rate": 3.4365671641791043e-07,
      "loss": 0.0,
      "reward": 1.3333333730697632,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.3333333432674408,
      "rewards/format_reward": 1.0,
      "step": 921
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 83.52777862548828,
      "epoch": 6.925373134328359,
      "grad_norm": 4.995337686817446,
      "learning_rate": 3.4402985074626867e-07,
      "loss": 0.0012,
      "reward": 1.4444444179534912,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 922
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 81.94444274902344,
      "epoch": 6.932835820895522,
      "grad_norm": 2.2572076156852856,
      "learning_rate": 3.4440298507462685e-07,
      "loss": 0.0011,
      "reward": 1.6111111640930176,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 923
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 83.36111450195312,
      "epoch": 6.940298507462686,
      "grad_norm": 4.423034782285233,
      "learning_rate": 3.447761194029851e-07,
      "loss": -0.0023,
      "reward": 1.4722222089767456,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 1.0,
      "step": 924
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 90.16666412353516,
      "epoch": 6.947761194029851,
      "grad_norm": 2.9895627481546594,
      "learning_rate": 3.451492537313433e-07,
      "loss": 0.0241,
      "reward": 1.5277777910232544,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 925
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 87.16666412353516,
      "epoch": 6.955223880597015,
      "grad_norm": 5.147593209238202,
      "learning_rate": 3.4552238805970144e-07,
      "loss": 0.0056,
      "reward": 1.638888955116272,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 926
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 78.83333587646484,
      "epoch": 6.962686567164179,
      "grad_norm": 2.297776235916518,
      "learning_rate": 3.458955223880597e-07,
      "loss": -0.0102,
      "reward": 1.8055555820465088,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 927
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 79.1388931274414,
      "epoch": 6.970149253731344,
      "grad_norm": 1.869921429855888,
      "learning_rate": 3.462686567164179e-07,
      "loss": 0.0009,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 928
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 75.41666412353516,
      "epoch": 6.977611940298507,
      "grad_norm": 0.0,
      "learning_rate": 3.466417910447761e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 929
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 84.08333587646484,
      "epoch": 6.985074626865671,
      "grad_norm": 2.275821832200094,
      "learning_rate": 3.470149253731343e-07,
      "loss": 0.0214,
      "reward": 1.6944444179534912,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 930
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 76.58333587646484,
      "epoch": 6.992537313432836,
      "grad_norm": 3.597244185985971,
      "learning_rate": 3.4738805970149256e-07,
      "loss": -0.0246,
      "reward": 1.6944444179534912,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 931
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 84.05555725097656,
      "epoch": 7.007462686567164,
      "grad_norm": 3.4004239269728296,
      "learning_rate": 3.477611940298507e-07,
      "loss": 0.0011,
      "reward": 1.5277777910232544,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 932
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 81.44444274902344,
      "epoch": 7.014925373134329,
      "grad_norm": 192.30036866258732,
      "learning_rate": 3.481343283582089e-07,
      "loss": 0.0141,
      "reward": 1.6944444179534912,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 933
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 75.44444274902344,
      "epoch": 7.022388059701493,
      "grad_norm": 1.480587143642544,
      "learning_rate": 3.4850746268656715e-07,
      "loss": -0.0098,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 934
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 81.6388931274414,
      "epoch": 7.029850746268656,
      "grad_norm": 1.3755724454606304,
      "learning_rate": 3.4888059701492534e-07,
      "loss": -0.0023,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 935
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 77.1388931274414,
      "epoch": 7.037313432835821,
      "grad_norm": 5.15377434938307,
      "learning_rate": 3.4925373134328357e-07,
      "loss": -0.0211,
      "reward": 1.5,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 936
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 81.61111450195312,
      "epoch": 7.044776119402985,
      "grad_norm": 1.7188776158108752,
      "learning_rate": 3.496268656716418e-07,
      "loss": -0.0078,
      "reward": 1.4166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.4166666567325592,
      "rewards/format_reward": 1.0,
      "step": 937
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 81.44444274902344,
      "epoch": 7.052238805970149,
      "grad_norm": 2.1450278945519505,
      "learning_rate": 3.5e-07,
      "loss": -0.013,
      "reward": 1.8055555820465088,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 938
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 82.5,
      "epoch": 7.059701492537314,
      "grad_norm": 3.1304216252386587,
      "learning_rate": 3.5037313432835817e-07,
      "loss": 0.0073,
      "reward": 1.8611111640930176,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 939
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 78.72222137451172,
      "epoch": 7.067164179104478,
      "grad_norm": 4.391704422172261,
      "learning_rate": 3.507462686567164e-07,
      "loss": 0.0259,
      "reward": 1.6111111640930176,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 940
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 89.30555725097656,
      "epoch": 7.074626865671641,
      "grad_norm": 2.0928559916156013,
      "learning_rate": 3.511194029850746e-07,
      "loss": -0.023,
      "reward": 1.6666666269302368,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 941
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 84.1388931274414,
      "epoch": 7.082089552238806,
      "grad_norm": 1.476197682787767,
      "learning_rate": 3.514925373134328e-07,
      "loss": -0.0077,
      "reward": 1.5833333730697632,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 942
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 84.80555725097656,
      "epoch": 7.08955223880597,
      "grad_norm": 1.6163094945144867,
      "learning_rate": 3.5186567164179105e-07,
      "loss": -0.0021,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 943
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 88.5,
      "epoch": 7.097014925373134,
      "grad_norm": 0.0,
      "learning_rate": 3.5223880597014923e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 944
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 84.1388931274414,
      "epoch": 7.104477611940299,
      "grad_norm": 6.628710996071481,
      "learning_rate": 3.5261194029850746e-07,
      "loss": -0.0539,
      "reward": 1.388888955116272,
      "reward_std": 0.28637224435806274,
      "rewards/accuracy_reward": 0.3888888955116272,
      "rewards/format_reward": 1.0,
      "step": 945
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 84.44444274902344,
      "epoch": 7.111940298507463,
      "grad_norm": 2.3598458542014606,
      "learning_rate": 3.5298507462686564e-07,
      "loss": -0.0243,
      "reward": 1.6666666269302368,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 946
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 88.5,
      "epoch": 7.119402985074627,
      "grad_norm": 2.731700453581849,
      "learning_rate": 3.533582089552239e-07,
      "loss": 0.0103,
      "reward": 1.638888955116272,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 947
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 81.30555725097656,
      "epoch": 7.126865671641791,
      "grad_norm": 1.4783917840064604,
      "learning_rate": 3.5373134328358206e-07,
      "loss": 0.0114,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 948
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 94.94444274902344,
      "epoch": 7.134328358208955,
      "grad_norm": 3.243212703755597,
      "learning_rate": 3.541044776119403e-07,
      "loss": -0.0167,
      "reward": 1.5833333730697632,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 949
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 85.19444274902344,
      "epoch": 7.141791044776119,
      "grad_norm": 12.693958343134678,
      "learning_rate": 3.544776119402985e-07,
      "loss": 0.017,
      "reward": 1.6111111640930176,
      "reward_std": 0.23941117525100708,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 950
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 92.0,
      "epoch": 7.149253731343284,
      "grad_norm": 3.46678551431371,
      "learning_rate": 3.548507462686567e-07,
      "loss": -0.0192,
      "reward": 1.3611111640930176,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.3611111044883728,
      "rewards/format_reward": 1.0,
      "step": 951
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 88.0,
      "epoch": 7.156716417910448,
      "grad_norm": 9.024974746322272,
      "learning_rate": 3.552238805970149e-07,
      "loss": 0.0151,
      "reward": 1.8055555820465088,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 952
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 84.58333587646484,
      "epoch": 7.164179104477612,
      "grad_norm": 1.9616592537296513,
      "learning_rate": 3.555970149253731e-07,
      "loss": 0.0011,
      "reward": 1.6111111640930176,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 953
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 87.8888931274414,
      "epoch": 7.1716417910447765,
      "grad_norm": 2.5794889917770125,
      "learning_rate": 3.559701492537313e-07,
      "loss": 0.0003,
      "reward": 1.6666666269302368,
      "reward_std": 0.12830005586147308,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 954
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 81.80555725097656,
      "epoch": 7.17910447761194,
      "grad_norm": 6.332148945076763,
      "learning_rate": 3.5634328358208954e-07,
      "loss": 0.0287,
      "reward": 1.6666666269302368,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 955
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 86.0,
      "epoch": 7.186567164179104,
      "grad_norm": 2.840185589896885,
      "learning_rate": 3.5671641791044777e-07,
      "loss": -0.0079,
      "reward": 1.9166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 956
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 80.72222137451172,
      "epoch": 7.1940298507462686,
      "grad_norm": 0.0,
      "learning_rate": 3.5708955223880595e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 957
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 88.0,
      "epoch": 7.201492537313433,
      "grad_norm": 1.3114871656975342,
      "learning_rate": 3.574626865671642e-07,
      "loss": -0.0018,
      "reward": 1.5277777910232544,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 958
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 89.6388931274414,
      "epoch": 7.208955223880597,
      "grad_norm": 0.0,
      "learning_rate": 3.5783582089552237e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 959
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 91.02777862548828,
      "epoch": 7.2164179104477615,
      "grad_norm": 2.059184147626142,
      "learning_rate": 3.5820895522388055e-07,
      "loss": 0.0122,
      "reward": 1.7222222089767456,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 960
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 96.19444274902344,
      "epoch": 7.223880597014926,
      "grad_norm": 14.467175191155583,
      "learning_rate": 3.585820895522388e-07,
      "loss": 0.0253,
      "reward": 1.75,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 961
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 94.44444274902344,
      "epoch": 7.231343283582089,
      "grad_norm": 1.470243530574731,
      "learning_rate": 3.58955223880597e-07,
      "loss": 0.0204,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 962
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 87.30555725097656,
      "epoch": 7.2388059701492535,
      "grad_norm": 2.491206501290665,
      "learning_rate": 3.593283582089552e-07,
      "loss": 0.0117,
      "reward": 1.8055555820465088,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 963
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 84.22222137451172,
      "epoch": 7.246268656716418,
      "grad_norm": 5.306743692867775,
      "learning_rate": 3.5970149253731343e-07,
      "loss": -0.0149,
      "reward": 1.6666666269302368,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 964
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 89.11111450195312,
      "epoch": 7.253731343283582,
      "grad_norm": 1.7101110387574536,
      "learning_rate": 3.6007462686567166e-07,
      "loss": -0.0021,
      "reward": 1.638888955116272,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 965
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 83.6388931274414,
      "epoch": 7.2611940298507465,
      "grad_norm": 2.0613666942375803,
      "learning_rate": 3.604477611940298e-07,
      "loss": 0.0034,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 966
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 82.55555725097656,
      "epoch": 7.268656716417911,
      "grad_norm": 1.2693583329520224,
      "learning_rate": 3.60820895522388e-07,
      "loss": -0.0028,
      "reward": 1.6944444179534912,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 967
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 87.6388931274414,
      "epoch": 7.276119402985074,
      "grad_norm": 2.4359987504743543,
      "learning_rate": 3.6119402985074626e-07,
      "loss": 0.0032,
      "reward": 1.9166666269302368,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 968
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 84.19444274902344,
      "epoch": 7.2835820895522385,
      "grad_norm": 1.8316317449688357,
      "learning_rate": 3.6156716417910444e-07,
      "loss": -0.0212,
      "reward": 1.5833333730697632,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 969
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 83.97222137451172,
      "epoch": 7.291044776119403,
      "grad_norm": 6.876476693547234,
      "learning_rate": 3.6194029850746267e-07,
      "loss": -0.0009,
      "reward": 1.75,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 970
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 84.69444274902344,
      "epoch": 7.298507462686567,
      "grad_norm": 1.6472023421451685,
      "learning_rate": 3.623134328358209e-07,
      "loss": 0.0031,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 971
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 77.69444274902344,
      "epoch": 7.3059701492537314,
      "grad_norm": 0.0,
      "learning_rate": 3.626865671641791e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 972
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 84.05555725097656,
      "epoch": 7.313432835820896,
      "grad_norm": 1.2669482658174485,
      "learning_rate": 3.6305970149253727e-07,
      "loss": 0.0092,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 973
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 95.6388931274414,
      "epoch": 7.32089552238806,
      "grad_norm": 3.4057707535212485,
      "learning_rate": 3.634328358208955e-07,
      "loss": 0.0441,
      "reward": 1.6111111640930176,
      "reward_std": 0.3207501471042633,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 974
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 83.77777862548828,
      "epoch": 7.3283582089552235,
      "grad_norm": 4.014281566292341,
      "learning_rate": 3.6380597014925374e-07,
      "loss": 0.0549,
      "reward": 1.638888955116272,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 975
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 84.52777862548828,
      "epoch": 7.335820895522388,
      "grad_norm": 3.8913197695118193,
      "learning_rate": 3.641791044776119e-07,
      "loss": -0.0003,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 976
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 77.25,
      "epoch": 7.343283582089552,
      "grad_norm": 3.399536396341908,
      "learning_rate": 3.6455223880597015e-07,
      "loss": 0.0216,
      "reward": 1.75,
      "reward_std": 0.18385560810565948,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 977
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 76.05555725097656,
      "epoch": 7.350746268656716,
      "grad_norm": 5.771314374431888,
      "learning_rate": 3.649253731343284e-07,
      "loss": 0.0254,
      "reward": 1.5833333730697632,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 978
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 80.75,
      "epoch": 7.358208955223881,
      "grad_norm": 1.24329941682485,
      "learning_rate": 3.652985074626865e-07,
      "loss": 0.0058,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 979
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 82.6388931274414,
      "epoch": 7.365671641791045,
      "grad_norm": 3.4482787709778777,
      "learning_rate": 3.6567164179104475e-07,
      "loss": 0.0198,
      "reward": 1.5,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 980
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 76.44444274902344,
      "epoch": 7.373134328358209,
      "grad_norm": 7.550704953737915,
      "learning_rate": 3.66044776119403e-07,
      "loss": -0.0137,
      "reward": 1.6944444179534912,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 981
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 72.97222137451172,
      "epoch": 7.380597014925373,
      "grad_norm": 2.8241053851394415,
      "learning_rate": 3.6641791044776116e-07,
      "loss": 0.001,
      "reward": 1.6666666269302368,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 982
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 77.86111450195312,
      "epoch": 7.388059701492537,
      "grad_norm": 0.0,
      "learning_rate": 3.667910447761194e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 983
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 78.80555725097656,
      "epoch": 7.395522388059701,
      "grad_norm": 2.907971510202345,
      "learning_rate": 3.6716417910447763e-07,
      "loss": -0.0178,
      "reward": 1.6111111640930176,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 984
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 78.97222137451172,
      "epoch": 7.402985074626866,
      "grad_norm": 3.3078897903417888,
      "learning_rate": 3.6753731343283576e-07,
      "loss": -0.0121,
      "reward": 1.9444444179534912,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.944444477558136,
      "rewards/format_reward": 1.0,
      "step": 985
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.80555725097656,
      "epoch": 7.41044776119403,
      "grad_norm": 14.726538197320222,
      "learning_rate": 3.67910447761194e-07,
      "loss": -0.0275,
      "reward": 1.6666666269302368,
      "reward_std": 0.3035612106323242,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 986
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 79.55555725097656,
      "epoch": 7.417910447761194,
      "grad_norm": 0.0,
      "learning_rate": 3.682835820895522e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 987
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 74.36111450195312,
      "epoch": 7.425373134328359,
      "grad_norm": 2.547477749741367,
      "learning_rate": 3.686567164179104e-07,
      "loss": -0.0051,
      "reward": 1.638888955116272,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 988
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 77.41666412353516,
      "epoch": 7.432835820895522,
      "grad_norm": 1.258430995387055,
      "learning_rate": 3.6902985074626864e-07,
      "loss": 0.0202,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 989
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.61111450195312,
      "epoch": 7.440298507462686,
      "grad_norm": 1.698976162351543,
      "learning_rate": 3.6940298507462687e-07,
      "loss": -0.0098,
      "reward": 1.3611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.3611111044883728,
      "rewards/format_reward": 1.0,
      "step": 990
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 74.6388931274414,
      "epoch": 7.447761194029851,
      "grad_norm": 2.0659904592236216,
      "learning_rate": 3.6977611940298505e-07,
      "loss": -0.0145,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 991
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 78.41666412353516,
      "epoch": 7.455223880597015,
      "grad_norm": 2.7180727133648013,
      "learning_rate": 3.7014925373134323e-07,
      "loss": 0.0128,
      "reward": 1.7222222089767456,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 992
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 72.52777862548828,
      "epoch": 7.462686567164179,
      "grad_norm": 2.3761047258645367,
      "learning_rate": 3.7052238805970147e-07,
      "loss": -0.0228,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 993
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 80.5,
      "epoch": 7.470149253731344,
      "grad_norm": 3.8391289019356862,
      "learning_rate": 3.708955223880597e-07,
      "loss": 0.0235,
      "reward": 1.7777777910232544,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 994
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.30555725097656,
      "epoch": 7.477611940298507,
      "grad_norm": 0.0,
      "learning_rate": 3.712686567164179e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 995
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.36111450195312,
      "epoch": 7.485074626865671,
      "grad_norm": 3.0041651904089566,
      "learning_rate": 3.716417910447761e-07,
      "loss": -0.0305,
      "reward": 1.5833333730697632,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 0.9722222089767456,
      "step": 996
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.55555725097656,
      "epoch": 7.492537313432836,
      "grad_norm": 0.0,
      "learning_rate": 3.7201492537313435e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 997
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 76.30555725097656,
      "epoch": 7.5,
      "grad_norm": 2.4613832425651685,
      "learning_rate": 3.7238805970149253e-07,
      "loss": -0.0352,
      "reward": 1.7222222089767456,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 998
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 71.69444274902344,
      "epoch": 7.507462686567164,
      "grad_norm": 2.2445044229234052,
      "learning_rate": 3.727611940298507e-07,
      "loss": -0.0209,
      "reward": 1.4444444179534912,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 999
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 75.55555725097656,
      "epoch": 7.514925373134329,
      "grad_norm": 0.0,
      "learning_rate": 3.7313432835820895e-07,
      "loss": 0.0,
      "reward": 1.1111111640930176,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.1111111119389534,
      "rewards/format_reward": 1.0,
      "step": 1000
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.72222137451172,
      "epoch": 7.522388059701493,
      "grad_norm": 2.121963801993831,
      "learning_rate": 3.7350746268656713e-07,
      "loss": -0.0164,
      "reward": 1.6111111640930176,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 1001
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 74.5,
      "epoch": 7.529850746268656,
      "grad_norm": 4.463989168428882,
      "learning_rate": 3.7388059701492536e-07,
      "loss": -0.0003,
      "reward": 1.7222222089767456,
      "reward_std": 0.23941117525100708,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 1002
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 78.69444274902344,
      "epoch": 7.537313432835821,
      "grad_norm": 3.5570656769656566,
      "learning_rate": 3.742537313432836e-07,
      "loss": 0.0097,
      "reward": 1.4722222089767456,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 1.0,
      "step": 1003
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 74.47222137451172,
      "epoch": 7.544776119402985,
      "grad_norm": 4.81259142757856,
      "learning_rate": 3.746268656716418e-07,
      "loss": -0.0005,
      "reward": 1.6111111640930176,
      "reward_std": 0.2222222238779068,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 1004
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 78.8888931274414,
      "epoch": 7.552238805970149,
      "grad_norm": 5.709833155917873,
      "learning_rate": 3.75e-07,
      "loss": -0.0177,
      "reward": 1.5833333730697632,
      "reward_std": 0.18385560810565948,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 1005
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 77.30555725097656,
      "epoch": 7.559701492537314,
      "grad_norm": 4.446839101193674,
      "learning_rate": 3.753731343283582e-07,
      "loss": 0.0168,
      "reward": 1.7222222089767456,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 1006
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 78.97222137451172,
      "epoch": 7.567164179104478,
      "grad_norm": 3.5819050916685984,
      "learning_rate": 3.7574626865671637e-07,
      "loss": -0.031,
      "reward": 1.5833333730697632,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 1007
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.27777862548828,
      "epoch": 7.574626865671641,
      "grad_norm": 2.2714674809094695,
      "learning_rate": 3.761194029850746e-07,
      "loss": 0.0302,
      "reward": 1.638888955116272,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 1008
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 75.08333587646484,
      "epoch": 7.582089552238806,
      "grad_norm": 4.914869826980521,
      "learning_rate": 3.7649253731343284e-07,
      "loss": -0.0023,
      "reward": 1.888888955116272,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1009
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 79.30555725097656,
      "epoch": 7.58955223880597,
      "grad_norm": 3.077678351365899,
      "learning_rate": 3.76865671641791e-07,
      "loss": -0.0148,
      "reward": 1.75,
      "reward_std": 0.18385560810565948,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 1010
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 80.16666412353516,
      "epoch": 7.597014925373134,
      "grad_norm": 3.8805988798769078,
      "learning_rate": 3.7723880597014925e-07,
      "loss": -0.0081,
      "reward": 1.6111111640930176,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 1011
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 81.08333587646484,
      "epoch": 7.604477611940299,
      "grad_norm": 2.385252621068958,
      "learning_rate": 3.7761194029850743e-07,
      "loss": 0.014,
      "reward": 1.5555555820465088,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 1012
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 79.33333587646484,
      "epoch": 7.611940298507463,
      "grad_norm": 41.343825208890955,
      "learning_rate": 3.779850746268656e-07,
      "loss": -0.0331,
      "reward": 1.4722222089767456,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 1.0,
      "step": 1013
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 82.1388931274414,
      "epoch": 7.619402985074627,
      "grad_norm": 4.721675791916864,
      "learning_rate": 3.7835820895522385e-07,
      "loss": 0.0018,
      "reward": 1.5833333730697632,
      "reward_std": 0.18385560810565948,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 1014
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 85.97222137451172,
      "epoch": 7.6268656716417915,
      "grad_norm": 2.2918796493563347,
      "learning_rate": 3.787313432835821e-07,
      "loss": 0.0128,
      "reward": 1.6111111640930176,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 1015
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 76.33333587646484,
      "epoch": 7.634328358208955,
      "grad_norm": 2.1872548057305017,
      "learning_rate": 3.7910447761194026e-07,
      "loss": 0.0089,
      "reward": 1.7777777910232544,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1016
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 78.33333587646484,
      "epoch": 7.641791044776119,
      "grad_norm": 0.0,
      "learning_rate": 3.794776119402985e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1017
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 75.58333587646484,
      "epoch": 7.649253731343284,
      "grad_norm": 3.0077701559728984,
      "learning_rate": 3.7985074626865673e-07,
      "loss": -0.005,
      "reward": 1.5833333730697632,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 1018
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 78.19444274902344,
      "epoch": 7.656716417910448,
      "grad_norm": 1.616742489332311,
      "learning_rate": 3.802238805970149e-07,
      "loss": -0.0044,
      "reward": 1.638888955116272,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 1019
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 76.69444274902344,
      "epoch": 7.664179104477612,
      "grad_norm": 1.3846042750727472,
      "learning_rate": 3.805970149253731e-07,
      "loss": 0.0077,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 1020
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 77.0,
      "epoch": 7.6716417910447765,
      "grad_norm": 5.313489504036018,
      "learning_rate": 3.8097014925373133e-07,
      "loss": -0.0079,
      "reward": 1.7222222089767456,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 1021
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 79.97222137451172,
      "epoch": 7.67910447761194,
      "grad_norm": 1.377513792098181,
      "learning_rate": 3.8134328358208956e-07,
      "loss": 0.0535,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 1022
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 77.05555725097656,
      "epoch": 7.686567164179104,
      "grad_norm": 2.9039577211210923,
      "learning_rate": 3.8171641791044774e-07,
      "loss": 0.0172,
      "reward": 1.4722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 1.0,
      "step": 1023
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 75.25,
      "epoch": 7.6940298507462686,
      "grad_norm": 3.274538096319227,
      "learning_rate": 3.82089552238806e-07,
      "loss": 0.0119,
      "reward": 1.5833333730697632,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 1024
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 71.36111450195312,
      "epoch": 7.701492537313433,
      "grad_norm": 3.235607428386041,
      "learning_rate": 3.824626865671642e-07,
      "loss": -0.0143,
      "reward": 1.75,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 1025
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 73.11111450195312,
      "epoch": 7.708955223880597,
      "grad_norm": 8.179895110091643,
      "learning_rate": 3.8283582089552234e-07,
      "loss": -0.0177,
      "reward": 1.5555555820465088,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 1026
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 73.8888931274414,
      "epoch": 7.7164179104477615,
      "grad_norm": 2.395405986874387,
      "learning_rate": 3.8320895522388057e-07,
      "loss": -0.0239,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 1027
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 71.72222137451172,
      "epoch": 7.723880597014926,
      "grad_norm": 4.328857957170652,
      "learning_rate": 3.835820895522388e-07,
      "loss": -0.0237,
      "reward": 1.638888955116272,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 1028
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 75.80555725097656,
      "epoch": 7.731343283582089,
      "grad_norm": 4.880944548443243,
      "learning_rate": 3.83955223880597e-07,
      "loss": 0.0124,
      "reward": 1.5,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 1029
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 88.25,
      "epoch": 7.7388059701492535,
      "grad_norm": 1.844499298833558,
      "learning_rate": 3.843283582089552e-07,
      "loss": -0.0117,
      "reward": 1.25,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.25,
      "rewards/format_reward": 1.0,
      "step": 1030
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.05555725097656,
      "epoch": 7.746268656716418,
      "grad_norm": 1.4340446812701482,
      "learning_rate": 3.8470149253731345e-07,
      "loss": 0.001,
      "reward": 1.6111111640930176,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 1031
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 73.44444274902344,
      "epoch": 7.753731343283582,
      "grad_norm": 10.15485398695136,
      "learning_rate": 3.850746268656716e-07,
      "loss": 0.0055,
      "reward": 1.638888955116272,
      "reward_std": 0.18385560810565948,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 1032
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.27777862548828,
      "epoch": 7.7611940298507465,
      "grad_norm": 3.5754563326117634,
      "learning_rate": 3.854477611940298e-07,
      "loss": 0.0034,
      "reward": 1.9166666269302368,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 1033
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 71.69444274902344,
      "epoch": 7.768656716417911,
      "grad_norm": 0.0,
      "learning_rate": 3.8582089552238805e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1034
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 75.61111450195312,
      "epoch": 7.776119402985074,
      "grad_norm": 2.832459158127414,
      "learning_rate": 3.8619402985074623e-07,
      "loss": 0.0117,
      "reward": 1.388888955116272,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.3888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1035
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.02777862548828,
      "epoch": 7.7835820895522385,
      "grad_norm": 1.8887062467636129,
      "learning_rate": 3.8656716417910446e-07,
      "loss": -0.0255,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 1036
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 71.72222137451172,
      "epoch": 7.791044776119403,
      "grad_norm": 3.1731475574289685,
      "learning_rate": 3.869402985074627e-07,
      "loss": 0.0072,
      "reward": 1.8333333730697632,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 1037
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 77.41666412353516,
      "epoch": 7.798507462686567,
      "grad_norm": 4.292017878575528,
      "learning_rate": 3.873134328358209e-07,
      "loss": -0.0078,
      "reward": 1.6666666269302368,
      "reward_std": 0.28637224435806274,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 0.9722222089767456,
      "step": 1038
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 71.11111450195312,
      "epoch": 7.8059701492537314,
      "grad_norm": 2.728363563655342,
      "learning_rate": 3.8768656716417906e-07,
      "loss": 0.0291,
      "reward": 1.5833333730697632,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 1039
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 79.55555725097656,
      "epoch": 7.813432835820896,
      "grad_norm": 9.47401032872931,
      "learning_rate": 3.880597014925373e-07,
      "loss": 0.0113,
      "reward": 1.5,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 1040
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.05555725097656,
      "epoch": 7.82089552238806,
      "grad_norm": 2.0703073086335437,
      "learning_rate": 3.8843283582089553e-07,
      "loss": -0.0034,
      "reward": 1.6111111640930176,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 1041
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 83.0,
      "epoch": 7.8283582089552235,
      "grad_norm": 1.931450046425646,
      "learning_rate": 3.888059701492537e-07,
      "loss": 0.0034,
      "reward": 1.6944444179534912,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 1042
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 79.6388931274414,
      "epoch": 7.835820895522388,
      "grad_norm": 4.490956446573698,
      "learning_rate": 3.8917910447761194e-07,
      "loss": -0.0545,
      "reward": 1.6944444179534912,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 1043
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 71.27777862548828,
      "epoch": 7.843283582089552,
      "grad_norm": 0.0,
      "learning_rate": 3.895522388059702e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1044
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.6388931274414,
      "epoch": 7.850746268656716,
      "grad_norm": 2.5825767753517708,
      "learning_rate": 3.899253731343283e-07,
      "loss": -0.0056,
      "reward": 1.8611111640930176,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 1045
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 81.19444274902344,
      "epoch": 7.858208955223881,
      "grad_norm": 8.955009916152864,
      "learning_rate": 3.9029850746268654e-07,
      "loss": 0.0056,
      "reward": 1.638888955116272,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 1046
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 74.47222137451172,
      "epoch": 7.865671641791045,
      "grad_norm": 4.51779120718388,
      "learning_rate": 3.9067164179104477e-07,
      "loss": -0.0331,
      "reward": 1.25,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.25,
      "rewards/format_reward": 1.0,
      "step": 1047
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 75.5,
      "epoch": 7.8731343283582085,
      "grad_norm": 4.00931139560532,
      "learning_rate": 3.9104477611940295e-07,
      "loss": 0.0068,
      "reward": 1.8055555820465088,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 1048
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 83.0,
      "epoch": 7.880597014925373,
      "grad_norm": 27.522998535276106,
      "learning_rate": 3.914179104477612e-07,
      "loss": -0.0224,
      "reward": 1.75,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 1049
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 77.58333587646484,
      "epoch": 7.888059701492537,
      "grad_norm": 1.868901135316978,
      "learning_rate": 3.917910447761194e-07,
      "loss": -0.0095,
      "reward": 1.6944444179534912,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 1050
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.72222137451172,
      "epoch": 7.895522388059701,
      "grad_norm": 3.1741746359895067,
      "learning_rate": 3.921641791044776e-07,
      "loss": 0.0223,
      "reward": 1.5555555820465088,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 1051
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 76.6388931274414,
      "epoch": 7.902985074626866,
      "grad_norm": 3.777465739353397,
      "learning_rate": 3.925373134328358e-07,
      "loss": -0.0051,
      "reward": 1.9166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 1052
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 75.77777862548828,
      "epoch": 7.91044776119403,
      "grad_norm": 66.14335249485474,
      "learning_rate": 3.92910447761194e-07,
      "loss": 0.0106,
      "reward": 1.3611111640930176,
      "reward_std": 0.18385560810565948,
      "rewards/accuracy_reward": 0.3611111044883728,
      "rewards/format_reward": 1.0,
      "step": 1053
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 83.72222137451172,
      "epoch": 7.917910447761194,
      "grad_norm": 2.343409734215072,
      "learning_rate": 3.932835820895522e-07,
      "loss": 0.028,
      "reward": 1.5833333730697632,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 1054
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 72.5,
      "epoch": 7.925373134328359,
      "grad_norm": 2.398386764694792,
      "learning_rate": 3.9365671641791043e-07,
      "loss": -0.0316,
      "reward": 1.9166666269302368,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 1055
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 85.66666412353516,
      "epoch": 7.932835820895522,
      "grad_norm": 5.252903857130524,
      "learning_rate": 3.9402985074626866e-07,
      "loss": -0.0125,
      "reward": 1.6111111640930176,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 1056
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 89.66666412353516,
      "epoch": 7.940298507462686,
      "grad_norm": 2.698453822577202,
      "learning_rate": 3.9440298507462685e-07,
      "loss": -0.0222,
      "reward": 1.888888955116272,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1057
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 76.83333587646484,
      "epoch": 7.947761194029851,
      "grad_norm": 1.7391352895489733,
      "learning_rate": 3.947761194029851e-07,
      "loss": 0.0072,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 1058
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 85.33333587646484,
      "epoch": 7.955223880597015,
      "grad_norm": 2.472935566824552,
      "learning_rate": 3.9514925373134326e-07,
      "loss": -0.0033,
      "reward": 1.388888955116272,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.3888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1059
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 86.33333587646484,
      "epoch": 7.962686567164179,
      "grad_norm": 2.452968168519847,
      "learning_rate": 3.9552238805970144e-07,
      "loss": 0.0033,
      "reward": 1.6944444179534912,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 1060
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 85.11111450195312,
      "epoch": 7.970149253731344,
      "grad_norm": 2.2244289683807255,
      "learning_rate": 3.958955223880597e-07,
      "loss": 0.0146,
      "reward": 1.8055555820465088,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 1061
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 88.83333587646484,
      "epoch": 7.977611940298507,
      "grad_norm": 2.408297324255445,
      "learning_rate": 3.962686567164179e-07,
      "loss": -0.015,
      "reward": 1.638888955116272,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 1062
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 79.94444274902344,
      "epoch": 7.985074626865671,
      "grad_norm": 2.558382722032323,
      "learning_rate": 3.966417910447761e-07,
      "loss": 0.0136,
      "reward": 1.75,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 1063
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 97.08333587646484,
      "epoch": 7.992537313432836,
      "grad_norm": 24.896201098875554,
      "learning_rate": 3.970149253731343e-07,
      "loss": 0.0076,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 1064
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 80.97222137451172,
      "epoch": 8.007462686567164,
      "grad_norm": 0.0,
      "learning_rate": 3.973880597014925e-07,
      "loss": 0.0,
      "reward": 1.4444444179534912,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 1065
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 83.80555725097656,
      "epoch": 8.014925373134329,
      "grad_norm": 0.0,
      "learning_rate": 3.9776119402985074e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1066
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 78.52777862548828,
      "epoch": 8.022388059701493,
      "grad_norm": 1.529614839628936,
      "learning_rate": 3.981343283582089e-07,
      "loss": 0.0144,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 1067
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 83.72222137451172,
      "epoch": 8.029850746268657,
      "grad_norm": 0.0,
      "learning_rate": 3.9850746268656715e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1068
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 84.27777862548828,
      "epoch": 8.037313432835822,
      "grad_norm": 1.6663694482809428,
      "learning_rate": 3.988805970149254e-07,
      "loss": -0.0176,
      "reward": 1.5833333730697632,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 1069
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 90.77777862548828,
      "epoch": 8.044776119402986,
      "grad_norm": 3.625281895597357,
      "learning_rate": 3.9925373134328357e-07,
      "loss": -0.0167,
      "reward": 1.6111111640930176,
      "reward_std": 0.2222222238779068,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 1070
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 82.02777862548828,
      "epoch": 8.052238805970148,
      "grad_norm": 0.0,
      "learning_rate": 3.996268656716418e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1071
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 74.3888931274414,
      "epoch": 8.059701492537313,
      "grad_norm": 3.2591880367885886,
      "learning_rate": 4e-07,
      "loss": 0.0011,
      "reward": 1.8055555820465088,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 1072
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 91.33333587646484,
      "epoch": 8.067164179104477,
      "grad_norm": 4.168639350632494,
      "learning_rate": 4.0037313432835816e-07,
      "loss": 0.0066,
      "reward": 1.7777777910232544,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1073
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 82.55555725097656,
      "epoch": 8.074626865671641,
      "grad_norm": 1.8819167186653325,
      "learning_rate": 4.007462686567164e-07,
      "loss": 0.0011,
      "reward": 1.638888955116272,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 1074
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 84.52777862548828,
      "epoch": 8.082089552238806,
      "grad_norm": 3.9519659306001533,
      "learning_rate": 4.0111940298507463e-07,
      "loss": -0.0138,
      "reward": 1.6666666269302368,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1075
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 78.69444274902344,
      "epoch": 8.08955223880597,
      "grad_norm": 1.682224794529443,
      "learning_rate": 4.014925373134328e-07,
      "loss": 0.0,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 1076
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 87.6388931274414,
      "epoch": 8.097014925373134,
      "grad_norm": 3.2887790638874095,
      "learning_rate": 4.0186567164179105e-07,
      "loss": 0.0046,
      "reward": 1.7222222089767456,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 1077
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 84.80555725097656,
      "epoch": 8.104477611940299,
      "grad_norm": 1.3529490065638314,
      "learning_rate": 4.022388059701493e-07,
      "loss": 0.0049,
      "reward": 1.5,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 1078
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 85.6388931274414,
      "epoch": 8.111940298507463,
      "grad_norm": 7.623396421111213,
      "learning_rate": 4.026119402985074e-07,
      "loss": 0.0203,
      "reward": 1.9444444179534912,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.944444477558136,
      "rewards/format_reward": 1.0,
      "step": 1079
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 84.8888931274414,
      "epoch": 8.119402985074627,
      "grad_norm": 1.1030997654030827,
      "learning_rate": 4.0298507462686564e-07,
      "loss": 0.0172,
      "reward": 1.388888955116272,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.3888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1080
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 91.58333587646484,
      "epoch": 8.126865671641792,
      "grad_norm": 7.101588189036934,
      "learning_rate": 4.033582089552239e-07,
      "loss": -0.0196,
      "reward": 1.7777777910232544,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1081
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 79.19444274902344,
      "epoch": 8.134328358208956,
      "grad_norm": 0.0,
      "learning_rate": 4.0373134328358206e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1082
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 82.0,
      "epoch": 8.14179104477612,
      "grad_norm": 3.4925899892841525,
      "learning_rate": 4.041044776119403e-07,
      "loss": 0.004,
      "reward": 1.75,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 1083
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 94.41666412353516,
      "epoch": 8.149253731343283,
      "grad_norm": 2.0523370433813795,
      "learning_rate": 4.044776119402985e-07,
      "loss": 0.0197,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 1084
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 84.19444274902344,
      "epoch": 8.156716417910447,
      "grad_norm": 1.6944444031758485,
      "learning_rate": 4.0485074626865665e-07,
      "loss": -0.0021,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 1085
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 94.55555725097656,
      "epoch": 8.164179104477611,
      "grad_norm": 7.469730649186213,
      "learning_rate": 4.052238805970149e-07,
      "loss": -0.0036,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 1086
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 81.33333587646484,
      "epoch": 8.171641791044776,
      "grad_norm": 3.3538119206356782,
      "learning_rate": 4.055970149253731e-07,
      "loss": -0.0057,
      "reward": 1.7777777910232544,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1087
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 90.55555725097656,
      "epoch": 8.17910447761194,
      "grad_norm": 8.454588876164776,
      "learning_rate": 4.059701492537313e-07,
      "loss": 0.0125,
      "reward": 1.7222222089767456,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 1088
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 84.77777862548828,
      "epoch": 8.186567164179104,
      "grad_norm": 2.9808316824016488,
      "learning_rate": 4.0634328358208953e-07,
      "loss": -0.0065,
      "reward": 1.5,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 1089
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 84.97222137451172,
      "epoch": 8.194029850746269,
      "grad_norm": 13.55210154624917,
      "learning_rate": 4.0671641791044777e-07,
      "loss": -0.0257,
      "reward": 1.4722222089767456,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 1.0,
      "step": 1090
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 76.6388931274414,
      "epoch": 8.201492537313433,
      "grad_norm": 0.0,
      "learning_rate": 4.07089552238806e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1091
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 84.05555725097656,
      "epoch": 8.208955223880597,
      "grad_norm": 3.438386056282549,
      "learning_rate": 4.0746268656716413e-07,
      "loss": 0.0066,
      "reward": 1.638888955116272,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 1092
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 82.44444274902344,
      "epoch": 8.216417910447761,
      "grad_norm": 1.6175528935667254,
      "learning_rate": 4.0783582089552236e-07,
      "loss": 0.014,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 1093
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 76.91666412353516,
      "epoch": 8.223880597014926,
      "grad_norm": 3.2142510392265424,
      "learning_rate": 4.082089552238806e-07,
      "loss": 0.0068,
      "reward": 1.7777777910232544,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1094
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 84.11111450195312,
      "epoch": 8.23134328358209,
      "grad_norm": 3.98012482341697,
      "learning_rate": 4.085820895522388e-07,
      "loss": 0.0171,
      "reward": 1.6111111640930176,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 1095
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 77.69444274902344,
      "epoch": 8.238805970149254,
      "grad_norm": 3.976100180951464,
      "learning_rate": 4.08955223880597e-07,
      "loss": 0.0349,
      "reward": 1.5277777910232544,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 1096
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 74.33333587646484,
      "epoch": 8.246268656716419,
      "grad_norm": 2.2242324503895285,
      "learning_rate": 4.0932835820895525e-07,
      "loss": 0.0114,
      "reward": 1.4166666269302368,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.4166666567325592,
      "rewards/format_reward": 1.0,
      "step": 1097
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 77.80555725097656,
      "epoch": 8.253731343283581,
      "grad_norm": 0.0,
      "learning_rate": 4.0970149253731337e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1098
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 79.19444274902344,
      "epoch": 8.261194029850746,
      "grad_norm": 0.0,
      "learning_rate": 4.100746268656716e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1099
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 79.41666412353516,
      "epoch": 8.26865671641791,
      "grad_norm": 2.0835924267920807,
      "learning_rate": 4.1044776119402984e-07,
      "loss": 0.013,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 1100
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 80.77777862548828,
      "epoch": 8.276119402985074,
      "grad_norm": 1.5751554852130476,
      "learning_rate": 4.10820895522388e-07,
      "loss": -0.0038,
      "reward": 1.6944444179534912,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 1101
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 74.69444274902344,
      "epoch": 8.283582089552239,
      "grad_norm": 2.1094215719438476,
      "learning_rate": 4.1119402985074626e-07,
      "loss": 0.014,
      "reward": 1.638888955116272,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 1102
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 73.94444274902344,
      "epoch": 8.291044776119403,
      "grad_norm": 3.7241101410998003,
      "learning_rate": 4.115671641791045e-07,
      "loss": 0.0126,
      "reward": 1.638888955116272,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 1103
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 79.1388931274414,
      "epoch": 8.298507462686567,
      "grad_norm": 4.136436306917644,
      "learning_rate": 4.1194029850746267e-07,
      "loss": 0.0134,
      "reward": 1.7222222089767456,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 1104
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 77.55555725097656,
      "epoch": 8.305970149253731,
      "grad_norm": 5.211712209576991,
      "learning_rate": 4.1231343283582085e-07,
      "loss": 0.0267,
      "reward": 1.4444444179534912,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 1105
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 77.83333587646484,
      "epoch": 8.313432835820896,
      "grad_norm": 1.7049960593473963,
      "learning_rate": 4.126865671641791e-07,
      "loss": 0.0131,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 1106
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 75.77777862548828,
      "epoch": 8.32089552238806,
      "grad_norm": 3.9493188987908847,
      "learning_rate": 4.1305970149253727e-07,
      "loss": -0.0079,
      "reward": 1.75,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 1107
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 73.5,
      "epoch": 8.328358208955224,
      "grad_norm": 1.5102828663672725,
      "learning_rate": 4.134328358208955e-07,
      "loss": -0.0039,
      "reward": 1.6944444179534912,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 1108
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.38888931274414,
      "epoch": 8.335820895522389,
      "grad_norm": 1.7942999335810532,
      "learning_rate": 4.1380597014925373e-07,
      "loss": -0.0223,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 1109
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.33333587646484,
      "epoch": 8.343283582089553,
      "grad_norm": 7.146797648331776,
      "learning_rate": 4.141791044776119e-07,
      "loss": -0.008,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 1110
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.83333587646484,
      "epoch": 8.350746268656717,
      "grad_norm": 3.5838625150304195,
      "learning_rate": 4.1455223880597015e-07,
      "loss": 0.0455,
      "reward": 1.6944444179534912,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 1111
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 73.94444274902344,
      "epoch": 8.35820895522388,
      "grad_norm": 5.490138291261227,
      "learning_rate": 4.1492537313432833e-07,
      "loss": 0.0093,
      "reward": 1.638888955116272,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 1112
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 75.97222137451172,
      "epoch": 8.365671641791044,
      "grad_norm": 3.554028979409275,
      "learning_rate": 4.1529850746268656e-07,
      "loss": -0.022,
      "reward": 1.5555555820465088,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 1113
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.08333587646484,
      "epoch": 8.373134328358208,
      "grad_norm": 1.734991743727553,
      "learning_rate": 4.1567164179104474e-07,
      "loss": -0.0112,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 1114
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 72.1388931274414,
      "epoch": 8.380597014925373,
      "grad_norm": 2.9172400765534854,
      "learning_rate": 4.16044776119403e-07,
      "loss": 0.0054,
      "reward": 1.7777777910232544,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1115
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 74.16666412353516,
      "epoch": 8.388059701492537,
      "grad_norm": 3.8847992675510215,
      "learning_rate": 4.164179104477612e-07,
      "loss": 0.0067,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 1116
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.36111450195312,
      "epoch": 8.395522388059701,
      "grad_norm": 1.862637967388634,
      "learning_rate": 4.167910447761194e-07,
      "loss": -0.0004,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 1117
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 77.08333587646484,
      "epoch": 8.402985074626866,
      "grad_norm": 2.815095575450939,
      "learning_rate": 4.1716417910447757e-07,
      "loss": -0.0098,
      "reward": 1.5277777910232544,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 1118
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 75.83333587646484,
      "epoch": 8.41044776119403,
      "grad_norm": 1.91173117185865,
      "learning_rate": 4.175373134328358e-07,
      "loss": 0.0086,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 1119
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.41666412353516,
      "epoch": 8.417910447761194,
      "grad_norm": 6.590223177932801,
      "learning_rate": 4.17910447761194e-07,
      "loss": 0.0238,
      "reward": 1.4444444179534912,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 1120
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 75.47222137451172,
      "epoch": 8.425373134328359,
      "grad_norm": 0.0,
      "learning_rate": 4.182835820895522e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1121
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 79.6388931274414,
      "epoch": 8.432835820895523,
      "grad_norm": 0.0,
      "learning_rate": 4.1865671641791046e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1122
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 75.58333587646484,
      "epoch": 8.440298507462687,
      "grad_norm": 2.6698552719190607,
      "learning_rate": 4.1902985074626864e-07,
      "loss": 0.0269,
      "reward": 1.6944444179534912,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 1123
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 71.44444274902344,
      "epoch": 8.447761194029852,
      "grad_norm": 2.7832252982992314,
      "learning_rate": 4.1940298507462687e-07,
      "loss": -0.0,
      "reward": 1.6111111640930176,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 1124
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 71.30555725097656,
      "epoch": 8.455223880597014,
      "grad_norm": 0.0,
      "learning_rate": 4.1977611940298505e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1125
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 71.52777862548828,
      "epoch": 8.462686567164178,
      "grad_norm": 1.5313931913199692,
      "learning_rate": 4.2014925373134323e-07,
      "loss": 0.008,
      "reward": 1.5833333730697632,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 1126
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.8888931274414,
      "epoch": 8.470149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.2052238805970147e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1127
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 72.36111450195312,
      "epoch": 8.477611940298507,
      "grad_norm": 2.671051267255562,
      "learning_rate": 4.208955223880597e-07,
      "loss": 0.018,
      "reward": 1.5,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 1128
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 73.6388931274414,
      "epoch": 8.485074626865671,
      "grad_norm": 3.2193839364777492,
      "learning_rate": 4.212686567164179e-07,
      "loss": 0.0047,
      "reward": 1.7222222089767456,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 1129
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 72.41666412353516,
      "epoch": 8.492537313432836,
      "grad_norm": 0.0,
      "learning_rate": 4.216417910447761e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1130
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 74.8888931274414,
      "epoch": 8.5,
      "grad_norm": 4.059646499374157,
      "learning_rate": 4.2201492537313435e-07,
      "loss": -0.0195,
      "reward": 1.888888955116272,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1131
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.86111450195312,
      "epoch": 8.507462686567164,
      "grad_norm": 4.215202772703513,
      "learning_rate": 4.223880597014925e-07,
      "loss": -0.0032,
      "reward": 1.5,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 1132
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.1388931274414,
      "epoch": 8.514925373134329,
      "grad_norm": 3.4684735116132797,
      "learning_rate": 4.227611940298507e-07,
      "loss": -0.0226,
      "reward": 1.8333333730697632,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 1133
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 71.69444274902344,
      "epoch": 8.522388059701493,
      "grad_norm": 0.0,
      "learning_rate": 4.2313432835820894e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1134
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.25,
      "epoch": 8.529850746268657,
      "grad_norm": 2.7560481866979156,
      "learning_rate": 4.235074626865671e-07,
      "loss": 0.0071,
      "reward": 1.6111111640930176,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 1135
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.77777862548828,
      "epoch": 8.537313432835822,
      "grad_norm": 22.289569242947206,
      "learning_rate": 4.2388059701492536e-07,
      "loss": 0.0162,
      "reward": 1.5277777910232544,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 1136
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.0,
      "epoch": 8.544776119402986,
      "grad_norm": 2.1553501887874758,
      "learning_rate": 4.242537313432836e-07,
      "loss": 0.0294,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 1137
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.5,
      "epoch": 8.552238805970148,
      "grad_norm": 2.068443429654787,
      "learning_rate": 4.2462686567164177e-07,
      "loss": 0.0272,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 1138
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.0,
      "epoch": 8.559701492537313,
      "grad_norm": 1.545274792431001,
      "learning_rate": 4.2499999999999995e-07,
      "loss": -0.0042,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 1139
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.97222137451172,
      "epoch": 8.567164179104477,
      "grad_norm": 1.5509152296105615,
      "learning_rate": 4.253731343283582e-07,
      "loss": -0.0354,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 1140
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.16666412353516,
      "epoch": 8.574626865671641,
      "grad_norm": 1.905215167812651,
      "learning_rate": 4.257462686567164e-07,
      "loss": -0.0045,
      "reward": 1.5833333730697632,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 1141
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.91666412353516,
      "epoch": 8.582089552238806,
      "grad_norm": 3.204442165407834,
      "learning_rate": 4.261194029850746e-07,
      "loss": -0.0138,
      "reward": 1.7777777910232544,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1142
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.80555725097656,
      "epoch": 8.58955223880597,
      "grad_norm": 2.043745448060202,
      "learning_rate": 4.2649253731343284e-07,
      "loss": -0.0161,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 1143
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.25,
      "epoch": 8.597014925373134,
      "grad_norm": 2.851383432575794,
      "learning_rate": 4.2686567164179107e-07,
      "loss": 0.0063,
      "reward": 1.6666666269302368,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1144
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.22222137451172,
      "epoch": 8.604477611940299,
      "grad_norm": 9.908036419441709,
      "learning_rate": 4.272388059701492e-07,
      "loss": 0.007,
      "reward": 1.6111111640930176,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 1145
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.4444465637207,
      "epoch": 8.611940298507463,
      "grad_norm": 0.0,
      "learning_rate": 4.2761194029850743e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1146
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.8888931274414,
      "epoch": 8.619402985074627,
      "grad_norm": 2.2153196505367543,
      "learning_rate": 4.2798507462686567e-07,
      "loss": -0.0021,
      "reward": 1.9166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 1147
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.5,
      "epoch": 8.626865671641792,
      "grad_norm": 3.2021029985255574,
      "learning_rate": 4.2835820895522385e-07,
      "loss": -0.0068,
      "reward": 1.7777777910232544,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1148
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.52777862548828,
      "epoch": 8.634328358208956,
      "grad_norm": 0.0,
      "learning_rate": 4.287313432835821e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 1149
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.58333587646484,
      "epoch": 8.64179104477612,
      "grad_norm": 0.0,
      "learning_rate": 4.291044776119403e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1150
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.27777862548828,
      "epoch": 8.649253731343283,
      "grad_norm": 0.0,
      "learning_rate": 4.2947761194029844e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1151
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.25,
      "epoch": 8.656716417910447,
      "grad_norm": 0.0,
      "learning_rate": 4.298507462686567e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1152
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.41666412353516,
      "epoch": 8.664179104477611,
      "grad_norm": 2.7611269571697874,
      "learning_rate": 4.302238805970149e-07,
      "loss": 0.0427,
      "reward": 1.5,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 1153
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.58333206176758,
      "epoch": 8.671641791044776,
      "grad_norm": 2.2764761680742103,
      "learning_rate": 4.305970149253731e-07,
      "loss": 0.0234,
      "reward": 1.6666666269302368,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1154
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.83333587646484,
      "epoch": 8.67910447761194,
      "grad_norm": 36.57905652127257,
      "learning_rate": 4.309701492537313e-07,
      "loss": 0.0003,
      "reward": 1.6111111640930176,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 1155
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.80555725097656,
      "epoch": 8.686567164179104,
      "grad_norm": 0.0,
      "learning_rate": 4.3134328358208956e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1156
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.22222137451172,
      "epoch": 8.694029850746269,
      "grad_norm": 3.501398153854957,
      "learning_rate": 4.3171641791044774e-07,
      "loss": -0.0095,
      "reward": 1.7222222089767456,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 1157
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 72.25,
      "epoch": 8.701492537313433,
      "grad_norm": 3.1474025673932076,
      "learning_rate": 4.320895522388059e-07,
      "loss": -0.0357,
      "reward": 1.6944444179534912,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 1158
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.97222137451172,
      "epoch": 8.708955223880597,
      "grad_norm": 3.107679827220158,
      "learning_rate": 4.3246268656716415e-07,
      "loss": 0.0009,
      "reward": 1.8055555820465088,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 1159
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.27777862548828,
      "epoch": 8.716417910447761,
      "grad_norm": 2.3015989581968834,
      "learning_rate": 4.3283582089552234e-07,
      "loss": 0.0065,
      "reward": 1.8055555820465088,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 1160
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.75,
      "epoch": 8.723880597014926,
      "grad_norm": 0.0,
      "learning_rate": 4.3320895522388057e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1161
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.86111068725586,
      "epoch": 8.73134328358209,
      "grad_norm": 1.4611677102651648,
      "learning_rate": 4.335820895522388e-07,
      "loss": -0.0099,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 1162
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.86111450195312,
      "epoch": 8.738805970149254,
      "grad_norm": 5.075806672993727,
      "learning_rate": 4.3395522388059704e-07,
      "loss": -0.0051,
      "reward": 1.638888955116272,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 1163
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 75.94444274902344,
      "epoch": 8.746268656716419,
      "grad_norm": 2.8121418079729,
      "learning_rate": 4.343283582089552e-07,
      "loss": -0.0234,
      "reward": 1.3611111640930176,
      "reward_std": 0.18385560810565948,
      "rewards/accuracy_reward": 0.3611111044883728,
      "rewards/format_reward": 1.0,
      "step": 1164
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.0,
      "epoch": 8.753731343283581,
      "grad_norm": 5.872257433209682,
      "learning_rate": 4.347014925373134e-07,
      "loss": 0.0124,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 1165
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.25,
      "epoch": 8.761194029850746,
      "grad_norm": 15.551409861112925,
      "learning_rate": 4.3507462686567163e-07,
      "loss": 0.0172,
      "reward": 1.5555555820465088,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 1166
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.86111450195312,
      "epoch": 8.76865671641791,
      "grad_norm": 2.1029427427450837,
      "learning_rate": 4.354477611940298e-07,
      "loss": 0.01,
      "reward": 1.4722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 1.0,
      "step": 1167
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.11111068725586,
      "epoch": 8.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 4.3582089552238805e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1168
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 74.5,
      "epoch": 8.783582089552239,
      "grad_norm": 1.7614321421125958,
      "learning_rate": 4.361940298507463e-07,
      "loss": -0.0044,
      "reward": 1.6111111640930176,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 1169
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.22222137451172,
      "epoch": 8.791044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.3656716417910446e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1170
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.94444274902344,
      "epoch": 8.798507462686567,
      "grad_norm": 6.239395995671806,
      "learning_rate": 4.3694029850746264e-07,
      "loss": 0.0166,
      "reward": 1.6666666269302368,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1171
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.25,
      "epoch": 8.805970149253731,
      "grad_norm": 8.530565934295705,
      "learning_rate": 4.373134328358209e-07,
      "loss": 0.0391,
      "reward": 1.75,
      "reward_std": 0.23081667721271515,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 1172
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.16666412353516,
      "epoch": 8.813432835820896,
      "grad_norm": 3.1799300617342885,
      "learning_rate": 4.3768656716417906e-07,
      "loss": -0.0208,
      "reward": 1.75,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 1173
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.25,
      "epoch": 8.82089552238806,
      "grad_norm": 30.278683897698453,
      "learning_rate": 4.380597014925373e-07,
      "loss": -0.003,
      "reward": 1.7222222089767456,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 1174
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.72222137451172,
      "epoch": 8.828358208955224,
      "grad_norm": 4.08472287995766,
      "learning_rate": 4.384328358208955e-07,
      "loss": 0.0183,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 1175
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.30555725097656,
      "epoch": 8.835820895522389,
      "grad_norm": 5.49170834076582,
      "learning_rate": 4.388059701492537e-07,
      "loss": -0.0082,
      "reward": 1.8055555820465088,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 1176
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.44444274902344,
      "epoch": 8.843283582089553,
      "grad_norm": 10.47357050417982,
      "learning_rate": 4.3917910447761194e-07,
      "loss": -0.024,
      "reward": 1.4166666269302368,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.4166666567325592,
      "rewards/format_reward": 1.0,
      "step": 1177
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.02777862548828,
      "epoch": 8.850746268656717,
      "grad_norm": 2.1523149614423494,
      "learning_rate": 4.395522388059701e-07,
      "loss": 0.015,
      "reward": 1.638888955116272,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 1178
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.88888931274414,
      "epoch": 8.85820895522388,
      "grad_norm": 2.216370662294361,
      "learning_rate": 4.399253731343283e-07,
      "loss": 0.0005,
      "reward": 1.5,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 1179
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.55555725097656,
      "epoch": 8.865671641791044,
      "grad_norm": 3.6658771640713725,
      "learning_rate": 4.4029850746268654e-07,
      "loss": -0.0054,
      "reward": 1.638888955116272,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 1180
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.36111068725586,
      "epoch": 8.873134328358208,
      "grad_norm": 3.273793035090475,
      "learning_rate": 4.4067164179104477e-07,
      "loss": -0.0007,
      "reward": 1.9166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 1181
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 74.77777862548828,
      "epoch": 8.880597014925373,
      "grad_norm": 0.0,
      "learning_rate": 4.4104477611940295e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1182
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.9444465637207,
      "epoch": 8.888059701492537,
      "grad_norm": 3.7271293716405003,
      "learning_rate": 4.414179104477612e-07,
      "loss": 0.0059,
      "reward": 1.8611111640930176,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 1183
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.05555725097656,
      "epoch": 8.895522388059701,
      "grad_norm": 1.5659714100706283,
      "learning_rate": 4.417910447761194e-07,
      "loss": -0.017,
      "reward": 1.638888955116272,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 1184
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.27777862548828,
      "epoch": 8.902985074626866,
      "grad_norm": 11.530894453885258,
      "learning_rate": 4.421641791044776e-07,
      "loss": -0.005,
      "reward": 1.5277777910232544,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 1185
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 71.6388931274414,
      "epoch": 8.91044776119403,
      "grad_norm": 2.8405049542630327,
      "learning_rate": 4.425373134328358e-07,
      "loss": -0.0195,
      "reward": 1.6666666269302368,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1186
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.16666412353516,
      "epoch": 8.917910447761194,
      "grad_norm": 6.936076095086599,
      "learning_rate": 4.42910447761194e-07,
      "loss": -0.0159,
      "reward": 1.8611111640930176,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 1187
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.69444274902344,
      "epoch": 8.925373134328359,
      "grad_norm": 16.916384853139068,
      "learning_rate": 4.4328358208955225e-07,
      "loss": 0.0166,
      "reward": 1.8055555820465088,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 1188
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.97222137451172,
      "epoch": 8.932835820895523,
      "grad_norm": 2.639297011352595,
      "learning_rate": 4.4365671641791043e-07,
      "loss": -0.0049,
      "reward": 1.6944444179534912,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 1189
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.33333206176758,
      "epoch": 8.940298507462687,
      "grad_norm": 0.0,
      "learning_rate": 4.4402985074626866e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1190
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.86111068725586,
      "epoch": 8.947761194029852,
      "grad_norm": 9.171130081427666,
      "learning_rate": 4.4440298507462684e-07,
      "loss": -0.0186,
      "reward": 1.638888955116272,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 1191
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.72222137451172,
      "epoch": 8.955223880597014,
      "grad_norm": 4.081424712083287,
      "learning_rate": 4.44776119402985e-07,
      "loss": 0.0298,
      "reward": 1.638888955116272,
      "reward_std": 0.18385560810565948,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 1192
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.38888931274414,
      "epoch": 8.962686567164178,
      "grad_norm": 7.051360878865852,
      "learning_rate": 4.4514925373134326e-07,
      "loss": 0.0421,
      "reward": 1.9166666269302368,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 1193
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.30555725097656,
      "epoch": 8.970149253731343,
      "grad_norm": 1.4297611131435772,
      "learning_rate": 4.455223880597015e-07,
      "loss": 0.0058,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 1194
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.19444274902344,
      "epoch": 8.977611940298507,
      "grad_norm": 2.5247710266092542,
      "learning_rate": 4.4589552238805967e-07,
      "loss": -0.0217,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 1195
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.27777862548828,
      "epoch": 8.985074626865671,
      "grad_norm": 0.0,
      "learning_rate": 4.462686567164179e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1196
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.91666793823242,
      "epoch": 8.992537313432836,
      "grad_norm": 0.0,
      "learning_rate": 4.4664179104477614e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1197
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.22222137451172,
      "epoch": 9.007462686567164,
      "grad_norm": 0.0,
      "learning_rate": 4.4701492537313427e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1198
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.4444465637207,
      "epoch": 9.014925373134329,
      "grad_norm": 33.061990304369985,
      "learning_rate": 4.473880597014925e-07,
      "loss": -0.002,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 1199
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.44444274902344,
      "epoch": 9.022388059701493,
      "grad_norm": 3.7585890435685023,
      "learning_rate": 4.4776119402985074e-07,
      "loss": -0.0102,
      "reward": 1.8055555820465088,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 1200
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.97222137451172,
      "epoch": 9.029850746268657,
      "grad_norm": 0.0,
      "learning_rate": 4.481343283582089e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1201
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.13888931274414,
      "epoch": 9.037313432835822,
      "grad_norm": 1.8150726660035563,
      "learning_rate": 4.4850746268656715e-07,
      "loss": 0.0083,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 1202
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.83333206176758,
      "epoch": 9.044776119402986,
      "grad_norm": 0.0,
      "learning_rate": 4.488805970149254e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1203
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.11111068725586,
      "epoch": 9.052238805970148,
      "grad_norm": 5.464628990453912,
      "learning_rate": 4.492537313432835e-07,
      "loss": 0.0328,
      "reward": 1.888888955116272,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1204
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.25,
      "epoch": 9.059701492537313,
      "grad_norm": 0.0,
      "learning_rate": 4.4962686567164175e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1205
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.05555725097656,
      "epoch": 9.067164179104477,
      "grad_norm": 3.489479761210635,
      "learning_rate": 4.5e-07,
      "loss": 0.0188,
      "reward": 1.9166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 1206
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.80555725097656,
      "epoch": 9.074626865671641,
      "grad_norm": 0.0,
      "learning_rate": 4.5037313432835816e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1207
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.02777862548828,
      "epoch": 9.082089552238806,
      "grad_norm": 2.8333958490718096,
      "learning_rate": 4.507462686567164e-07,
      "loss": -0.016,
      "reward": 1.5555555820465088,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 1208
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.6944465637207,
      "epoch": 9.08955223880597,
      "grad_norm": 14.888830130178341,
      "learning_rate": 4.5111940298507463e-07,
      "loss": 0.0034,
      "reward": 1.5833333730697632,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 1209
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.22222137451172,
      "epoch": 9.097014925373134,
      "grad_norm": 1.9091977973131364,
      "learning_rate": 4.5149253731343286e-07,
      "loss": -0.0102,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 1210
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.72222137451172,
      "epoch": 9.104477611940299,
      "grad_norm": 3.9433802440751404,
      "learning_rate": 4.51865671641791e-07,
      "loss": -0.0052,
      "reward": 1.4166666269302368,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.4166666567325592,
      "rewards/format_reward": 1.0,
      "step": 1211
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.02777862548828,
      "epoch": 9.111940298507463,
      "grad_norm": 0.0,
      "learning_rate": 4.522388059701492e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1212
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.41666793823242,
      "epoch": 9.119402985074627,
      "grad_norm": 1.945815263633914,
      "learning_rate": 4.5261194029850746e-07,
      "loss": -0.0056,
      "reward": 1.5833333730697632,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 1213
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.6944465637207,
      "epoch": 9.126865671641792,
      "grad_norm": 3.096736677915758,
      "learning_rate": 4.5298507462686564e-07,
      "loss": -0.0214,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 1214
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.61111450195312,
      "epoch": 9.134328358208956,
      "grad_norm": 1.7724104565862568,
      "learning_rate": 4.5335820895522387e-07,
      "loss": -0.0035,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 1215
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.22222137451172,
      "epoch": 9.14179104477612,
      "grad_norm": 4.038162952492206,
      "learning_rate": 4.537313432835821e-07,
      "loss": 0.0112,
      "reward": 1.5833333730697632,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 1216
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.22222137451172,
      "epoch": 9.149253731343283,
      "grad_norm": 2.4481995400375114,
      "learning_rate": 4.541044776119403e-07,
      "loss": 0.0175,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 1217
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.5,
      "epoch": 9.156716417910447,
      "grad_norm": 3.495472485215166,
      "learning_rate": 4.5447761194029847e-07,
      "loss": 0.0146,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 1218
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.61111068725586,
      "epoch": 9.164179104477611,
      "grad_norm": 5.816390016018363,
      "learning_rate": 4.548507462686567e-07,
      "loss": -0.0323,
      "reward": 1.6111111640930176,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 1219
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.33333206176758,
      "epoch": 9.171641791044776,
      "grad_norm": 4.348822981222663,
      "learning_rate": 4.552238805970149e-07,
      "loss": 0.0067,
      "reward": 1.8055555820465088,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 1220
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.33333206176758,
      "epoch": 9.17910447761194,
      "grad_norm": 4.524874340047371,
      "learning_rate": 4.555970149253731e-07,
      "loss": -0.0276,
      "reward": 1.75,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 1221
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.91666793823242,
      "epoch": 9.186567164179104,
      "grad_norm": 6.525076548328928,
      "learning_rate": 4.5597014925373135e-07,
      "loss": -0.0074,
      "reward": 1.6944444179534912,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 1222
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.9444465637207,
      "epoch": 9.194029850746269,
      "grad_norm": 8.273673248841343,
      "learning_rate": 4.5634328358208953e-07,
      "loss": -0.006,
      "reward": 1.6944444179534912,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 1223
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.13888931274414,
      "epoch": 9.201492537313433,
      "grad_norm": 3.0314155517736285,
      "learning_rate": 4.567164179104477e-07,
      "loss": -0.0069,
      "reward": 1.638888955116272,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 1224
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.1944465637207,
      "epoch": 9.208955223880597,
      "grad_norm": 2.4887334479008216,
      "learning_rate": 4.5708955223880595e-07,
      "loss": 0.033,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 1225
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 44.83333206176758,
      "epoch": 9.216417910447761,
      "grad_norm": 3.2396213475538005,
      "learning_rate": 4.5746268656716413e-07,
      "loss": -0.0059,
      "reward": 1.9166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 1226
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.86111068725586,
      "epoch": 9.223880597014926,
      "grad_norm": 2.963895821757384,
      "learning_rate": 4.5783582089552236e-07,
      "loss": -0.0101,
      "reward": 1.5277777910232544,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 1227
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.66666793823242,
      "epoch": 9.23134328358209,
      "grad_norm": 2.943922087877171,
      "learning_rate": 4.582089552238806e-07,
      "loss": 0.0006,
      "reward": 1.5277777910232544,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 1228
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.13888931274414,
      "epoch": 9.238805970149254,
      "grad_norm": 0.0,
      "learning_rate": 4.585820895522388e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1229
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.08333206176758,
      "epoch": 9.246268656716419,
      "grad_norm": 2.2077239937603896,
      "learning_rate": 4.58955223880597e-07,
      "loss": 0.0242,
      "reward": 1.9166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 1230
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.05555725097656,
      "epoch": 9.253731343283581,
      "grad_norm": 0.0,
      "learning_rate": 4.593283582089552e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1231
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 46.11111068725586,
      "epoch": 9.261194029850746,
      "grad_norm": 0.0,
      "learning_rate": 4.5970149253731337e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1232
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.11111068725586,
      "epoch": 9.26865671641791,
      "grad_norm": 7.528672730849348,
      "learning_rate": 4.600746268656716e-07,
      "loss": -0.0293,
      "reward": 1.6666666269302368,
      "reward_std": 0.12830005586147308,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1233
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.5,
      "epoch": 9.276119402985074,
      "grad_norm": 7.187561198003969,
      "learning_rate": 4.6044776119402984e-07,
      "loss": 0.0113,
      "reward": 1.6944444179534912,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 1234
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 46.83333206176758,
      "epoch": 9.283582089552239,
      "grad_norm": 0.0,
      "learning_rate": 4.6082089552238807e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1235
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.91666793823242,
      "epoch": 9.291044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.6119402985074625e-07,
      "loss": 0.0,
      "reward": 1.4444444179534912,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 1236
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.83333206176758,
      "epoch": 9.298507462686567,
      "grad_norm": 10.87176583716017,
      "learning_rate": 4.615671641791045e-07,
      "loss": 0.0047,
      "reward": 1.5277777910232544,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 1237
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.02777862548828,
      "epoch": 9.305970149253731,
      "grad_norm": 0.0,
      "learning_rate": 4.6194029850746267e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1238
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 46.9444465637207,
      "epoch": 9.313432835820896,
      "grad_norm": 2.227035317778587,
      "learning_rate": 4.6231343283582085e-07,
      "loss": 0.0029,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 1239
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 46.16666793823242,
      "epoch": 9.32089552238806,
      "grad_norm": 7.951357825139744,
      "learning_rate": 4.626865671641791e-07,
      "loss": -0.0642,
      "reward": 1.6111111640930176,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 0.9166666865348816,
      "step": 1240
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.97222137451172,
      "epoch": 9.328358208955224,
      "grad_norm": 2.5026128884973016,
      "learning_rate": 4.630597014925373e-07,
      "loss": 0.0168,
      "reward": 1.6944444179534912,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 1241
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.80555725097656,
      "epoch": 9.335820895522389,
      "grad_norm": 24.81299199683115,
      "learning_rate": 4.634328358208955e-07,
      "loss": 0.0532,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 1242
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.9444465637207,
      "epoch": 9.343283582089553,
      "grad_norm": 0.0,
      "learning_rate": 4.6380597014925373e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1243
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.02777862548828,
      "epoch": 9.350746268656717,
      "grad_norm": 2.2054820256747365,
      "learning_rate": 4.641791044776119e-07,
      "loss": -0.0122,
      "reward": 1.9166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 1244
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.02777862548828,
      "epoch": 9.35820895522388,
      "grad_norm": 2.0509809414194065,
      "learning_rate": 4.645522388059701e-07,
      "loss": -0.0215,
      "reward": 1.6111111640930176,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 1245
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.9444465637207,
      "epoch": 9.365671641791044,
      "grad_norm": 8.832710389671277,
      "learning_rate": 4.6492537313432833e-07,
      "loss": 0.0282,
      "reward": 1.7777777910232544,
      "reward_std": 0.12830005586147308,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1246
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.5,
      "epoch": 9.373134328358208,
      "grad_norm": 0.0,
      "learning_rate": 4.6529850746268656e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 1247
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.11111068725586,
      "epoch": 9.380597014925373,
      "grad_norm": 2.1547334215364757,
      "learning_rate": 4.6567164179104474e-07,
      "loss": -0.0158,
      "reward": 1.6944444179534912,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 1248
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.36111068725586,
      "epoch": 9.388059701492537,
      "grad_norm": 2.369300868448341,
      "learning_rate": 4.66044776119403e-07,
      "loss": -0.0083,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 1249
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.22222137451172,
      "epoch": 9.395522388059701,
      "grad_norm": 2.9121951493687117,
      "learning_rate": 4.664179104477612e-07,
      "loss": 0.0058,
      "reward": 1.638888955116272,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 1250
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.91666793823242,
      "epoch": 9.402985074626866,
      "grad_norm": 3.731546687173185,
      "learning_rate": 4.6679104477611934e-07,
      "loss": 0.0159,
      "reward": 1.9166666269302368,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 1251
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.30555725097656,
      "epoch": 9.41044776119403,
      "grad_norm": 10.215635041796023,
      "learning_rate": 4.6716417910447757e-07,
      "loss": -0.006,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 1252
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.55555725097656,
      "epoch": 9.417910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.675373134328358e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1253
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.72222137451172,
      "epoch": 9.425373134328359,
      "grad_norm": 0.0,
      "learning_rate": 4.67910447761194e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1254
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.52777862548828,
      "epoch": 9.432835820895523,
      "grad_norm": 4.295727697061962,
      "learning_rate": 4.682835820895522e-07,
      "loss": 0.0188,
      "reward": 1.7222222089767456,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 1255
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.27777862548828,
      "epoch": 9.440298507462687,
      "grad_norm": 2.859934836007745,
      "learning_rate": 4.6865671641791045e-07,
      "loss": 0.0077,
      "reward": 1.8333333730697632,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 1256
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.66666793823242,
      "epoch": 9.447761194029852,
      "grad_norm": 0.0,
      "learning_rate": 4.690298507462687e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1257
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.05555725097656,
      "epoch": 9.455223880597014,
      "grad_norm": 1.8549110040204806,
      "learning_rate": 4.694029850746268e-07,
      "loss": -0.0153,
      "reward": 1.5833333730697632,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 1258
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.13888931274414,
      "epoch": 9.462686567164178,
      "grad_norm": 3.321664126830894,
      "learning_rate": 4.6977611940298505e-07,
      "loss": -0.0057,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 1259
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.91666793823242,
      "epoch": 9.470149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.701492537313433e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1260
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.08333206176758,
      "epoch": 9.477611940298507,
      "grad_norm": 0.0,
      "learning_rate": 4.7052238805970146e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1261
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.38888931274414,
      "epoch": 9.485074626865671,
      "grad_norm": 4.8783141803608405,
      "learning_rate": 4.708955223880597e-07,
      "loss": 0.0074,
      "reward": 1.4722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.472222238779068,
      "rewards/format_reward": 1.0,
      "step": 1262
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.86111068725586,
      "epoch": 9.492537313432836,
      "grad_norm": 0.0,
      "learning_rate": 4.7126865671641793e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1263
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.25,
      "epoch": 9.5,
      "grad_norm": 0.0,
      "learning_rate": 4.7164179104477606e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1264
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.75,
      "epoch": 9.507462686567164,
      "grad_norm": 0.0,
      "learning_rate": 4.720149253731343e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1265
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.11111068725586,
      "epoch": 9.514925373134329,
      "grad_norm": 0.0,
      "learning_rate": 4.7238805970149253e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1266
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.88888931274414,
      "epoch": 9.522388059701493,
      "grad_norm": 0.0,
      "learning_rate": 4.727611940298507e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 1267
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.27777862548828,
      "epoch": 9.529850746268657,
      "grad_norm": 1.5569367793626612,
      "learning_rate": 4.7313432835820894e-07,
      "loss": 0.0025,
      "reward": 1.5833333730697632,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 1268
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.38888931274414,
      "epoch": 9.537313432835822,
      "grad_norm": 0.0,
      "learning_rate": 4.735074626865672e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1269
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.36111068725586,
      "epoch": 9.544776119402986,
      "grad_norm": 0.0,
      "learning_rate": 4.7388059701492536e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 1270
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.5,
      "epoch": 9.552238805970148,
      "grad_norm": 5.562515286710907,
      "learning_rate": 4.7425373134328354e-07,
      "loss": -0.0005,
      "reward": 1.5,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 1271
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.52777862548828,
      "epoch": 9.559701492537313,
      "grad_norm": 0.0,
      "learning_rate": 4.7462686567164177e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1272
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.0,
      "epoch": 9.567164179104477,
      "grad_norm": 0.0,
      "learning_rate": 4.7499999999999995e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1273
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.47222137451172,
      "epoch": 9.574626865671641,
      "grad_norm": 0.0,
      "learning_rate": 4.753731343283582e-07,
      "loss": 0.0,
      "reward": 1.4444444179534912,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 1274
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.88888931274414,
      "epoch": 9.582089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.757462686567164e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1275
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.1944465637207,
      "epoch": 9.58955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.761194029850746e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1276
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.02777862548828,
      "epoch": 9.597014925373134,
      "grad_norm": 0.0,
      "learning_rate": 4.764925373134328e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 1277
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.83333206176758,
      "epoch": 9.604477611940299,
      "grad_norm": 6.2056470620048705,
      "learning_rate": 4.768656716417911e-07,
      "loss": 0.0234,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 1278
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.25,
      "epoch": 9.611940298507463,
      "grad_norm": 4.6329618759018265,
      "learning_rate": 4.772388059701492e-07,
      "loss": -0.0046,
      "reward": 1.6944444179534912,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 1279
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.25,
      "epoch": 9.619402985074627,
      "grad_norm": 0.0,
      "learning_rate": 4.776119402985074e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1280
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.88888931274414,
      "epoch": 9.626865671641792,
      "grad_norm": 2.1294406270170834,
      "learning_rate": 4.779850746268657e-07,
      "loss": -0.0,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 1281
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.11111068725586,
      "epoch": 9.634328358208956,
      "grad_norm": 8.097486880465041,
      "learning_rate": 4.783582089552239e-07,
      "loss": -0.0116,
      "reward": 1.638888955116272,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 1282
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.22222137451172,
      "epoch": 9.64179104477612,
      "grad_norm": 0.0,
      "learning_rate": 4.78731343283582e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1283
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.0,
      "epoch": 9.649253731343283,
      "grad_norm": 1.448160927529639,
      "learning_rate": 4.791044776119403e-07,
      "loss": -0.0049,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 1284
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.30555725097656,
      "epoch": 9.656716417910447,
      "grad_norm": 0.0,
      "learning_rate": 4.794776119402985e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1285
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.33333206176758,
      "epoch": 9.664179104477611,
      "grad_norm": 2.381544208493851,
      "learning_rate": 4.798507462686567e-07,
      "loss": 0.0008,
      "reward": 1.6944444179534912,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 1286
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.16666793823242,
      "epoch": 9.671641791044776,
      "grad_norm": 0.0,
      "learning_rate": 4.802238805970149e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1287
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.02777862548828,
      "epoch": 9.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.805970149253731e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 1288
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.30555725097656,
      "epoch": 9.686567164179104,
      "grad_norm": 0.0,
      "learning_rate": 4.809701492537313e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1289
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.88888931274414,
      "epoch": 9.694029850746269,
      "grad_norm": 0.0,
      "learning_rate": 4.813432835820896e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1290
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.16666793823242,
      "epoch": 9.701492537313433,
      "grad_norm": 0.0,
      "learning_rate": 4.817164179104478e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1291
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.05555725097656,
      "epoch": 9.708955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.820895522388059e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1292
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.0,
      "epoch": 9.716417910447761,
      "grad_norm": 46.818381437349224,
      "learning_rate": 4.824626865671642e-07,
      "loss": -0.0071,
      "reward": 1.6944444179534912,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 1293
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.05555725097656,
      "epoch": 9.723880597014926,
      "grad_norm": 0.0,
      "learning_rate": 4.828358208955224e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1294
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.83333206176758,
      "epoch": 9.73134328358209,
      "grad_norm": 5.825356077539089,
      "learning_rate": 4.832089552238805e-07,
      "loss": -0.0067,
      "reward": 1.5,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 1295
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.11111068725586,
      "epoch": 9.738805970149254,
      "grad_norm": 0.0,
      "learning_rate": 4.835820895522387e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1296
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.11111068725586,
      "epoch": 9.746268656716419,
      "grad_norm": 0.0,
      "learning_rate": 4.83955223880597e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1297
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.08333206176758,
      "epoch": 9.753731343283581,
      "grad_norm": 2.186850247597505,
      "learning_rate": 4.843283582089552e-07,
      "loss": -0.0012,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 1298
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.97222137451172,
      "epoch": 9.761194029850746,
      "grad_norm": 18.582142300587805,
      "learning_rate": 4.847014925373134e-07,
      "loss": 0.0097,
      "reward": 1.388888955116272,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.3888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1299
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.63888931274414,
      "epoch": 9.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.850746268656717e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1300
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.72222137451172,
      "epoch": 9.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 4.854477611940298e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1301
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.91666793823242,
      "epoch": 9.783582089552239,
      "grad_norm": 0.0,
      "learning_rate": 4.85820895522388e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1302
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.55555725097656,
      "epoch": 9.791044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.861940298507463e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1303
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.22222137451172,
      "epoch": 9.798507462686567,
      "grad_norm": 2.8243856042500117,
      "learning_rate": 4.865671641791044e-07,
      "loss": -0.0112,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 1304
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.1388931274414,
      "epoch": 9.805970149253731,
      "grad_norm": 3.475516967600932,
      "learning_rate": 4.869402985074626e-07,
      "loss": 0.0616,
      "reward": 1.8333333730697632,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 1305
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.58333206176758,
      "epoch": 9.813432835820896,
      "grad_norm": 0.0,
      "learning_rate": 4.873134328358209e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1306
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.16666793823242,
      "epoch": 9.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.876865671641791e-07,
      "loss": 0.0,
      "reward": 1.3333333730697632,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.3333333432674408,
      "rewards/format_reward": 1.0,
      "step": 1307
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.52777862548828,
      "epoch": 9.828358208955224,
      "grad_norm": 0.0,
      "learning_rate": 4.880597014925372e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1308
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.16666793823242,
      "epoch": 9.835820895522389,
      "grad_norm": 0.0,
      "learning_rate": 4.884328358208955e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1309
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.05555725097656,
      "epoch": 9.843283582089553,
      "grad_norm": 3.836345499739808,
      "learning_rate": 4.888059701492537e-07,
      "loss": -0.0389,
      "reward": 1.4444444179534912,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 1310
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.86111068725586,
      "epoch": 9.850746268656717,
      "grad_norm": 3.9453194834980625,
      "learning_rate": 4.891791044776119e-07,
      "loss": -0.0001,
      "reward": 1.888888955116272,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1311
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.22222137451172,
      "epoch": 9.85820895522388,
      "grad_norm": 0.0,
      "learning_rate": 4.895522388059702e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1312
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.58333206176758,
      "epoch": 9.865671641791044,
      "grad_norm": 0.0,
      "learning_rate": 4.899253731343284e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 1313
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.30555725097656,
      "epoch": 9.873134328358208,
      "grad_norm": 0.0,
      "learning_rate": 4.902985074626865e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1314
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.0,
      "epoch": 9.880597014925373,
      "grad_norm": 0.0,
      "learning_rate": 4.906716417910448e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1315
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.52777862548828,
      "epoch": 9.888059701492537,
      "grad_norm": 5.789533622105427,
      "learning_rate": 4.91044776119403e-07,
      "loss": -0.0138,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 1316
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.52777862548828,
      "epoch": 9.895522388059701,
      "grad_norm": 8.473677464068848,
      "learning_rate": 4.914179104477611e-07,
      "loss": -0.0405,
      "reward": 1.6944444179534912,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 1317
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.16666793823242,
      "epoch": 9.902985074626866,
      "grad_norm": 2.7227217123457224,
      "learning_rate": 4.917910447761194e-07,
      "loss": 0.0209,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 1318
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.66666793823242,
      "epoch": 9.91044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.921641791044776e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1319
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.36111068725586,
      "epoch": 9.917910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.925373134328357e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 1320
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.58333206176758,
      "epoch": 9.925373134328359,
      "grad_norm": 5.4656515499529945,
      "learning_rate": 4.92910447761194e-07,
      "loss": -0.0105,
      "reward": 1.7777777910232544,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1321
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.08333206176758,
      "epoch": 9.932835820895523,
      "grad_norm": 2.541750193300938,
      "learning_rate": 4.932835820895522e-07,
      "loss": 0.0,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 1322
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.13888931274414,
      "epoch": 9.940298507462687,
      "grad_norm": 0.0,
      "learning_rate": 4.936567164179104e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 1323
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.72222137451172,
      "epoch": 9.947761194029852,
      "grad_norm": 0.0,
      "learning_rate": 4.940298507462687e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1324
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.97222137451172,
      "epoch": 9.955223880597014,
      "grad_norm": 0.0,
      "learning_rate": 4.944029850746269e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1325
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.27777862548828,
      "epoch": 9.962686567164178,
      "grad_norm": 6.506018150871716,
      "learning_rate": 4.94776119402985e-07,
      "loss": 0.0209,
      "reward": 1.6944444179534912,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 1326
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.05555725097656,
      "epoch": 9.970149253731343,
      "grad_norm": 6.627111301982484,
      "learning_rate": 4.951492537313433e-07,
      "loss": -0.0096,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 1327
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.97222137451172,
      "epoch": 9.977611940298507,
      "grad_norm": 2.1722601854859347,
      "learning_rate": 4.955223880597015e-07,
      "loss": -0.0031,
      "reward": 1.5833333730697632,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 1328
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.41666793823242,
      "epoch": 9.985074626865671,
      "grad_norm": 0.0,
      "learning_rate": 4.958955223880597e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1329
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.58333587646484,
      "epoch": 9.992537313432836,
      "grad_norm": 0.0,
      "learning_rate": 4.962686567164179e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1330
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.58333206176758,
      "epoch": 10.007462686567164,
      "grad_norm": 2.7559568607874665,
      "learning_rate": 4.966417910447761e-07,
      "loss": -0.0239,
      "reward": 1.5833333730697632,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 1331
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.83333206176758,
      "epoch": 10.014925373134329,
      "grad_norm": 5.188470227538154,
      "learning_rate": 4.970149253731343e-07,
      "loss": -0.0131,
      "reward": 1.8611111640930176,
      "reward_std": 0.18385560810565948,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 1332
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.4444465637207,
      "epoch": 10.022388059701493,
      "grad_norm": 4.859043440816361,
      "learning_rate": 4.973880597014926e-07,
      "loss": -0.0088,
      "reward": 1.5833333730697632,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 1333
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.05555725097656,
      "epoch": 10.029850746268657,
      "grad_norm": 0.0,
      "learning_rate": 4.977611940298507e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1334
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.88888931274414,
      "epoch": 10.037313432835822,
      "grad_norm": 0.0,
      "learning_rate": 4.981343283582089e-07,
      "loss": 0.0,
      "reward": 1.4444444179534912,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 1335
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.38888931274414,
      "epoch": 10.044776119402986,
      "grad_norm": 0.0,
      "learning_rate": 4.985074626865671e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1336
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.86111068725586,
      "epoch": 10.052238805970148,
      "grad_norm": 0.0,
      "learning_rate": 4.988805970149254e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1337
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.08333206176758,
      "epoch": 10.059701492537313,
      "grad_norm": 9.827660100374734,
      "learning_rate": 4.992537313432836e-07,
      "loss": 0.0524,
      "reward": 1.9444444179534912,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.944444477558136,
      "rewards/format_reward": 1.0,
      "step": 1338
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.66666793823242,
      "epoch": 10.067164179104477,
      "grad_norm": 0.0,
      "learning_rate": 4.996268656716417e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1339
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.72222137451172,
      "epoch": 10.074626865671641,
      "grad_norm": 9.754727002538889,
      "learning_rate": 5e-07,
      "loss": -0.0004,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 1340
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.0,
      "epoch": 10.082089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.999999915176705e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1341
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.4444465637207,
      "epoch": 10.08955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.999999660706824e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1342
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.36111068725586,
      "epoch": 10.097014925373134,
      "grad_norm": 1.7609247902200287,
      "learning_rate": 4.999999236590376e-07,
      "loss": 0.0157,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 1343
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.80555725097656,
      "epoch": 10.104477611940299,
      "grad_norm": 11.850480366134091,
      "learning_rate": 4.99999864282739e-07,
      "loss": -0.0072,
      "reward": 1.6944444179534912,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 1344
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.33333206176758,
      "epoch": 10.111940298507463,
      "grad_norm": 0.0,
      "learning_rate": 4.999997879417906e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1345
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.66666793823242,
      "epoch": 10.119402985074627,
      "grad_norm": 1.9924726266206139,
      "learning_rate": 4.999996946361974e-07,
      "loss": 0.0045,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 1346
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.6944465637207,
      "epoch": 10.126865671641792,
      "grad_norm": 0.0,
      "learning_rate": 4.999995843659658e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1347
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.4444465637207,
      "epoch": 10.134328358208956,
      "grad_norm": 0.0,
      "learning_rate": 4.999994571311035e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1348
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.77777862548828,
      "epoch": 10.14179104477612,
      "grad_norm": 0.0,
      "learning_rate": 4.99999312931619e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1349
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.41666793823242,
      "epoch": 10.149253731343283,
      "grad_norm": 0.0,
      "learning_rate": 4.999991517675219e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1350
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.66666793823242,
      "epoch": 10.156716417910447,
      "grad_norm": 0.0,
      "learning_rate": 4.999989736388234e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1351
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.52777862548828,
      "epoch": 10.164179104477611,
      "grad_norm": 0.0,
      "learning_rate": 4.999987785455355e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1352
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.83333206176758,
      "epoch": 10.171641791044776,
      "grad_norm": 0.0,
      "learning_rate": 4.999985664876713e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 1353
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.9444465637207,
      "epoch": 10.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.999983374652454e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1354
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.58333206176758,
      "epoch": 10.186567164179104,
      "grad_norm": 0.0,
      "learning_rate": 4.999980914782733e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1355
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.02777862548828,
      "epoch": 10.194029850746269,
      "grad_norm": 0.0,
      "learning_rate": 4.999978285267717e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1356
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 46.66666793823242,
      "epoch": 10.201492537313433,
      "grad_norm": 6.312978298175957,
      "learning_rate": 4.999975486107583e-07,
      "loss": 0.0181,
      "reward": 1.6666666269302368,
      "reward_std": 0.17526113986968994,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1357
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.38888931274414,
      "epoch": 10.208955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.999972517302522e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1358
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.72222137451172,
      "epoch": 10.216417910447761,
      "grad_norm": 0.0,
      "learning_rate": 4.999969378852735e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1359
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.80555725097656,
      "epoch": 10.223880597014926,
      "grad_norm": 4.186971639218545,
      "learning_rate": 4.999966070758436e-07,
      "loss": 0.0204,
      "reward": 1.5277777910232544,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 1360
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.86111068725586,
      "epoch": 10.23134328358209,
      "grad_norm": 4.524177171713556,
      "learning_rate": 4.999962593019849e-07,
      "loss": 0.0046,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 1361
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.75,
      "epoch": 10.238805970149254,
      "grad_norm": 0.0,
      "learning_rate": 4.99995894563721e-07,
      "loss": 0.0,
      "reward": 1.4444444179534912,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 1362
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.55555725097656,
      "epoch": 10.246268656716419,
      "grad_norm": 14.889114705947625,
      "learning_rate": 4.999955128610765e-07,
      "loss": 0.0072,
      "reward": 1.5833333730697632,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 1363
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.41666793823242,
      "epoch": 10.253731343283581,
      "grad_norm": 2.652102712704627,
      "learning_rate": 4.999951141940775e-07,
      "loss": -0.0115,
      "reward": 1.5833333730697632,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 1364
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.86111068725586,
      "epoch": 10.261194029850746,
      "grad_norm": 11.884587146976358,
      "learning_rate": 4.99994698562751e-07,
      "loss": 0.0,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 1365
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.72222137451172,
      "epoch": 10.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.999942659671251e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1366
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.05555725097656,
      "epoch": 10.276119402985074,
      "grad_norm": 0.0,
      "learning_rate": 4.999938164072294e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1367
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.13888931274414,
      "epoch": 10.283582089552239,
      "grad_norm": 0.0,
      "learning_rate": 4.999933498830942e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1368
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.38888931274414,
      "epoch": 10.291044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.999928663947512e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1369
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.88888931274414,
      "epoch": 10.298507462686567,
      "grad_norm": 18.602299639349784,
      "learning_rate": 4.999923659422331e-07,
      "loss": -0.0004,
      "reward": 1.5,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 1370
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.58333206176758,
      "epoch": 10.305970149253731,
      "grad_norm": 2.3928775702392344,
      "learning_rate": 4.99991848525574e-07,
      "loss": -0.0043,
      "reward": 1.638888955116272,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 1371
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.22222137451172,
      "epoch": 10.313432835820896,
      "grad_norm": 0.0,
      "learning_rate": 4.999913141448092e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1372
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.9444465637207,
      "epoch": 10.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.999907627999746e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1373
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.08333206176758,
      "epoch": 10.328358208955224,
      "grad_norm": 0.0,
      "learning_rate": 4.999901944911078e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 1374
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.83333206176758,
      "epoch": 10.335820895522389,
      "grad_norm": 0.0,
      "learning_rate": 4.999896092182473e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1375
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.22222137451172,
      "epoch": 10.343283582089553,
      "grad_norm": 0.0,
      "learning_rate": 4.999890069814328e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1376
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 46.05555725097656,
      "epoch": 10.350746268656717,
      "grad_norm": 0.0,
      "learning_rate": 4.999883877807053e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1377
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.41666793823242,
      "epoch": 10.35820895522388,
      "grad_norm": 0.0,
      "learning_rate": 4.999877516161067e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1378
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.33333206176758,
      "epoch": 10.365671641791044,
      "grad_norm": 0.0,
      "learning_rate": 4.999870984876801e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1379
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.25,
      "epoch": 10.373134328358208,
      "grad_norm": 7.081166515040135,
      "learning_rate": 4.999864283954701e-07,
      "loss": -0.0134,
      "reward": 1.5833333730697632,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 1380
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.38888931274414,
      "epoch": 10.380597014925373,
      "grad_norm": 4.1137622869650965,
      "learning_rate": 4.999857413395219e-07,
      "loss": -0.0156,
      "reward": 1.5277777910232544,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 1381
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.91666793823242,
      "epoch": 10.388059701492537,
      "grad_norm": 0.0,
      "learning_rate": 4.999850373198822e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1382
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.38888931274414,
      "epoch": 10.395522388059701,
      "grad_norm": 3.3094625105929514,
      "learning_rate": 4.999843163365989e-07,
      "loss": 0.0,
      "reward": 1.638888955116272,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 1383
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 46.08333206176758,
      "epoch": 10.402985074626866,
      "grad_norm": 0.0,
      "learning_rate": 4.999835783897206e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1384
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.63888931274414,
      "epoch": 10.41044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.999828234792978e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1385
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.91666793823242,
      "epoch": 10.417910447761194,
      "grad_norm": 8.466376441280547,
      "learning_rate": 4.999820516053814e-07,
      "loss": -0.0014,
      "reward": 1.5277777910232544,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 1386
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.0,
      "epoch": 10.425373134328359,
      "grad_norm": 11.29301054093919,
      "learning_rate": 4.999812627680239e-07,
      "loss": -0.0131,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 1387
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.05555725097656,
      "epoch": 10.432835820895523,
      "grad_norm": 0.0,
      "learning_rate": 4.999804569672788e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1388
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 46.83333206176758,
      "epoch": 10.440298507462687,
      "grad_norm": 701.970459031226,
      "learning_rate": 4.999796342032009e-07,
      "loss": -0.0072,
      "reward": 1.638888955116272,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 1389
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.80555725097656,
      "epoch": 10.447761194029852,
      "grad_norm": 0.0,
      "learning_rate": 4.999787944758459e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1390
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.55555725097656,
      "epoch": 10.455223880597014,
      "grad_norm": 0.0,
      "learning_rate": 4.999779377852708e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 1391
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.38888931274414,
      "epoch": 10.462686567164178,
      "grad_norm": 21.208604632462478,
      "learning_rate": 4.999770641315337e-07,
      "loss": 0.01,
      "reward": 1.638888955116272,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 1392
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.52777862548828,
      "epoch": 10.470149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.99976173514694e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1393
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.27777862548828,
      "epoch": 10.477611940298507,
      "grad_norm": 0.0,
      "learning_rate": 4.999752659348121e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1394
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.75,
      "epoch": 10.485074626865671,
      "grad_norm": 2.4693752562161886,
      "learning_rate": 4.999743413919495e-07,
      "loss": -0.02,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 1395
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.88888931274414,
      "epoch": 10.492537313432836,
      "grad_norm": 0.0,
      "learning_rate": 4.999733998861691e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1396
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.86111068725586,
      "epoch": 10.5,
      "grad_norm": 2.9244822619678525,
      "learning_rate": 4.999724414175346e-07,
      "loss": -0.0164,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 1397
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.22222137451172,
      "epoch": 10.507462686567164,
      "grad_norm": 2.0444275812374313,
      "learning_rate": 4.999714659861111e-07,
      "loss": 0.0186,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 1398
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.72222137451172,
      "epoch": 10.514925373134329,
      "grad_norm": 0.0,
      "learning_rate": 4.999704735919649e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1399
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.66666793823242,
      "epoch": 10.522388059701493,
      "grad_norm": 0.0,
      "learning_rate": 4.999694642351632e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1400
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.72222137451172,
      "epoch": 10.529850746268657,
      "grad_norm": 0.0,
      "learning_rate": 4.999684379157746e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1401
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.41666793823242,
      "epoch": 10.537313432835822,
      "grad_norm": 0.0,
      "learning_rate": 4.999673946338687e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1402
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.6944465637207,
      "epoch": 10.544776119402986,
      "grad_norm": 1.7943753310470114,
      "learning_rate": 4.999663343895163e-07,
      "loss": -0.0121,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 1403
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.9444465637207,
      "epoch": 10.552238805970148,
      "grad_norm": 0.0,
      "learning_rate": 4.999652571827893e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 1404
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.91666793823242,
      "epoch": 10.559701492537313,
      "grad_norm": 0.0,
      "learning_rate": 4.999641630137609e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1405
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.83333206176758,
      "epoch": 10.567164179104477,
      "grad_norm": 0.0,
      "learning_rate": 4.999630518825052e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1406
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.52777862548828,
      "epoch": 10.574626865671641,
      "grad_norm": 2.344678732221165,
      "learning_rate": 4.999619237890978e-07,
      "loss": 0.0228,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 1407
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.02777862548828,
      "epoch": 10.582089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.999607787336151e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1408
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.02777862548828,
      "epoch": 10.58955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.999596167161348e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1409
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.41666793823242,
      "epoch": 10.597014925373134,
      "grad_norm": 5.210159601714136,
      "learning_rate": 4.999584377367359e-07,
      "loss": -0.0049,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 1410
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.08333206176758,
      "epoch": 10.604477611940299,
      "grad_norm": 0.0,
      "learning_rate": 4.999572417954982e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 1411
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.88888931274414,
      "epoch": 10.611940298507463,
      "grad_norm": 0.0,
      "learning_rate": 4.99956028892503e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1412
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.75,
      "epoch": 10.619402985074627,
      "grad_norm": 0.0,
      "learning_rate": 4.999547990278325e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1413
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.75,
      "epoch": 10.626865671641792,
      "grad_norm": 0.0,
      "learning_rate": 4.999535522015702e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1414
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.77777862548828,
      "epoch": 10.634328358208956,
      "grad_norm": 0.0,
      "learning_rate": 4.999522884138008e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1415
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.77777862548828,
      "epoch": 10.64179104477612,
      "grad_norm": 1.5443145376202296,
      "learning_rate": 4.999510076646099e-07,
      "loss": -0.0076,
      "reward": 1.5,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 1416
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.25,
      "epoch": 10.649253731343283,
      "grad_norm": 2.7994866659442788,
      "learning_rate": 4.999497099540847e-07,
      "loss": -0.0033,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 1417
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.47222137451172,
      "epoch": 10.656716417910447,
      "grad_norm": 8.906936692075345,
      "learning_rate": 4.999483952823129e-07,
      "loss": -0.0055,
      "reward": 1.6944444179534912,
      "reward_std": 0.18385560810565948,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 1418
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.66666793823242,
      "epoch": 10.664179104477611,
      "grad_norm": 0.0,
      "learning_rate": 4.999470636493839e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1419
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.1944465637207,
      "epoch": 10.671641791044776,
      "grad_norm": 0.0,
      "learning_rate": 4.99945715055388e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1420
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.36111068725586,
      "epoch": 10.67910447761194,
      "grad_norm": 13.23888436934228,
      "learning_rate": 4.999443495004167e-07,
      "loss": -0.0023,
      "reward": 1.6111111640930176,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 1421
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.66666793823242,
      "epoch": 10.686567164179104,
      "grad_norm": 2.538259100889344,
      "learning_rate": 4.999429669845628e-07,
      "loss": -0.0212,
      "reward": 1.6944444179534912,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 1422
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.16666793823242,
      "epoch": 10.694029850746269,
      "grad_norm": 0.0,
      "learning_rate": 4.999415675079199e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1423
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.41666793823242,
      "epoch": 10.701492537313433,
      "grad_norm": 0.0,
      "learning_rate": 4.999401510705833e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1424
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.25,
      "epoch": 10.708955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.999387176726487e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1425
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.22222137451172,
      "epoch": 10.716417910447761,
      "grad_norm": 0.0,
      "learning_rate": 4.999372673142137e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1426
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.55555725097656,
      "epoch": 10.723880597014926,
      "grad_norm": 0.0,
      "learning_rate": 4.999357999953766e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 1427
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.02777862548828,
      "epoch": 10.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.999343157162369e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1428
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.41666793823242,
      "epoch": 10.738805970149254,
      "grad_norm": 0.0,
      "learning_rate": 4.999328144768954e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1429
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.27777862548828,
      "epoch": 10.746268656716419,
      "grad_norm": 5.6260352339052755,
      "learning_rate": 4.99931296277454e-07,
      "loss": 0.0065,
      "reward": 1.5,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 1430
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.36111068725586,
      "epoch": 10.753731343283581,
      "grad_norm": 0.0,
      "learning_rate": 4.999297611180157e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1431
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.9444465637207,
      "epoch": 10.761194029850746,
      "grad_norm": 0.0,
      "learning_rate": 4.999282089986845e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 1432
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.47222137451172,
      "epoch": 10.76865671641791,
      "grad_norm": 6.697045812366009,
      "learning_rate": 4.99926639919566e-07,
      "loss": -0.0035,
      "reward": 1.9444444179534912,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.944444477558136,
      "rewards/format_reward": 1.0,
      "step": 1433
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.41666793823242,
      "epoch": 10.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 4.999250538807666e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1434
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.36111068725586,
      "epoch": 10.783582089552239,
      "grad_norm": 1.9488295879830528,
      "learning_rate": 4.999234508823937e-07,
      "loss": 0.0284,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 1435
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.0,
      "epoch": 10.791044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.999218309245564e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1436
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.47222137451172,
      "epoch": 10.798507462686567,
      "grad_norm": 0.0,
      "learning_rate": 4.999201940073645e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1437
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.38888931274414,
      "epoch": 10.805970149253731,
      "grad_norm": 1.5670413359463984,
      "learning_rate": 4.99918540130929e-07,
      "loss": -0.0092,
      "reward": 1.638888955116272,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 1438
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.61111068725586,
      "epoch": 10.813432835820896,
      "grad_norm": 4.800882702846553,
      "learning_rate": 4.999168692953623e-07,
      "loss": 0.0236,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 1439
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.97222137451172,
      "epoch": 10.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.999151815007776e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1440
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.05555725097656,
      "epoch": 10.828358208955224,
      "grad_norm": 3.304017691031823,
      "learning_rate": 4.999134767472896e-07,
      "loss": -0.012,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 1441
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.80555725097656,
      "epoch": 10.835820895522389,
      "grad_norm": 0.0,
      "learning_rate": 4.999117550350137e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1442
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.33333587646484,
      "epoch": 10.843283582089553,
      "grad_norm": 6.517739008219503,
      "learning_rate": 4.999100163640671e-07,
      "loss": 0.0018,
      "reward": 1.638888955116272,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 1443
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.83333206176758,
      "epoch": 10.850746268656717,
      "grad_norm": 13.974731552168649,
      "learning_rate": 4.999082607345676e-07,
      "loss": 0.0036,
      "reward": 1.6944444179534912,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 1444
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.05555725097656,
      "epoch": 10.85820895522388,
      "grad_norm": 0.0,
      "learning_rate": 4.999064881466342e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1445
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.63888931274414,
      "epoch": 10.865671641791044,
      "grad_norm": 0.0,
      "learning_rate": 4.999046986003874e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1446
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.25,
      "epoch": 10.873134328358208,
      "grad_norm": 0.0,
      "learning_rate": 4.999028920959486e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1447
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.66666793823242,
      "epoch": 10.880597014925373,
      "grad_norm": 0.0,
      "learning_rate": 4.999010686334404e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1448
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.75,
      "epoch": 10.888059701492537,
      "grad_norm": 0.0,
      "learning_rate": 4.998992282129864e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1449
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.72222137451172,
      "epoch": 10.895522388059701,
      "grad_norm": 3.5624208764569207,
      "learning_rate": 4.998973708347115e-07,
      "loss": -0.001,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 1450
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.66666793823242,
      "epoch": 10.902985074626866,
      "grad_norm": 0.0,
      "learning_rate": 4.998954964987419e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1451
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.0,
      "epoch": 10.91044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.998936052052048e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1452
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.52777862548828,
      "epoch": 10.917910447761194,
      "grad_norm": 17.490284441978176,
      "learning_rate": 4.998916969542284e-07,
      "loss": 0.0131,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 1453
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.9444465637207,
      "epoch": 10.925373134328359,
      "grad_norm": 3.0491214530849486,
      "learning_rate": 4.998897717459421e-07,
      "loss": 0.0,
      "reward": 1.9166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 1454
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.41666793823242,
      "epoch": 10.932835820895523,
      "grad_norm": 0.0,
      "learning_rate": 4.998878295804768e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1455
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.75,
      "epoch": 10.940298507462687,
      "grad_norm": 0.0,
      "learning_rate": 4.998858704579642e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1456
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.38888931274414,
      "epoch": 10.947761194029852,
      "grad_norm": 0.0,
      "learning_rate": 4.998838943785372e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1457
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.80555725097656,
      "epoch": 10.955223880597014,
      "grad_norm": 92.40539765061467,
      "learning_rate": 4.998819013423298e-07,
      "loss": 0.0004,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 1458
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.80555725097656,
      "epoch": 10.962686567164178,
      "grad_norm": 1.4800950799862034,
      "learning_rate": 4.998798913494775e-07,
      "loss": 0.0041,
      "reward": 1.6944444179534912,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 1459
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.22222137451172,
      "epoch": 10.970149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.998778644001165e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1460
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.30555725097656,
      "epoch": 10.977611940298507,
      "grad_norm": 0.0,
      "learning_rate": 4.998758204943844e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1461
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.30555725097656,
      "epoch": 10.985074626865671,
      "grad_norm": 26.542357766988065,
      "learning_rate": 4.998737596324199e-07,
      "loss": 0.0294,
      "reward": 1.7777777910232544,
      "reward_std": 0.12830005586147308,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1462
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.75,
      "epoch": 10.992537313432836,
      "grad_norm": 2.7527114030289757,
      "learning_rate": 4.998716818143627e-07,
      "loss": -0.0037,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 1463
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.5,
      "epoch": 11.007462686567164,
      "grad_norm": 4.229092377537747,
      "learning_rate": 4.998695870403541e-07,
      "loss": 0.0041,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 1464
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.22222137451172,
      "epoch": 11.014925373134329,
      "grad_norm": 7.184122858530781,
      "learning_rate": 4.99867475310536e-07,
      "loss": 0.0124,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 1465
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.33333206176758,
      "epoch": 11.022388059701493,
      "grad_norm": 0.0,
      "learning_rate": 4.998653466250519e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1466
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.66666793823242,
      "epoch": 11.029850746268657,
      "grad_norm": 0.0,
      "learning_rate": 4.99863200984046e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1467
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.52777862548828,
      "epoch": 11.037313432835822,
      "grad_norm": 12.239381179478002,
      "learning_rate": 4.998610383876641e-07,
      "loss": 0.0192,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 1468
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.58333206176758,
      "epoch": 11.044776119402986,
      "grad_norm": 0.0,
      "learning_rate": 4.998588588360529e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 1469
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.9444465637207,
      "epoch": 11.052238805970148,
      "grad_norm": 1.2379341888792033,
      "learning_rate": 4.998566623293603e-07,
      "loss": 0.0064,
      "reward": 1.6944444179534912,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 1470
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.22222137451172,
      "epoch": 11.059701492537313,
      "grad_norm": 0.0,
      "learning_rate": 4.998544488677353e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1471
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.0,
      "epoch": 11.067164179104477,
      "grad_norm": 0.0,
      "learning_rate": 4.998522184513281e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1472
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.25,
      "epoch": 11.074626865671641,
      "grad_norm": 0.0,
      "learning_rate": 4.998499710802901e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1473
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.75,
      "epoch": 11.082089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.998477067547739e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1474
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.16666793823242,
      "epoch": 11.08955223880597,
      "grad_norm": 12.235599312811406,
      "learning_rate": 4.998454254749331e-07,
      "loss": 0.0193,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 1475
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.66666793823242,
      "epoch": 11.097014925373134,
      "grad_norm": 0.0,
      "learning_rate": 4.998431272409222e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1476
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.13888931274414,
      "epoch": 11.104477611940299,
      "grad_norm": 2.7970472088813843,
      "learning_rate": 4.998408120528976e-07,
      "loss": 0.0236,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 1477
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.0,
      "epoch": 11.111940298507463,
      "grad_norm": 1.5423249229670248,
      "learning_rate": 4.998384799110162e-07,
      "loss": -0.0059,
      "reward": 1.5833333730697632,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 1478
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.9444465637207,
      "epoch": 11.119402985074627,
      "grad_norm": 0.0,
      "learning_rate": 4.998361308154363e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1479
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.86111068725586,
      "epoch": 11.126865671641792,
      "grad_norm": 33.02744494161516,
      "learning_rate": 4.998337647663172e-07,
      "loss": 0.0203,
      "reward": 1.8333333730697632,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 1480
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.77777862548828,
      "epoch": 11.134328358208956,
      "grad_norm": 0.0,
      "learning_rate": 4.998313817638197e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1481
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.88888931274414,
      "epoch": 11.14179104477612,
      "grad_norm": 2.330067726647959,
      "learning_rate": 4.998289818081052e-07,
      "loss": 0.0019,
      "reward": 1.6111111640930176,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 1482
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.25,
      "epoch": 11.149253731343283,
      "grad_norm": 2.191906113032869,
      "learning_rate": 4.998265648993367e-07,
      "loss": -0.0045,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 1483
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.80555725097656,
      "epoch": 11.156716417910447,
      "grad_norm": 7.374580481704409,
      "learning_rate": 4.998241310376782e-07,
      "loss": -0.017,
      "reward": 1.6666666269302368,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1484
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.33333206176758,
      "epoch": 11.164179104477611,
      "grad_norm": 0.0,
      "learning_rate": 4.998216802232949e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1485
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.08333206176758,
      "epoch": 11.171641791044776,
      "grad_norm": 0.0,
      "learning_rate": 4.998192124563531e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1486
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.25,
      "epoch": 11.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.998167277370202e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1487
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.72222137451172,
      "epoch": 11.186567164179104,
      "grad_norm": 8.870002953526779,
      "learning_rate": 4.998142260654649e-07,
      "loss": -0.0101,
      "reward": 1.638888955116272,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 1488
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.41666793823242,
      "epoch": 11.194029850746269,
      "grad_norm": 0.0,
      "learning_rate": 4.998117074418568e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1489
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.61111068725586,
      "epoch": 11.201492537313433,
      "grad_norm": 0.0,
      "learning_rate": 4.998091718663671e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1490
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.30555725097656,
      "epoch": 11.208955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.998066193391675e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1491
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.4444465637207,
      "epoch": 11.216417910447761,
      "grad_norm": 113.2941459097584,
      "learning_rate": 4.998040498604315e-07,
      "loss": 0.0138,
      "reward": 1.5833333730697632,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 1492
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.4444465637207,
      "epoch": 11.223880597014926,
      "grad_norm": 0.0,
      "learning_rate": 4.998014634303333e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1493
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.83333206176758,
      "epoch": 11.23134328358209,
      "grad_norm": 50.16307989799386,
      "learning_rate": 4.997988600490485e-07,
      "loss": -0.0,
      "reward": 1.8055555820465088,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 1494
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.27777862548828,
      "epoch": 11.238805970149254,
      "grad_norm": 0.0,
      "learning_rate": 4.997962397167536e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1495
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.66666793823242,
      "epoch": 11.246268656716419,
      "grad_norm": 0.0,
      "learning_rate": 4.997936024336267e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1496
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.16666793823242,
      "epoch": 11.253731343283581,
      "grad_norm": 0.0,
      "learning_rate": 4.997909481998465e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1497
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.88888931274414,
      "epoch": 11.261194029850746,
      "grad_norm": 0.0,
      "learning_rate": 4.997882770155932e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1498
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.58333206176758,
      "epoch": 11.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.997855888810482e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1499
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.47222137451172,
      "epoch": 11.276119402985074,
      "grad_norm": 0.0,
      "learning_rate": 4.997828837963936e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1500
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.75,
      "epoch": 11.283582089552239,
      "grad_norm": 0.0,
      "learning_rate": 4.997801617618133e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1501
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.47222137451172,
      "epoch": 11.291044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.997774227774918e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1502
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.83333206176758,
      "epoch": 11.298507462686567,
      "grad_norm": 0.0,
      "learning_rate": 4.99774666843615e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1503
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.30555725097656,
      "epoch": 11.305970149253731,
      "grad_norm": 0.0,
      "learning_rate": 4.9977189396037e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1504
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.4444465637207,
      "epoch": 11.313432835820896,
      "grad_norm": 4.470673331838134,
      "learning_rate": 4.99769104127945e-07,
      "loss": -0.0051,
      "reward": 1.5277777910232544,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 1505
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.66666793823242,
      "epoch": 11.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.99766297346529e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1506
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.08333206176758,
      "epoch": 11.328358208955224,
      "grad_norm": 0.0,
      "learning_rate": 4.997634736163127e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1507
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.30555725097656,
      "epoch": 11.335820895522389,
      "grad_norm": 0.0,
      "learning_rate": 4.997606329374879e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1508
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.02777862548828,
      "epoch": 11.343283582089553,
      "grad_norm": 0.0,
      "learning_rate": 4.99757775310247e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1509
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.80555725097656,
      "epoch": 11.350746268656717,
      "grad_norm": 28.5271269608069,
      "learning_rate": 4.997549007347842e-07,
      "loss": 0.0297,
      "reward": 1.638888955116272,
      "reward_std": 0.18385560810565948,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 1510
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.5,
      "epoch": 11.35820895522388,
      "grad_norm": 3.5493636684215426,
      "learning_rate": 4.997520092112943e-07,
      "loss": -0.0084,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 1511
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.5,
      "epoch": 11.365671641791044,
      "grad_norm": 0.0,
      "learning_rate": 4.997491007399738e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1512
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.97222137451172,
      "epoch": 11.373134328358208,
      "grad_norm": 0.0,
      "learning_rate": 4.997461753210198e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1513
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.4444465637207,
      "epoch": 11.380597014925373,
      "grad_norm": 0.0,
      "learning_rate": 4.997432329546311e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1514
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.66666793823242,
      "epoch": 11.388059701492537,
      "grad_norm": 6.870392100505343,
      "learning_rate": 4.99740273641007e-07,
      "loss": -0.0254,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 1515
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.86111068725586,
      "epoch": 11.395522388059701,
      "grad_norm": 0.0,
      "learning_rate": 4.997372973803486e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1516
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.30555725097656,
      "epoch": 11.402985074626866,
      "grad_norm": 0.0,
      "learning_rate": 4.997343041728579e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1517
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.72222137451172,
      "epoch": 11.41044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.997312940187377e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1518
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.22222137451172,
      "epoch": 11.417910447761194,
      "grad_norm": 19.370159442934547,
      "learning_rate": 4.997282669181926e-07,
      "loss": -0.0314,
      "reward": 1.7222222089767456,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 1519
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.83333206176758,
      "epoch": 11.425373134328359,
      "grad_norm": 0.0,
      "learning_rate": 4.997252228714278e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1520
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.36111068725586,
      "epoch": 11.432835820895523,
      "grad_norm": 0.0,
      "learning_rate": 4.9972216187865e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1521
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.91666793823242,
      "epoch": 11.440298507462687,
      "grad_norm": 0.0,
      "learning_rate": 4.997190839400669e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1522
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.33333206176758,
      "epoch": 11.447761194029852,
      "grad_norm": 5.27150956553351,
      "learning_rate": 4.997159890558872e-07,
      "loss": 0.0092,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 1523
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.0,
      "epoch": 11.455223880597014,
      "grad_norm": 0.0,
      "learning_rate": 4.99712877226321e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1524
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.55555725097656,
      "epoch": 11.462686567164178,
      "grad_norm": 2.465639739530157,
      "learning_rate": 4.997097484515797e-07,
      "loss": 0.0213,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 1525
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.88888931274414,
      "epoch": 11.470149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.997066027318753e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1526
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.22222137451172,
      "epoch": 11.477611940298507,
      "grad_norm": 0.0,
      "learning_rate": 4.997034400674213e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1527
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.05555725097656,
      "epoch": 11.485074626865671,
      "grad_norm": 0.0,
      "learning_rate": 4.997002604584326e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1528
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.91666793823242,
      "epoch": 11.492537313432836,
      "grad_norm": 0.0,
      "learning_rate": 4.996970639051246e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1529
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.66666793823242,
      "epoch": 11.5,
      "grad_norm": 0.0,
      "learning_rate": 4.996938504077144e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1530
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.0,
      "epoch": 11.507462686567164,
      "grad_norm": 27.11825434207749,
      "learning_rate": 4.9969061996642e-07,
      "loss": -0.0065,
      "reward": 1.638888955116272,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 1531
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.22222137451172,
      "epoch": 11.514925373134329,
      "grad_norm": 0.0,
      "learning_rate": 4.996873725814608e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1532
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.27777862548828,
      "epoch": 11.522388059701493,
      "grad_norm": 0.0,
      "learning_rate": 4.996841082530568e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1533
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.55555725097656,
      "epoch": 11.529850746268657,
      "grad_norm": 0.0,
      "learning_rate": 4.996808269814298e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1534
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.11111068725586,
      "epoch": 11.537313432835822,
      "grad_norm": 3.8232263530190256,
      "learning_rate": 4.996775287668025e-07,
      "loss": 0.0107,
      "reward": 1.8611111640930176,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 1535
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.33333206176758,
      "epoch": 11.544776119402986,
      "grad_norm": 3.112641644254145,
      "learning_rate": 4.996742136093985e-07,
      "loss": 0.0228,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 1536
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.27777862548828,
      "epoch": 11.552238805970148,
      "grad_norm": 0.0,
      "learning_rate": 4.996708815094429e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1537
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.72222137451172,
      "epoch": 11.559701492537313,
      "grad_norm": 0.0,
      "learning_rate": 4.996675324671617e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1538
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.47222137451172,
      "epoch": 11.567164179104477,
      "grad_norm": 0.0,
      "learning_rate": 4.996641664827823e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1539
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.5,
      "epoch": 11.574626865671641,
      "grad_norm": 2.296451237592676,
      "learning_rate": 4.99660783556533e-07,
      "loss": -0.0103,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 1540
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.97222137451172,
      "epoch": 11.582089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.996573836886434e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1541
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.38888931274414,
      "epoch": 11.58955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.996539668793443e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1542
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.77777862548828,
      "epoch": 11.597014925373134,
      "grad_norm": 1.6902663617310294,
      "learning_rate": 4.996505331288674e-07,
      "loss": -0.0265,
      "reward": 1.6944444179534912,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 1543
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.30555725097656,
      "epoch": 11.604477611940299,
      "grad_norm": 0.0,
      "learning_rate": 4.996470824374458e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1544
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.55555725097656,
      "epoch": 11.611940298507463,
      "grad_norm": 0.0,
      "learning_rate": 4.996436148053137e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1545
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.72222137451172,
      "epoch": 11.619402985074627,
      "grad_norm": 0.0,
      "learning_rate": 4.996401302327062e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1546
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.86111068725586,
      "epoch": 11.626865671641792,
      "grad_norm": 19.944712278133597,
      "learning_rate": 4.996366287198601e-07,
      "loss": -0.0047,
      "reward": 1.9444444179534912,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.944444477558136,
      "rewards/format_reward": 1.0,
      "step": 1547
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.9444465637207,
      "epoch": 11.634328358208956,
      "grad_norm": 5.279079448895401,
      "learning_rate": 4.996331102670127e-07,
      "loss": -0.0054,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 1548
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.58333206176758,
      "epoch": 11.64179104477612,
      "grad_norm": 19.21096958551326,
      "learning_rate": 4.99629574874403e-07,
      "loss": -0.0139,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 1549
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.41666793823242,
      "epoch": 11.649253731343283,
      "grad_norm": 1.7418714866618086,
      "learning_rate": 4.996260225422707e-07,
      "loss": 0.024,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 1550
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.88888931274414,
      "epoch": 11.656716417910447,
      "grad_norm": 1.839690929055724,
      "learning_rate": 4.99622453270857e-07,
      "loss": -0.0008,
      "reward": 1.9166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 1551
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.30555725097656,
      "epoch": 11.664179104477611,
      "grad_norm": 0.0,
      "learning_rate": 4.996188670604039e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1552
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.25,
      "epoch": 11.671641791044776,
      "grad_norm": 4.9771269650834435,
      "learning_rate": 4.996152639111551e-07,
      "loss": 0.0074,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 1553
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.47222137451172,
      "epoch": 11.67910447761194,
      "grad_norm": 9.258289000305242,
      "learning_rate": 4.996116438233547e-07,
      "loss": 0.0198,
      "reward": 1.6944444179534912,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 1554
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.02777862548828,
      "epoch": 11.686567164179104,
      "grad_norm": 2.2103161260207513,
      "learning_rate": 4.996080067972487e-07,
      "loss": 0.011,
      "reward": 1.5833333730697632,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 1555
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.02777862548828,
      "epoch": 11.694029850746269,
      "grad_norm": 4.383057662158973,
      "learning_rate": 4.996043528330838e-07,
      "loss": -0.0167,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 1556
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.52777862548828,
      "epoch": 11.701492537313433,
      "grad_norm": 2.865398139500389,
      "learning_rate": 4.996006819311078e-07,
      "loss": -0.0095,
      "reward": 1.6111111640930176,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 1557
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.36111068725586,
      "epoch": 11.708955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.995969940915699e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1558
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.55555725097656,
      "epoch": 11.716417910447761,
      "grad_norm": 26.107809526784383,
      "learning_rate": 4.995932893147206e-07,
      "loss": 0.0049,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 1559
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.61111068725586,
      "epoch": 11.723880597014926,
      "grad_norm": 0.0,
      "learning_rate": 4.995895676008109e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1560
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.47222137451172,
      "epoch": 11.73134328358209,
      "grad_norm": 2.1378637787573465,
      "learning_rate": 4.995858289500935e-07,
      "loss": -0.0117,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 1561
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.02777862548828,
      "epoch": 11.738805970149254,
      "grad_norm": 6.4731055362498955,
      "learning_rate": 4.995820733628221e-07,
      "loss": -0.0076,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 1562
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.75,
      "epoch": 11.746268656716419,
      "grad_norm": 2.0402700801171427,
      "learning_rate": 4.995783008392517e-07,
      "loss": 0.0007,
      "reward": 1.6944444179534912,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 1563
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.75,
      "epoch": 11.753731343283581,
      "grad_norm": 1.6864466488787313,
      "learning_rate": 4.995745113796381e-07,
      "loss": -0.0164,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 1564
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.22222137451172,
      "epoch": 11.761194029850746,
      "grad_norm": 0.0,
      "learning_rate": 4.995707049842385e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1565
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.30555725097656,
      "epoch": 11.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.995668816533112e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1566
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.13888931274414,
      "epoch": 11.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 4.995630413871158e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1567
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.13888931274414,
      "epoch": 11.783582089552239,
      "grad_norm": 22.709756884804612,
      "learning_rate": 4.995591841859126e-07,
      "loss": 0.0022,
      "reward": 1.6111111640930176,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 1568
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.86111068725586,
      "epoch": 11.791044776119403,
      "grad_norm": 10.182291050731333,
      "learning_rate": 4.995553100499636e-07,
      "loss": -0.0365,
      "reward": 1.6944444179534912,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 1569
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.63888931274414,
      "epoch": 11.798507462686567,
      "grad_norm": 0.0,
      "learning_rate": 4.995514189795316e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1570
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.86111068725586,
      "epoch": 11.805970149253731,
      "grad_norm": 16.6039132383738,
      "learning_rate": 4.995475109748805e-07,
      "loss": -0.0046,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 1571
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.52777862548828,
      "epoch": 11.813432835820896,
      "grad_norm": 2.428686902785685,
      "learning_rate": 4.995435860362757e-07,
      "loss": 0.0277,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 1572
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.08333206176758,
      "epoch": 11.82089552238806,
      "grad_norm": 2.3118894684322933,
      "learning_rate": 4.995396441639835e-07,
      "loss": 0.0014,
      "reward": 1.9444444179534912,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.944444477558136,
      "rewards/format_reward": 1.0,
      "step": 1573
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.55555725097656,
      "epoch": 11.828358208955224,
      "grad_norm": 0.0,
      "learning_rate": 4.995356853582714e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1574
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.41666793823242,
      "epoch": 11.835820895522389,
      "grad_norm": 6.049116841246217,
      "learning_rate": 4.99531709619408e-07,
      "loss": -0.0231,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 1575
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.77777862548828,
      "epoch": 11.843283582089553,
      "grad_norm": 0.0,
      "learning_rate": 4.995277169476629e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1576
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.27777862548828,
      "epoch": 11.850746268656717,
      "grad_norm": 0.0,
      "learning_rate": 4.995237073433074e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1577
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.41666793823242,
      "epoch": 11.85820895522388,
      "grad_norm": 4.226449583672355,
      "learning_rate": 4.995196808066133e-07,
      "loss": -0.0061,
      "reward": 1.8333333730697632,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 1578
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.66666793823242,
      "epoch": 11.865671641791044,
      "grad_norm": 0.0,
      "learning_rate": 4.995156373378541e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1579
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.25,
      "epoch": 11.873134328358208,
      "grad_norm": 0.0,
      "learning_rate": 4.995115769373039e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 1580
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.9444465637207,
      "epoch": 11.880597014925373,
      "grad_norm": 14.136609307777523,
      "learning_rate": 4.995074996052384e-07,
      "loss": 0.0159,
      "reward": 1.6111111640930176,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 1581
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.8888931274414,
      "epoch": 11.888059701492537,
      "grad_norm": 0.0,
      "learning_rate": 4.995034053419344e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1582
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.02777862548828,
      "epoch": 11.895522388059701,
      "grad_norm": 55.256283790935036,
      "learning_rate": 4.994992941476693e-07,
      "loss": 0.0145,
      "reward": 1.7777777910232544,
      "reward_std": 0.12830005586147308,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1583
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.75,
      "epoch": 11.902985074626866,
      "grad_norm": 2.159307639530266,
      "learning_rate": 4.994951660227226e-07,
      "loss": -0.0066,
      "reward": 1.6944444179534912,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 1584
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.38888931274414,
      "epoch": 11.91044776119403,
      "grad_norm": 1.7925117979217966,
      "learning_rate": 4.994910209673741e-07,
      "loss": -0.01,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 1585
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.86111450195312,
      "epoch": 11.917910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.994868589819052e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1586
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.36111068725586,
      "epoch": 11.925373134328359,
      "grad_norm": 0.0,
      "learning_rate": 4.994826800665981e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1587
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.72222137451172,
      "epoch": 11.932835820895523,
      "grad_norm": 1.808460011350598,
      "learning_rate": 4.994784842217367e-07,
      "loss": 0.0163,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 1588
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.13888931274414,
      "epoch": 11.940298507462687,
      "grad_norm": 0.0,
      "learning_rate": 4.994742714476057e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1589
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.94444274902344,
      "epoch": 11.947761194029852,
      "grad_norm": 0.0,
      "learning_rate": 4.994700417444907e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1590
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.08333206176758,
      "epoch": 11.955223880597014,
      "grad_norm": 0.0,
      "learning_rate": 4.994657951126789e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1591
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.41666793823242,
      "epoch": 11.962686567164178,
      "grad_norm": 0.0,
      "learning_rate": 4.994615315524585e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1592
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.80555725097656,
      "epoch": 11.970149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.994572510641188e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1593
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.22222137451172,
      "epoch": 11.977611940298507,
      "grad_norm": 0.0,
      "learning_rate": 4.994529536479502e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1594
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.4444465637207,
      "epoch": 11.985074626865671,
      "grad_norm": 3.492437998156642,
      "learning_rate": 4.994486393042444e-07,
      "loss": 0.0187,
      "reward": 1.888888955116272,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1595
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.833335876464844,
      "epoch": 11.992537313432836,
      "grad_norm": 0.0,
      "learning_rate": 4.99444308033294e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1596
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.16666793823242,
      "epoch": 12.007462686567164,
      "grad_norm": 11.31997256784102,
      "learning_rate": 4.994399598353933e-07,
      "loss": -0.0198,
      "reward": 1.6944444179534912,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 1597
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.72222137451172,
      "epoch": 12.014925373134329,
      "grad_norm": 0.0,
      "learning_rate": 4.994355947108368e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1598
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.86111068725586,
      "epoch": 12.022388059701493,
      "grad_norm": 0.0,
      "learning_rate": 4.994312126599213e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 1599
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.05555725097656,
      "epoch": 12.029850746268657,
      "grad_norm": 2.97425456493779,
      "learning_rate": 4.994268136829437e-07,
      "loss": -0.0233,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 1600
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.16666793823242,
      "epoch": 12.037313432835822,
      "grad_norm": 0.0,
      "learning_rate": 4.994223977802027e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1601
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.30555725097656,
      "epoch": 12.044776119402986,
      "grad_norm": 0.0,
      "learning_rate": 4.99417964951998e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1602
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.25,
      "epoch": 12.052238805970148,
      "grad_norm": 0.0,
      "learning_rate": 4.994135151986303e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1603
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.61111068725586,
      "epoch": 12.059701492537313,
      "grad_norm": 6.0250121339730045,
      "learning_rate": 4.994090485204015e-07,
      "loss": -0.0389,
      "reward": 1.5,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 1.0,
      "step": 1604
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.30555725097656,
      "epoch": 12.067164179104477,
      "grad_norm": 0.0,
      "learning_rate": 4.99404564917615e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1605
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.58333206176758,
      "epoch": 12.074626865671641,
      "grad_norm": 2.0541219535685724,
      "learning_rate": 4.994000643905747e-07,
      "loss": -0.0147,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 1606
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.36111068725586,
      "epoch": 12.082089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.993955469395862e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1607
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.4444465637207,
      "epoch": 12.08955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.99391012564956e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1608
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.25,
      "epoch": 12.097014925373134,
      "grad_norm": 0.0,
      "learning_rate": 4.993864612669918e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1609
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.02777862548828,
      "epoch": 12.104477611940299,
      "grad_norm": 0.0,
      "learning_rate": 4.993818930460026e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1610
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.22222137451172,
      "epoch": 12.111940298507463,
      "grad_norm": 1.8213058708692496,
      "learning_rate": 4.99377307902298e-07,
      "loss": -0.0094,
      "reward": 1.6111111640930176,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 1611
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.47222137451172,
      "epoch": 12.119402985074627,
      "grad_norm": 0.0,
      "learning_rate": 4.993727058361895e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1612
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.33333206176758,
      "epoch": 12.126865671641792,
      "grad_norm": 0.0,
      "learning_rate": 4.993680868479892e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1613
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.02777862548828,
      "epoch": 12.134328358208956,
      "grad_norm": 0.0,
      "learning_rate": 4.993634509380107e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1614
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.97222137451172,
      "epoch": 12.14179104477612,
      "grad_norm": 0.0,
      "learning_rate": 4.993587981065684e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1615
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.47222137451172,
      "epoch": 12.149253731343283,
      "grad_norm": 1.5936861459790028,
      "learning_rate": 4.993541283539781e-07,
      "loss": 0.0071,
      "reward": 1.9444444179534912,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.944444477558136,
      "rewards/format_reward": 1.0,
      "step": 1616
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.75,
      "epoch": 12.156716417910447,
      "grad_norm": 0.0,
      "learning_rate": 4.993494416805568e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1617
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.0,
      "epoch": 12.164179104477611,
      "grad_norm": 2.9044257042075903,
      "learning_rate": 4.993447380866224e-07,
      "loss": 0.0141,
      "reward": 1.5277777910232544,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 1618
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.4444465637207,
      "epoch": 12.171641791044776,
      "grad_norm": 0.0,
      "learning_rate": 4.993400175724941e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1619
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.5,
      "epoch": 12.17910447761194,
      "grad_norm": 1.4807169736904018,
      "learning_rate": 4.993352801384923e-07,
      "loss": 0.0162,
      "reward": 1.5277777910232544,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 1620
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.9444465637207,
      "epoch": 12.186567164179104,
      "grad_norm": 0.0,
      "learning_rate": 4.993305257849383e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1621
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.27777862548828,
      "epoch": 12.194029850746269,
      "grad_norm": 2.8521176625970632,
      "learning_rate": 4.99325754512155e-07,
      "loss": 0.0066,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 1622
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.97222137451172,
      "epoch": 12.201492537313433,
      "grad_norm": 0.0,
      "learning_rate": 4.993209663204661e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1623
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.66666793823242,
      "epoch": 12.208955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.993161612101963e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1624
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.08333206176758,
      "epoch": 12.216417910447761,
      "grad_norm": 0.0,
      "learning_rate": 4.993113391816718e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1625
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.33333206176758,
      "epoch": 12.223880597014926,
      "grad_norm": 1.9115679865066864,
      "learning_rate": 4.993065002352198e-07,
      "loss": -0.0089,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 1626
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.02777862548828,
      "epoch": 12.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.993016443711687e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1627
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.80555725097656,
      "epoch": 12.238805970149254,
      "grad_norm": 0.0,
      "learning_rate": 4.992967715898481e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1628
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.80555725097656,
      "epoch": 12.246268656716419,
      "grad_norm": 20.002114900951753,
      "learning_rate": 4.992918818915885e-07,
      "loss": 0.0062,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 1629
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.36111068725586,
      "epoch": 12.253731343283581,
      "grad_norm": 0.0,
      "learning_rate": 4.992869752767218e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1630
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.33333206176758,
      "epoch": 12.261194029850746,
      "grad_norm": 0.0,
      "learning_rate": 4.992820517455809e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1631
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.88888931274414,
      "epoch": 12.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.992771112984998e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1632
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.27777862548828,
      "epoch": 12.276119402985074,
      "grad_norm": 0.0,
      "learning_rate": 4.992721539358141e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1633
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.0,
      "epoch": 12.283582089552239,
      "grad_norm": 9.409726412413212,
      "learning_rate": 4.992671796578599e-07,
      "loss": -0.0322,
      "reward": 1.7777777910232544,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1634
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.58333206176758,
      "epoch": 12.291044776119403,
      "grad_norm": 2.984955170571043,
      "learning_rate": 4.992621884649748e-07,
      "loss": 0.0067,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 1635
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.63888931274414,
      "epoch": 12.298507462686567,
      "grad_norm": 0.0,
      "learning_rate": 4.992571803574975e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1636
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.02777862548828,
      "epoch": 12.305970149253731,
      "grad_norm": 0.0,
      "learning_rate": 4.992521553357679e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1637
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.27777862548828,
      "epoch": 12.313432835820896,
      "grad_norm": 0.0,
      "learning_rate": 4.992471134001271e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 1638
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.66666793823242,
      "epoch": 12.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.992420545509169e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1639
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.0,
      "epoch": 12.328358208955224,
      "grad_norm": 0.0,
      "learning_rate": 4.992369787884809e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1640
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.08333206176758,
      "epoch": 12.335820895522389,
      "grad_norm": 5.336363974707709,
      "learning_rate": 4.992318861131634e-07,
      "loss": -0.0043,
      "reward": 1.6944444179534912,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 1641
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.9444465637207,
      "epoch": 12.343283582089553,
      "grad_norm": 0.0,
      "learning_rate": 4.992267765253099e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1642
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.91666412353516,
      "epoch": 12.350746268656717,
      "grad_norm": 0.0,
      "learning_rate": 4.992216500252673e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1643
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.55555725097656,
      "epoch": 12.35820895522388,
      "grad_norm": 0.0,
      "learning_rate": 4.992165066133834e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1644
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.72222137451172,
      "epoch": 12.365671641791044,
      "grad_norm": 0.0,
      "learning_rate": 4.992113462900072e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1645
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.63888931274414,
      "epoch": 12.373134328358208,
      "grad_norm": 0.0,
      "learning_rate": 4.992061690554891e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1646
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.72222137451172,
      "epoch": 12.380597014925373,
      "grad_norm": 77.55822164870273,
      "learning_rate": 4.992009749101801e-07,
      "loss": 0.0114,
      "reward": 1.9444444179534912,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.944444477558136,
      "rewards/format_reward": 1.0,
      "step": 1647
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.52777862548828,
      "epoch": 12.388059701492537,
      "grad_norm": 0.0,
      "learning_rate": 4.991957638544327e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1648
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.58333206176758,
      "epoch": 12.395522388059701,
      "grad_norm": 0.0,
      "learning_rate": 4.991905358886008e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1649
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.5,
      "epoch": 12.402985074626866,
      "grad_norm": 0.0,
      "learning_rate": 4.991852910130387e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1650
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.6388931274414,
      "epoch": 12.41044776119403,
      "grad_norm": 2.3130211859136205,
      "learning_rate": 4.991800292281028e-07,
      "loss": -0.0143,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 0.9722222089767456,
      "step": 1651
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.41666793823242,
      "epoch": 12.417910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.991747505341499e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 1652
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.27777862548828,
      "epoch": 12.425373134328359,
      "grad_norm": 0.0,
      "learning_rate": 4.991694549315382e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1653
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.16666793823242,
      "epoch": 12.432835820895523,
      "grad_norm": 1.9217602050532419,
      "learning_rate": 4.991641424206271e-07,
      "loss": 0.0034,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 1654
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.9444465637207,
      "epoch": 12.440298507462687,
      "grad_norm": 0.0,
      "learning_rate": 4.991588130017772e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1655
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.36111068725586,
      "epoch": 12.447761194029852,
      "grad_norm": 14.043354003302346,
      "learning_rate": 4.9915346667535e-07,
      "loss": 0.0122,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 1656
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.58333206176758,
      "epoch": 12.455223880597014,
      "grad_norm": 0.0,
      "learning_rate": 4.991481034417082e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1657
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.47222137451172,
      "epoch": 12.462686567164178,
      "grad_norm": 0.0,
      "learning_rate": 4.99142723301216e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1658
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.75,
      "epoch": 12.470149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.991373262542384e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1659
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.1388931274414,
      "epoch": 12.477611940298507,
      "grad_norm": 0.0,
      "learning_rate": 4.991319123011414e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1660
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.22222137451172,
      "epoch": 12.485074626865671,
      "grad_norm": 2.8131805464354027,
      "learning_rate": 4.991264814422929e-07,
      "loss": -0.0118,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 1661
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.19444274902344,
      "epoch": 12.492537313432836,
      "grad_norm": 2.2438773189172996,
      "learning_rate": 4.991210336780609e-07,
      "loss": -0.0045,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 1662
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.5,
      "epoch": 12.5,
      "grad_norm": 6.037865599056374,
      "learning_rate": 4.991155690088153e-07,
      "loss": -0.0176,
      "reward": 1.8333333730697632,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 1663
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.41666793823242,
      "epoch": 12.507462686567164,
      "grad_norm": 4.956038512735684,
      "learning_rate": 4.99110087434927e-07,
      "loss": 0.0091,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 1664
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.61111450195312,
      "epoch": 12.514925373134329,
      "grad_norm": 21.696694478483145,
      "learning_rate": 4.991045889567679e-07,
      "loss": 0.0104,
      "reward": 1.9166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 1665
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.4444465637207,
      "epoch": 12.522388059701493,
      "grad_norm": 0.0,
      "learning_rate": 4.990990735747112e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1666
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.02777862548828,
      "epoch": 12.529850746268657,
      "grad_norm": 1.421627705396407,
      "learning_rate": 4.990935412891309e-07,
      "loss": 0.0006,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 1667
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.61111450195312,
      "epoch": 12.537313432835822,
      "grad_norm": 0.0,
      "learning_rate": 4.990879921004026e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1668
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.33333587646484,
      "epoch": 12.544776119402986,
      "grad_norm": 2.4073995873594147,
      "learning_rate": 4.99082426008903e-07,
      "loss": -0.0143,
      "reward": 1.6944444179534912,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 1669
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.63888931274414,
      "epoch": 12.552238805970148,
      "grad_norm": 0.0,
      "learning_rate": 4.990768430150095e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1670
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.47222137451172,
      "epoch": 12.559701492537313,
      "grad_norm": 27.84858643450058,
      "learning_rate": 4.990712431191012e-07,
      "loss": -0.0013,
      "reward": 1.8611111640930176,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 1671
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.0,
      "epoch": 12.567164179104477,
      "grad_norm": 0.0,
      "learning_rate": 4.99065626321558e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1672
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.66666412353516,
      "epoch": 12.574626865671641,
      "grad_norm": 1.5443006949883085,
      "learning_rate": 4.990599926227611e-07,
      "loss": 0.0026,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 1673
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.75,
      "epoch": 12.582089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.990543420230928e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1674
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.80555725097656,
      "epoch": 12.58955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.990486745229364e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1675
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.77777862548828,
      "epoch": 12.597014925373134,
      "grad_norm": 5.125176188646369,
      "learning_rate": 4.990429901226766e-07,
      "loss": 0.0145,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 1676
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.55555725097656,
      "epoch": 12.604477611940299,
      "grad_norm": 2.0689532184348605,
      "learning_rate": 4.990372888226991e-07,
      "loss": 0.0032,
      "reward": 1.9166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 1677
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.36111450195312,
      "epoch": 12.611940298507463,
      "grad_norm": 0.0,
      "learning_rate": 4.990315706233908e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1678
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.86111450195312,
      "epoch": 12.619402985074627,
      "grad_norm": 0.0,
      "learning_rate": 4.990258355251399e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1679
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.66666793823242,
      "epoch": 12.626865671641792,
      "grad_norm": 0.0,
      "learning_rate": 4.990200835283352e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1680
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.27777862548828,
      "epoch": 12.634328358208956,
      "grad_norm": 2.711538801945022,
      "learning_rate": 4.990143146333675e-07,
      "loss": -0.0158,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 1681
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 76.5,
      "epoch": 12.64179104477612,
      "grad_norm": 9.889380748919711,
      "learning_rate": 4.990085288406278e-07,
      "loss": -0.0161,
      "reward": 1.75,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 1682
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.58333587646484,
      "epoch": 12.649253731343283,
      "grad_norm": 0.0,
      "learning_rate": 4.99002726150509e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1683
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.69444274902344,
      "epoch": 12.656716417910447,
      "grad_norm": 0.0,
      "learning_rate": 4.989969065634047e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1684
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.94444274902344,
      "epoch": 12.664179104477611,
      "grad_norm": 2.1801267730253033,
      "learning_rate": 4.989910700797099e-07,
      "loss": 0.0038,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 1685
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.44444274902344,
      "epoch": 12.671641791044776,
      "grad_norm": 0.0,
      "learning_rate": 4.989852166998207e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1686
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.05555725097656,
      "epoch": 12.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.989793464241343e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1687
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.61111068725586,
      "epoch": 12.686567164179104,
      "grad_norm": 0.0,
      "learning_rate": 4.98973459253049e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1688
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.6388931274414,
      "epoch": 12.694029850746269,
      "grad_norm": 3.023944702621996,
      "learning_rate": 4.989675551869643e-07,
      "loss": -0.0031,
      "reward": 1.6944444179534912,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 1689
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.86111450195312,
      "epoch": 12.701492537313433,
      "grad_norm": 4.190963357906471,
      "learning_rate": 4.989616342262807e-07,
      "loss": -0.0008,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 1690
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.05555725097656,
      "epoch": 12.708955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.989556963714003e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1691
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.83333587646484,
      "epoch": 12.716417910447761,
      "grad_norm": 0.0,
      "learning_rate": 4.989497416227256e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 1692
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.58333587646484,
      "epoch": 12.723880597014926,
      "grad_norm": 5.085831535288189,
      "learning_rate": 4.989437699806611e-07,
      "loss": -0.0009,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 0.9722222089767456,
      "step": 1693
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.19444274902344,
      "epoch": 12.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.989377814456119e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 1694
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.1388931274414,
      "epoch": 12.738805970149254,
      "grad_norm": 4.400132780221029,
      "learning_rate": 4.989317760179844e-07,
      "loss": -0.0091,
      "reward": 1.9444444179534912,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.944444477558136,
      "rewards/format_reward": 1.0,
      "step": 1695
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.05555725097656,
      "epoch": 12.746268656716419,
      "grad_norm": 0.0,
      "learning_rate": 4.98925753698186e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1696
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.02777862548828,
      "epoch": 12.753731343283581,
      "grad_norm": 2.1113387296023425,
      "learning_rate": 4.989197144866254e-07,
      "loss": -0.0139,
      "reward": 1.6111111640930176,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 1697
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.30555725097656,
      "epoch": 12.761194029850746,
      "grad_norm": 10.084723628725273,
      "learning_rate": 4.989136583837125e-07,
      "loss": -0.0054,
      "reward": 1.6111111640930176,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 1698
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.80555725097656,
      "epoch": 12.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.989075853898581e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1699
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 75.05555725097656,
      "epoch": 12.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 4.989014955054745e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1700
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.0,
      "epoch": 12.783582089552239,
      "grad_norm": 3.4422522076576354,
      "learning_rate": 4.988953887309748e-07,
      "loss": 0.0014,
      "reward": 1.638888955116272,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 1701
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.6388931274414,
      "epoch": 12.791044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.988892650667735e-07,
      "loss": 0.0,
      "reward": 1.4444444179534912,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 1702
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.97222137451172,
      "epoch": 12.798507462686567,
      "grad_norm": 0.0,
      "learning_rate": 4.988831245132861e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1703
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.91666412353516,
      "epoch": 12.805970149253731,
      "grad_norm": 0.0,
      "learning_rate": 4.988769670709293e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1704
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.02777862548828,
      "epoch": 12.813432835820896,
      "grad_norm": 7.512874748985961,
      "learning_rate": 4.988707927401209e-07,
      "loss": 0.0078,
      "reward": 1.638888955116272,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 1705
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 73.86111450195312,
      "epoch": 12.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.988646015212799e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1706
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.30555725097656,
      "epoch": 12.828358208955224,
      "grad_norm": 0.0,
      "learning_rate": 4.988583934148264e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1707
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.36111450195312,
      "epoch": 12.835820895522389,
      "grad_norm": 0.0,
      "learning_rate": 4.988521684211818e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1708
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.41666412353516,
      "epoch": 12.843283582089553,
      "grad_norm": 0.0,
      "learning_rate": 4.988459265407683e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1709
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.47222137451172,
      "epoch": 12.850746268656717,
      "grad_norm": 8.197155323277258,
      "learning_rate": 4.988396677740097e-07,
      "loss": 0.0235,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 1710
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 72.44444274902344,
      "epoch": 12.85820895522388,
      "grad_norm": 3.965674540984463,
      "learning_rate": 4.988333921213306e-07,
      "loss": 0.0122,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 1711
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.6388931274414,
      "epoch": 12.865671641791044,
      "grad_norm": 0.0,
      "learning_rate": 4.988270995831567e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1712
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.02777862548828,
      "epoch": 12.873134328358208,
      "grad_norm": 0.0,
      "learning_rate": 4.988207901599154e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1713
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.25,
      "epoch": 12.880597014925373,
      "grad_norm": 5.414123085375449,
      "learning_rate": 4.988144638520345e-07,
      "loss": -0.0038,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 1714
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.94444274902344,
      "epoch": 12.888059701492537,
      "grad_norm": 1.6284738717594442,
      "learning_rate": 4.988081206599434e-07,
      "loss": 0.011,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 1715
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.47222137451172,
      "epoch": 12.895522388059701,
      "grad_norm": 0.0,
      "learning_rate": 4.988017605840725e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1716
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.3888931274414,
      "epoch": 12.902985074626866,
      "grad_norm": 0.0,
      "learning_rate": 4.987953836248535e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1717
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.11111450195312,
      "epoch": 12.91044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.987889897827191e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1718
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.19444274902344,
      "epoch": 12.917910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.987825790581031e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1719
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.69444274902344,
      "epoch": 12.925373134328359,
      "grad_norm": 0.0,
      "learning_rate": 4.987761514514405e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1720
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.86111068725586,
      "epoch": 12.932835820895523,
      "grad_norm": 2.7383330640657935,
      "learning_rate": 4.987697069631676e-07,
      "loss": 0.0154,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 1721
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.66666793823242,
      "epoch": 12.940298507462687,
      "grad_norm": 0.0,
      "learning_rate": 4.987632455937217e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1722
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.11111450195312,
      "epoch": 12.947761194029852,
      "grad_norm": 0.0,
      "learning_rate": 4.987567673435411e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1723
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.11111068725586,
      "epoch": 12.955223880597014,
      "grad_norm": 0.0,
      "learning_rate": 4.987502722130655e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1724
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.5,
      "epoch": 12.962686567164178,
      "grad_norm": 0.0,
      "learning_rate": 4.987437602027358e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1725
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 73.11111450195312,
      "epoch": 12.970149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.987372313129938e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 1726
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.41666412353516,
      "epoch": 12.977611940298507,
      "grad_norm": 0.0,
      "learning_rate": 4.987306855442823e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1727
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.80555725097656,
      "epoch": 12.985074626865671,
      "grad_norm": 0.0,
      "learning_rate": 4.987241228970458e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1728
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.33333587646484,
      "epoch": 12.992537313432836,
      "grad_norm": 10.646742180164724,
      "learning_rate": 4.987175433717294e-07,
      "loss": 0.0077,
      "reward": 1.9166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 1729
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.33333587646484,
      "epoch": 13.007462686567164,
      "grad_norm": 1.9533699207943198,
      "learning_rate": 4.987109469687799e-07,
      "loss": -0.0083,
      "reward": 1.5833333730697632,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 1730
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 71.41666412353516,
      "epoch": 13.014925373134329,
      "grad_norm": 0.0,
      "learning_rate": 4.987043336886446e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1731
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.44444274902344,
      "epoch": 13.022388059701493,
      "grad_norm": 0.0,
      "learning_rate": 4.986977035317724e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1732
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.66666412353516,
      "epoch": 13.029850746268657,
      "grad_norm": 0.0,
      "learning_rate": 4.986910564986132e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1733
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.30555725097656,
      "epoch": 13.037313432835822,
      "grad_norm": 0.0,
      "learning_rate": 4.986843925896182e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1734
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.44444274902344,
      "epoch": 13.044776119402986,
      "grad_norm": 0.0,
      "learning_rate": 4.986777118052393e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1735
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.97222137451172,
      "epoch": 13.052238805970148,
      "grad_norm": 0.0,
      "learning_rate": 4.986710141459301e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1736
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.3888931274414,
      "epoch": 13.059701492537313,
      "grad_norm": 0.0,
      "learning_rate": 4.986642996121449e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1737
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.05555725097656,
      "epoch": 13.067164179104477,
      "grad_norm": 0.0,
      "learning_rate": 4.986575682043395e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1738
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.97222137451172,
      "epoch": 13.074626865671641,
      "grad_norm": 0.0,
      "learning_rate": 4.986508199229706e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1739
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.52777862548828,
      "epoch": 13.082089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.986440547684963e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1740
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.86111450195312,
      "epoch": 13.08955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.986372727413754e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1741
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.36111450195312,
      "epoch": 13.097014925373134,
      "grad_norm": 0.0,
      "learning_rate": 4.986304738420683e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1742
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.33333206176758,
      "epoch": 13.104477611940299,
      "grad_norm": 0.0,
      "learning_rate": 4.986236580710363e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1743
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.25,
      "epoch": 13.111940298507463,
      "grad_norm": 0.0,
      "learning_rate": 4.98616825428742e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1744
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.77777862548828,
      "epoch": 13.119402985074627,
      "grad_norm": 0.0,
      "learning_rate": 4.986099759156489e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1745
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.08333206176758,
      "epoch": 13.126865671641792,
      "grad_norm": 0.0,
      "learning_rate": 4.986031095322219e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1746
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.88888931274414,
      "epoch": 13.134328358208956,
      "grad_norm": 0.0,
      "learning_rate": 4.985962262789269e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1747
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.8888931274414,
      "epoch": 13.14179104477612,
      "grad_norm": 0.0,
      "learning_rate": 4.985893261562311e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1748
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.41666793823242,
      "epoch": 13.149253731343283,
      "grad_norm": 2.770354927984584,
      "learning_rate": 4.985824091646025e-07,
      "loss": -0.0056,
      "reward": 1.6111111640930176,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 1749
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.05555725097656,
      "epoch": 13.156716417910447,
      "grad_norm": 0.0,
      "learning_rate": 4.985754753045107e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1750
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.22222137451172,
      "epoch": 13.164179104477611,
      "grad_norm": 5.54218484294674,
      "learning_rate": 4.985685245764262e-07,
      "loss": 0.0061,
      "reward": 1.6944444179534912,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 1751
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.25,
      "epoch": 13.171641791044776,
      "grad_norm": 0.0,
      "learning_rate": 4.985615569808206e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1752
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.41666793823242,
      "epoch": 13.17910447761194,
      "grad_norm": 13.204248573281808,
      "learning_rate": 4.985545725181667e-07,
      "loss": -0.0157,
      "reward": 1.6111111640930176,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 1753
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.5,
      "epoch": 13.186567164179104,
      "grad_norm": 0.0,
      "learning_rate": 4.985475711889384e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1754
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.27777862548828,
      "epoch": 13.194029850746269,
      "grad_norm": 0.0,
      "learning_rate": 4.985405529936109e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1755
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.1388931274414,
      "epoch": 13.201492537313433,
      "grad_norm": 0.0,
      "learning_rate": 4.985335179326606e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1756
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.52777862548828,
      "epoch": 13.208955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.985264660065646e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1757
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.1944465637207,
      "epoch": 13.216417910447761,
      "grad_norm": 0.0,
      "learning_rate": 4.985193972158014e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1758
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.58333206176758,
      "epoch": 13.223880597014926,
      "grad_norm": 0.0,
      "learning_rate": 4.98512311560851e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1759
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.8888931274414,
      "epoch": 13.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.985052090421939e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1760
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.22222137451172,
      "epoch": 13.238805970149254,
      "grad_norm": 93.5557396862178,
      "learning_rate": 4.984980896603124e-07,
      "loss": 0.0112,
      "reward": 1.9166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 1761
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.9444465637207,
      "epoch": 13.246268656716419,
      "grad_norm": 11.041329198856566,
      "learning_rate": 4.984909534156893e-07,
      "loss": -0.0122,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 1762
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.97222137451172,
      "epoch": 13.253731343283581,
      "grad_norm": 0.0,
      "learning_rate": 4.984838003088091e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1763
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.75,
      "epoch": 13.261194029850746,
      "grad_norm": 0.0,
      "learning_rate": 4.98476630340157e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1764
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.1388931274414,
      "epoch": 13.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.984694435102197e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1765
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.97222137451172,
      "epoch": 13.276119402985074,
      "grad_norm": 0.0,
      "learning_rate": 4.984622398194847e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1766
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.22222137451172,
      "epoch": 13.283582089552239,
      "grad_norm": 0.0,
      "learning_rate": 4.98455019268441e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1767
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.83333206176758,
      "epoch": 13.291044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.984477818575786e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1768
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.41666412353516,
      "epoch": 13.298507462686567,
      "grad_norm": 0.0,
      "learning_rate": 4.984405275873885e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1769
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.47222137451172,
      "epoch": 13.305970149253731,
      "grad_norm": 0.0,
      "learning_rate": 4.98433256458363e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1770
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.58333587646484,
      "epoch": 13.313432835820896,
      "grad_norm": 0.0,
      "learning_rate": 4.984259684709955e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1771
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.55555725097656,
      "epoch": 13.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.984186636257805e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1772
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.55555725097656,
      "epoch": 13.328358208955224,
      "grad_norm": 0.0,
      "learning_rate": 4.98411341923214e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1773
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.88888931274414,
      "epoch": 13.335820895522389,
      "grad_norm": 0.0,
      "learning_rate": 4.984040033637924e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 1774
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.41666412353516,
      "epoch": 13.343283582089553,
      "grad_norm": 3.772246486477251,
      "learning_rate": 4.98396647948014e-07,
      "loss": 0.0066,
      "reward": 1.638888955116272,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 1775
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.22222137451172,
      "epoch": 13.350746268656717,
      "grad_norm": 0.0,
      "learning_rate": 4.983892756763777e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1776
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.16666412353516,
      "epoch": 13.35820895522388,
      "grad_norm": 8.741579246437704,
      "learning_rate": 4.983818865493841e-07,
      "loss": 0.0406,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 1777
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.97222137451172,
      "epoch": 13.365671641791044,
      "grad_norm": 0.0,
      "learning_rate": 4.983744805675342e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1778
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.27777862548828,
      "epoch": 13.373134328358208,
      "grad_norm": 0.0,
      "learning_rate": 4.983670577313309e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1779
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.22222137451172,
      "epoch": 13.380597014925373,
      "grad_norm": 0.0,
      "learning_rate": 4.983596180412778e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1780
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.94444274902344,
      "epoch": 13.388059701492537,
      "grad_norm": 0.0,
      "learning_rate": 4.983521614978797e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1781
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.19444274902344,
      "epoch": 13.395522388059701,
      "grad_norm": 0.0,
      "learning_rate": 4.983446881016425e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1782
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.4444465637207,
      "epoch": 13.402985074626866,
      "grad_norm": 0.0,
      "learning_rate": 4.983371978530736e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1783
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.11111068725586,
      "epoch": 13.41044776119403,
      "grad_norm": 38.739357279357904,
      "learning_rate": 4.983296907526811e-07,
      "loss": 0.0074,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 1784
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.75,
      "epoch": 13.417910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.983221668009744e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1785
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.30555725097656,
      "epoch": 13.425373134328359,
      "grad_norm": 0.0,
      "learning_rate": 4.983146259984641e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1786
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.11111068725586,
      "epoch": 13.432835820895523,
      "grad_norm": 0.0,
      "learning_rate": 4.98307068345662e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1787
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.0,
      "epoch": 13.440298507462687,
      "grad_norm": 0.0,
      "learning_rate": 4.982994938430808e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1788
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.22222137451172,
      "epoch": 13.447761194029852,
      "grad_norm": 0.0,
      "learning_rate": 4.982919024912347e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1789
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.30555725097656,
      "epoch": 13.455223880597014,
      "grad_norm": 0.0,
      "learning_rate": 4.982842942906385e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1790
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.77777862548828,
      "epoch": 13.462686567164178,
      "grad_norm": 0.0,
      "learning_rate": 4.982766692418088e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1791
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.36111068725586,
      "epoch": 13.470149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.98269027345263e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1792
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.16666412353516,
      "epoch": 13.477611940298507,
      "grad_norm": 7.916673003179937,
      "learning_rate": 4.982613686015195e-07,
      "loss": -0.0266,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 1793
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.30555725097656,
      "epoch": 13.485074626865671,
      "grad_norm": 0.0,
      "learning_rate": 4.982536930110979e-07,
      "loss": 0.0,
      "reward": 1.4444444179534912,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 1794
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.77777862548828,
      "epoch": 13.492537313432836,
      "grad_norm": 0.0,
      "learning_rate": 4.982460005745196e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1795
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.3888931274414,
      "epoch": 13.5,
      "grad_norm": 0.0,
      "learning_rate": 4.982382912923061e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1796
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.52777862548828,
      "epoch": 13.507462686567164,
      "grad_norm": 9.63797987966838,
      "learning_rate": 4.982305651649806e-07,
      "loss": 0.0138,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 1797
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.75,
      "epoch": 13.514925373134329,
      "grad_norm": 0.0,
      "learning_rate": 4.982228221930677e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1798
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.11111068725586,
      "epoch": 13.522388059701493,
      "grad_norm": 0.0,
      "learning_rate": 4.982150623770923e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1799
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.58333206176758,
      "epoch": 13.529850746268657,
      "grad_norm": 0.0,
      "learning_rate": 4.982072857175815e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1800
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.38888931274414,
      "epoch": 13.537313432835822,
      "grad_norm": 10.422899157321742,
      "learning_rate": 4.981994922150627e-07,
      "loss": 0.0236,
      "reward": 1.638888955116272,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 1801
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.08333206176758,
      "epoch": 13.544776119402986,
      "grad_norm": 0.0,
      "learning_rate": 4.981916818700649e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1802
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.63888931274414,
      "epoch": 13.552238805970148,
      "grad_norm": 0.0,
      "learning_rate": 4.98183854683118e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1803
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.94444274902344,
      "epoch": 13.559701492537313,
      "grad_norm": 0.0,
      "learning_rate": 4.981760106547532e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1804
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.63888931274414,
      "epoch": 13.567164179104477,
      "grad_norm": 0.0,
      "learning_rate": 4.981681497855028e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 1805
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.58333206176758,
      "epoch": 13.574626865671641,
      "grad_norm": 0.0,
      "learning_rate": 4.981602720759001e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1806
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.75,
      "epoch": 13.582089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.981523775264799e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1807
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.6388931274414,
      "epoch": 13.58955223880597,
      "grad_norm": 18.645289748277946,
      "learning_rate": 4.981444661377777e-07,
      "loss": 0.0175,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 1808
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.25,
      "epoch": 13.597014925373134,
      "grad_norm": 0.0,
      "learning_rate": 4.981365379103305e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1809
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.4444465637207,
      "epoch": 13.604477611940299,
      "grad_norm": 0.0,
      "learning_rate": 4.981285928446762e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1810
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.16666793823242,
      "epoch": 13.611940298507463,
      "grad_norm": 26.39532686416728,
      "learning_rate": 4.981206309413539e-07,
      "loss": 0.0257,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 1811
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.05555725097656,
      "epoch": 13.619402985074627,
      "grad_norm": 0.0,
      "learning_rate": 4.981126522009041e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1812
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.72222137451172,
      "epoch": 13.626865671641792,
      "grad_norm": 0.0,
      "learning_rate": 4.98104656623868e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1813
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.86111068725586,
      "epoch": 13.634328358208956,
      "grad_norm": 0.0,
      "learning_rate": 4.980966442107883e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1814
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.5,
      "epoch": 13.64179104477612,
      "grad_norm": 0.0,
      "learning_rate": 4.980886149622087e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1815
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.05555725097656,
      "epoch": 13.649253731343283,
      "grad_norm": 0.0,
      "learning_rate": 4.980805688786739e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1816
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.8888931274414,
      "epoch": 13.656716417910447,
      "grad_norm": 7.81891889973427,
      "learning_rate": 4.980725059607301e-07,
      "loss": -0.0096,
      "reward": 1.6111111640930176,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 1817
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.4444465637207,
      "epoch": 13.664179104477611,
      "grad_norm": 0.0,
      "learning_rate": 4.980644262089243e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1818
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.58333206176758,
      "epoch": 13.671641791044776,
      "grad_norm": 0.0,
      "learning_rate": 4.98056329623805e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1819
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.83333206176758,
      "epoch": 13.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.980482162059213e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1820
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.97222137451172,
      "epoch": 13.686567164179104,
      "grad_norm": 0.0,
      "learning_rate": 4.980400859558239e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1821
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.63888931274414,
      "epoch": 13.694029850746269,
      "grad_norm": 0.0,
      "learning_rate": 4.980319388740647e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1822
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.77777862548828,
      "epoch": 13.701492537313433,
      "grad_norm": 0.0,
      "learning_rate": 4.980237749611962e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1823
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.25,
      "epoch": 13.708955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.980155942177728e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1824
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.05555725097656,
      "epoch": 13.716417910447761,
      "grad_norm": 0.0,
      "learning_rate": 4.980073966443493e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1825
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.83333206176758,
      "epoch": 13.723880597014926,
      "grad_norm": 3.868399841679185,
      "learning_rate": 4.97999182241482e-07,
      "loss": -0.0319,
      "reward": 1.9166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 1826
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.22222137451172,
      "epoch": 13.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.979909510097285e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1827
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.02777862548828,
      "epoch": 13.738805970149254,
      "grad_norm": 2.0211755157244684,
      "learning_rate": 4.979827029496473e-07,
      "loss": -0.0061,
      "reward": 1.9444444179534912,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.944444477558136,
      "rewards/format_reward": 1.0,
      "step": 1828
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.77777862548828,
      "epoch": 13.746268656716419,
      "grad_norm": 0.0,
      "learning_rate": 4.97974438061798e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1829
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.25,
      "epoch": 13.753731343283581,
      "grad_norm": 0.0,
      "learning_rate": 4.979661563467415e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1830
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.58333206176758,
      "epoch": 13.761194029850746,
      "grad_norm": 0.0,
      "learning_rate": 4.979578578050399e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1831
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.1388931274414,
      "epoch": 13.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.97949542437256e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1832
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.66666793823242,
      "epoch": 13.776119402985074,
      "grad_norm": 3.8481244883857575,
      "learning_rate": 4.979412102439545e-07,
      "loss": -0.0138,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 1833
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.33333206176758,
      "epoch": 13.783582089552239,
      "grad_norm": 0.0,
      "learning_rate": 4.979328612257005e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1834
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.16666793823242,
      "epoch": 13.791044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.979244953830609e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1835
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.33333206176758,
      "epoch": 13.798507462686567,
      "grad_norm": 0.0,
      "learning_rate": 4.979161127166028e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1836
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.1388931274414,
      "epoch": 13.805970149253731,
      "grad_norm": 0.0,
      "learning_rate": 4.979077132268956e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1837
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.05555725097656,
      "epoch": 13.813432835820896,
      "grad_norm": 0.0,
      "learning_rate": 4.97899296914509e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1838
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 72.75,
      "epoch": 13.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.978908637800142e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1839
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.72222137451172,
      "epoch": 13.828358208955224,
      "grad_norm": 5.491555948390501,
      "learning_rate": 4.978824138239835e-07,
      "loss": 0.0053,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 1840
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.5,
      "epoch": 13.835820895522389,
      "grad_norm": 0.0,
      "learning_rate": 4.978739470469902e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1841
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.1944465637207,
      "epoch": 13.843283582089553,
      "grad_norm": 0.0,
      "learning_rate": 4.978654634496089e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1842
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.94444274902344,
      "epoch": 13.850746268656717,
      "grad_norm": 0.0,
      "learning_rate": 4.978569630324153e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1843
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.05555725097656,
      "epoch": 13.85820895522388,
      "grad_norm": 0.0,
      "learning_rate": 4.978484457959862e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1844
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.36111068725586,
      "epoch": 13.865671641791044,
      "grad_norm": 0.0,
      "learning_rate": 4.978399117408995e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1845
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 72.47222137451172,
      "epoch": 13.873134328358208,
      "grad_norm": 0.0,
      "learning_rate": 4.978313608677345e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1846
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.88888931274414,
      "epoch": 13.880597014925373,
      "grad_norm": 0.0,
      "learning_rate": 4.978227931770712e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1847
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.33333206176758,
      "epoch": 13.888059701492537,
      "grad_norm": 0.0,
      "learning_rate": 4.978142086694912e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1848
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.22222137451172,
      "epoch": 13.895522388059701,
      "grad_norm": 0.0,
      "learning_rate": 4.97805607345577e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1849
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.66666412353516,
      "epoch": 13.902985074626866,
      "grad_norm": 0.0,
      "learning_rate": 4.977969892059122e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1850
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 72.6388931274414,
      "epoch": 13.91044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.977883542510817e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1851
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.55555725097656,
      "epoch": 13.917910447761194,
      "grad_norm": 3.5920349686446325,
      "learning_rate": 4.977797024816713e-07,
      "loss": 0.0213,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 1852
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.97222137451172,
      "epoch": 13.925373134328359,
      "grad_norm": 0.0,
      "learning_rate": 4.977710338982683e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1853
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.63888931274414,
      "epoch": 13.932835820895523,
      "grad_norm": 13.707717519131926,
      "learning_rate": 4.977623485014608e-07,
      "loss": -0.0142,
      "reward": 1.6944444179534912,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 1854
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.27777862548828,
      "epoch": 13.940298507462687,
      "grad_norm": 0.0,
      "learning_rate": 4.977536462918382e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1855
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.36111450195312,
      "epoch": 13.947761194029852,
      "grad_norm": 0.0,
      "learning_rate": 4.97744927269991e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1856
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.9444465637207,
      "epoch": 13.955223880597014,
      "grad_norm": 0.0,
      "learning_rate": 4.97736191436511e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1857
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.5,
      "epoch": 13.962686567164178,
      "grad_norm": 4.588356082554887,
      "learning_rate": 4.97727438791991e-07,
      "loss": 0.0218,
      "reward": 1.9166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 1858
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.8888931274414,
      "epoch": 13.970149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.977186693370246e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1859
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.6388931274414,
      "epoch": 13.977611940298507,
      "grad_norm": 0.0,
      "learning_rate": 4.977098830722073e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1860
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.19444274902344,
      "epoch": 13.985074626865671,
      "grad_norm": 0.0,
      "learning_rate": 4.977010799981351e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1861
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 72.58333587646484,
      "epoch": 13.992537313432836,
      "grad_norm": 0.0,
      "learning_rate": 4.976922601154054e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1862
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.1388931274414,
      "epoch": 14.007462686567164,
      "grad_norm": 0.0,
      "learning_rate": 4.976834234246167e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1863
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.47222137451172,
      "epoch": 14.014925373134329,
      "grad_norm": 0.0,
      "learning_rate": 4.976745699263687e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1864
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.27777862548828,
      "epoch": 14.022388059701493,
      "grad_norm": 0.0,
      "learning_rate": 4.976656996212621e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1865
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.41666793823242,
      "epoch": 14.029850746268657,
      "grad_norm": 0.0,
      "learning_rate": 4.97656812509899e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1866
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.25,
      "epoch": 14.037313432835822,
      "grad_norm": 0.0,
      "learning_rate": 4.976479085928822e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1867
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.5,
      "epoch": 14.044776119402986,
      "grad_norm": 0.0,
      "learning_rate": 4.976389878708162e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1868
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.36111068725586,
      "epoch": 14.052238805970148,
      "grad_norm": 0.0,
      "learning_rate": 4.976300503443061e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1869
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.6944465637207,
      "epoch": 14.059701492537313,
      "grad_norm": 0.0,
      "learning_rate": 4.976210960139586e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1870
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.91666793823242,
      "epoch": 14.067164179104477,
      "grad_norm": 2.0346693793902784,
      "learning_rate": 4.976121248803811e-07,
      "loss": -0.004,
      "reward": 1.9166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 1871
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.75,
      "epoch": 14.074626865671641,
      "grad_norm": 0.0,
      "learning_rate": 4.976031369441825e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1872
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.36111450195312,
      "epoch": 14.082089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.975941322059728e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1873
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.55555725097656,
      "epoch": 14.08955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.975851106663629e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1874
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.6388931274414,
      "epoch": 14.097014925373134,
      "grad_norm": 0.0,
      "learning_rate": 4.975760723259651e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1875
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.77777862548828,
      "epoch": 14.104477611940299,
      "grad_norm": 0.0,
      "learning_rate": 4.975670171853925e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1876
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.16666412353516,
      "epoch": 14.111940298507463,
      "grad_norm": 0.0,
      "learning_rate": 4.975579452452599e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 1877
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.66666793823242,
      "epoch": 14.119402985074627,
      "grad_norm": 0.0,
      "learning_rate": 4.975488565061826e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1878
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.4444465637207,
      "epoch": 14.126865671641792,
      "grad_norm": 1.662663707842892,
      "learning_rate": 4.975397509687776e-07,
      "loss": -0.0191,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 1879
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.97222137451172,
      "epoch": 14.134328358208956,
      "grad_norm": 8.044418041510305,
      "learning_rate": 4.975306286336627e-07,
      "loss": -0.0118,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 1880
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.36111450195312,
      "epoch": 14.14179104477612,
      "grad_norm": 0.0,
      "learning_rate": 4.975214895014569e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1881
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.80555725097656,
      "epoch": 14.149253731343283,
      "grad_norm": 0.0,
      "learning_rate": 4.975123335727804e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1882
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.63888931274414,
      "epoch": 14.156716417910447,
      "grad_norm": 1.6212741170243437,
      "learning_rate": 4.975031608482544e-07,
      "loss": -0.0035,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 1883
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.44444274902344,
      "epoch": 14.164179104477611,
      "grad_norm": 4.553846256833247,
      "learning_rate": 4.974939713285016e-07,
      "loss": 0.0127,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 1884
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.58333206176758,
      "epoch": 14.171641791044776,
      "grad_norm": 37.125556401686616,
      "learning_rate": 4.974847650141452e-07,
      "loss": -0.0177,
      "reward": 1.6944444179534912,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 1885
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.5,
      "epoch": 14.17910447761194,
      "grad_norm": 2.2918868421889447,
      "learning_rate": 4.974755419058104e-07,
      "loss": -0.0195,
      "reward": 1.5833333730697632,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 1886
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.72222137451172,
      "epoch": 14.186567164179104,
      "grad_norm": 0.0,
      "learning_rate": 4.974663020041227e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1887
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.94444274902344,
      "epoch": 14.194029850746269,
      "grad_norm": 13.475731238027269,
      "learning_rate": 4.974570453097092e-07,
      "loss": 0.0132,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 1888
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.25,
      "epoch": 14.201492537313433,
      "grad_norm": 14.751772765187535,
      "learning_rate": 4.97447771823198e-07,
      "loss": -0.0071,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 1889
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.41666412353516,
      "epoch": 14.208955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.974384815452186e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1890
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.41666412353516,
      "epoch": 14.216417910447761,
      "grad_norm": 0.0,
      "learning_rate": 4.974291744764013e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1891
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 75.11111450195312,
      "epoch": 14.223880597014926,
      "grad_norm": 0.0,
      "learning_rate": 4.974198506173776e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 1892
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.55555725097656,
      "epoch": 14.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.974105099687803e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1893
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.55555725097656,
      "epoch": 14.238805970149254,
      "grad_norm": 0.0,
      "learning_rate": 4.974011525312432e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1894
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.75,
      "epoch": 14.246268656716419,
      "grad_norm": 0.0,
      "learning_rate": 4.973917783054012e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1895
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 78.41666412353516,
      "epoch": 14.253731343283581,
      "grad_norm": 0.0,
      "learning_rate": 4.973823872918907e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1896
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.52777862548828,
      "epoch": 14.261194029850746,
      "grad_norm": 1.8615654249899507,
      "learning_rate": 4.973729794913486e-07,
      "loss": -0.0002,
      "reward": 1.638888955116272,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 0.9722222089767456,
      "step": 1897
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 71.3888931274414,
      "epoch": 14.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.973635549044135e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1898
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.5,
      "epoch": 14.276119402985074,
      "grad_norm": 0.0,
      "learning_rate": 4.973541135317249e-07,
      "loss": 0.0,
      "reward": 1.4444444179534912,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 1899
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 74.0,
      "epoch": 14.283582089552239,
      "grad_norm": 0.0,
      "learning_rate": 4.973446553739235e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1900
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.52777862548828,
      "epoch": 14.291044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.973351804316512e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1901
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.80555725097656,
      "epoch": 14.298507462686567,
      "grad_norm": 0.0,
      "learning_rate": 4.973256887055508e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1902
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 74.16666412353516,
      "epoch": 14.305970149253731,
      "grad_norm": 0.0,
      "learning_rate": 4.973161801962664e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1903
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.36111450195312,
      "epoch": 14.313432835820896,
      "grad_norm": 0.0,
      "learning_rate": 4.973066549044433e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1904
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.1388931274414,
      "epoch": 14.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.97297112830728e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1905
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 73.8888931274414,
      "epoch": 14.328358208955224,
      "grad_norm": 0.0,
      "learning_rate": 4.972875539757677e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1906
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 75.3888931274414,
      "epoch": 14.335820895522389,
      "grad_norm": 0.0,
      "learning_rate": 4.972779783402114e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1907
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.27777862548828,
      "epoch": 14.343283582089553,
      "grad_norm": 0.0,
      "learning_rate": 4.972683859247086e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1908
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.69444274902344,
      "epoch": 14.350746268656717,
      "grad_norm": 0.0,
      "learning_rate": 4.972587767299104e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1909
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.6388931274414,
      "epoch": 14.35820895522388,
      "grad_norm": 0.0,
      "learning_rate": 4.972491507564688e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1910
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 77.5,
      "epoch": 14.365671641791044,
      "grad_norm": 0.0,
      "learning_rate": 4.97239508005037e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1911
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 72.02777862548828,
      "epoch": 14.373134328358208,
      "grad_norm": 0.0,
      "learning_rate": 4.972298484762694e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1912
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.6388931274414,
      "epoch": 14.380597014925373,
      "grad_norm": 0.0,
      "learning_rate": 4.972201721708213e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1913
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.5,
      "epoch": 14.388059701492537,
      "grad_norm": 4.486004568699765,
      "learning_rate": 4.972104790893497e-07,
      "loss": 0.0042,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 1914
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.36111450195312,
      "epoch": 14.395522388059701,
      "grad_norm": 25.549662782537236,
      "learning_rate": 4.972007692325119e-07,
      "loss": 0.013,
      "reward": 1.5277777910232544,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 1915
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 75.36111450195312,
      "epoch": 14.402985074626866,
      "grad_norm": 0.0,
      "learning_rate": 4.971910426009672e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1916
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.86111450195312,
      "epoch": 14.41044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.971812991953754e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1917
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.47222137451172,
      "epoch": 14.417910447761194,
      "grad_norm": 4.2410728103055755,
      "learning_rate": 4.971715390163977e-07,
      "loss": 0.0075,
      "reward": 1.6944444179534912,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 1918
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.91666412353516,
      "epoch": 14.425373134328359,
      "grad_norm": 0.0,
      "learning_rate": 4.971617620646966e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1919
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.02777862548828,
      "epoch": 14.432835820895523,
      "grad_norm": 0.0,
      "learning_rate": 4.971519683409351e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1920
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.33333587646484,
      "epoch": 14.440298507462687,
      "grad_norm": 0.0,
      "learning_rate": 4.971421578457783e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1921
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.58333587646484,
      "epoch": 14.447761194029852,
      "grad_norm": 0.0,
      "learning_rate": 4.971323305798917e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1922
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.91666412353516,
      "epoch": 14.455223880597014,
      "grad_norm": 0.0,
      "learning_rate": 4.97122486543942e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1923
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.97222137451172,
      "epoch": 14.462686567164178,
      "grad_norm": 6.829283629650494,
      "learning_rate": 4.971126257385976e-07,
      "loss": -0.009,
      "reward": 1.5833333730697632,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 1924
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.6388931274414,
      "epoch": 14.470149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.971027481645273e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1925
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.91666412353516,
      "epoch": 14.477611940298507,
      "grad_norm": 63.06234775340361,
      "learning_rate": 4.970928538224016e-07,
      "loss": -0.004,
      "reward": 1.5277777910232544,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 1926
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.27777862548828,
      "epoch": 14.485074626865671,
      "grad_norm": 17.2585173016479,
      "learning_rate": 4.970829427128918e-07,
      "loss": 0.0036,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 1927
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.91666412353516,
      "epoch": 14.492537313432836,
      "grad_norm": 0.0,
      "learning_rate": 4.970730148366704e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 1928
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.97222137451172,
      "epoch": 14.5,
      "grad_norm": 0.0,
      "learning_rate": 4.970630701944112e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1929
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.5,
      "epoch": 14.507462686567164,
      "grad_norm": 0.0,
      "learning_rate": 4.97053108786789e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1930
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.80555725097656,
      "epoch": 14.514925373134329,
      "grad_norm": 0.0,
      "learning_rate": 4.970431306144798e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1931
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.61111450195312,
      "epoch": 14.522388059701493,
      "grad_norm": 11.951255270899576,
      "learning_rate": 4.970331356781605e-07,
      "loss": -0.0091,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 1932
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.6388931274414,
      "epoch": 14.529850746268657,
      "grad_norm": 0.0,
      "learning_rate": 4.970231239785096e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1933
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.6944465637207,
      "epoch": 14.537313432835822,
      "grad_norm": 0.0,
      "learning_rate": 4.970130955162064e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1934
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.80555725097656,
      "epoch": 14.544776119402986,
      "grad_norm": 0.0,
      "learning_rate": 4.970030502919315e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1935
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.36111450195312,
      "epoch": 14.552238805970148,
      "grad_norm": 0.0,
      "learning_rate": 4.969929883063664e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1936
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.16666412353516,
      "epoch": 14.559701492537313,
      "grad_norm": 0.0,
      "learning_rate": 4.969829095601938e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1937
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.47222137451172,
      "epoch": 14.567164179104477,
      "grad_norm": 0.0,
      "learning_rate": 4.96972814054098e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1938
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.08333587646484,
      "epoch": 14.574626865671641,
      "grad_norm": 0.0,
      "learning_rate": 4.969627017887637e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1939
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 71.47222137451172,
      "epoch": 14.582089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.969525727648774e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1940
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.5,
      "epoch": 14.58955223880597,
      "grad_norm": 17.719142431678975,
      "learning_rate": 4.969424269831262e-07,
      "loss": 0.0022,
      "reward": 1.9166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 1941
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.1388931274414,
      "epoch": 14.597014925373134,
      "grad_norm": 0.0,
      "learning_rate": 4.969322644441987e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1942
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.44444274902344,
      "epoch": 14.604477611940299,
      "grad_norm": 0.0,
      "learning_rate": 4.969220851487844e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1943
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.6388931274414,
      "epoch": 14.611940298507463,
      "grad_norm": 0.0,
      "learning_rate": 4.969118890975742e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1944
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.97222137451172,
      "epoch": 14.619402985074627,
      "grad_norm": 34.85044589895833,
      "learning_rate": 4.9690167629126e-07,
      "loss": 0.0221,
      "reward": 1.8055555820465088,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 1945
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.36111068725586,
      "epoch": 14.626865671641792,
      "grad_norm": 0.0,
      "learning_rate": 4.968914467305347e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1946
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.0,
      "epoch": 14.634328358208956,
      "grad_norm": 0.0,
      "learning_rate": 4.968812004160926e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1947
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.72222137451172,
      "epoch": 14.64179104477612,
      "grad_norm": 0.0,
      "learning_rate": 4.968709373486288e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1948
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.16666412353516,
      "epoch": 14.649253731343283,
      "grad_norm": 0.0,
      "learning_rate": 4.9686065752884e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1949
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.25,
      "epoch": 14.656716417910447,
      "grad_norm": 17.04558735661851,
      "learning_rate": 4.968503609574236e-07,
      "loss": 0.0138,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 1950
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.22222137451172,
      "epoch": 14.664179104477611,
      "grad_norm": 0.0,
      "learning_rate": 4.968400476350783e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1951
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.33333587646484,
      "epoch": 14.671641791044776,
      "grad_norm": 0.0,
      "learning_rate": 4.968297175625041e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1952
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.55555725097656,
      "epoch": 14.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.968193707404018e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1953
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.05555725097656,
      "epoch": 14.686567164179104,
      "grad_norm": 2.5038659490224227,
      "learning_rate": 4.968090071694736e-07,
      "loss": -0.0029,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 1954
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.94444274902344,
      "epoch": 14.694029850746269,
      "grad_norm": 0.0,
      "learning_rate": 4.967986268504227e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1955
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.44444274902344,
      "epoch": 14.701492537313433,
      "grad_norm": 0.0,
      "learning_rate": 4.967882297839537e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1956
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.36111068725586,
      "epoch": 14.708955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.967778159707719e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1957
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.94444274902344,
      "epoch": 14.716417910447761,
      "grad_norm": 3.811375902261514,
      "learning_rate": 4.967673854115841e-07,
      "loss": 0.0068,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 1958
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 72.5,
      "epoch": 14.723880597014926,
      "grad_norm": 0.0,
      "learning_rate": 4.96756938107098e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1959
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.72222137451172,
      "epoch": 14.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.967464740580227e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1960
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 72.41666412353516,
      "epoch": 14.738805970149254,
      "grad_norm": 0.0,
      "learning_rate": 4.967359932650681e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1961
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.30555725097656,
      "epoch": 14.746268656716419,
      "grad_norm": 0.0,
      "learning_rate": 4.967254957289455e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1962
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.66666793823242,
      "epoch": 14.753731343283581,
      "grad_norm": 0.0,
      "learning_rate": 4.967149814503672e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1963
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.66666412353516,
      "epoch": 14.761194029850746,
      "grad_norm": 0.0,
      "learning_rate": 4.967044504300468e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 1964
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.94444274902344,
      "epoch": 14.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.966939026686988e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1965
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.33333587646484,
      "epoch": 14.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 4.96683338167039e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1966
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.80555725097656,
      "epoch": 14.783582089552239,
      "grad_norm": 0.0,
      "learning_rate": 4.966727569257843e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1967
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.0,
      "epoch": 14.791044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.966621589456527e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1968
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.02777862548828,
      "epoch": 14.798507462686567,
      "grad_norm": 8.851904738812742,
      "learning_rate": 4.966515442273634e-07,
      "loss": -0.0021,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 1969
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.41666412353516,
      "epoch": 14.805970149253731,
      "grad_norm": 82.87861691946303,
      "learning_rate": 4.966409127716366e-07,
      "loss": 0.0125,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 1970
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.72222137451172,
      "epoch": 14.813432835820896,
      "grad_norm": 7.167686536926991,
      "learning_rate": 4.966302645791938e-07,
      "loss": 0.0011,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 1971
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.05555725097656,
      "epoch": 14.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.966195996507578e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1972
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.91666412353516,
      "epoch": 14.828358208955224,
      "grad_norm": 18.67932198620003,
      "learning_rate": 4.966089179870519e-07,
      "loss": -0.0104,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 1973
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.30555725097656,
      "epoch": 14.835820895522389,
      "grad_norm": 0.0,
      "learning_rate": 4.965982195888012e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1974
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.0,
      "epoch": 14.843283582089553,
      "grad_norm": 19.203162598110378,
      "learning_rate": 4.965875044567317e-07,
      "loss": -0.0098,
      "reward": 1.5277777910232544,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 1975
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.41666412353516,
      "epoch": 14.850746268656717,
      "grad_norm": 0.0,
      "learning_rate": 4.965767725915704e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1976
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.83333587646484,
      "epoch": 14.85820895522388,
      "grad_norm": 0.0,
      "learning_rate": 4.965660239940456e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1977
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.44444274902344,
      "epoch": 14.865671641791044,
      "grad_norm": 0.0,
      "learning_rate": 4.965552586648866e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1978
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.55555725097656,
      "epoch": 14.873134328358208,
      "grad_norm": 0.0,
      "learning_rate": 4.96544476604824e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1979
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.08333587646484,
      "epoch": 14.880597014925373,
      "grad_norm": 0.0,
      "learning_rate": 4.965336778145895e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1980
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.0,
      "epoch": 14.888059701492537,
      "grad_norm": 0.0,
      "learning_rate": 4.965228622949158e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1981
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.05555725097656,
      "epoch": 14.895522388059701,
      "grad_norm": 0.0,
      "learning_rate": 4.965120300465368e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1982
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.4444465637207,
      "epoch": 14.902985074626866,
      "grad_norm": 0.0,
      "learning_rate": 4.965011810701877e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1983
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.47222137451172,
      "epoch": 14.91044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.964903153666046e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1984
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.72222137451172,
      "epoch": 14.917910447761194,
      "grad_norm": 2.6202659226422034,
      "learning_rate": 4.964794329365248e-07,
      "loss": 0.0031,
      "reward": 1.888888955116272,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1985
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 72.61111450195312,
      "epoch": 14.925373134328359,
      "grad_norm": 0.0,
      "learning_rate": 4.96468533780687e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1986
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.1388931274414,
      "epoch": 14.932835820895523,
      "grad_norm": 700.5034628959809,
      "learning_rate": 4.964576178998304e-07,
      "loss": 0.0075,
      "reward": 1.6944444179534912,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 1987
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.11111450195312,
      "epoch": 14.940298507462687,
      "grad_norm": 0.0,
      "learning_rate": 4.964466852946962e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1988
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.1388931274414,
      "epoch": 14.947761194029852,
      "grad_norm": 0.0,
      "learning_rate": 4.964357359660259e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1989
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.05555725097656,
      "epoch": 14.955223880597014,
      "grad_norm": 0.0,
      "learning_rate": 4.964247699145625e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1990
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.16666412353516,
      "epoch": 14.962686567164178,
      "grad_norm": 0.0,
      "learning_rate": 4.964137871410505e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1991
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 72.30555725097656,
      "epoch": 14.970149253731343,
      "grad_norm": 25.882869987979277,
      "learning_rate": 4.964027876462349e-07,
      "loss": -0.0381,
      "reward": 1.7777777910232544,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 1992
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.36111450195312,
      "epoch": 14.977611940298507,
      "grad_norm": 0.0,
      "learning_rate": 4.963917714308621e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1993
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.77777862548828,
      "epoch": 14.985074626865671,
      "grad_norm": 12.051902122642513,
      "learning_rate": 4.963807384956797e-07,
      "loss": -0.0004,
      "reward": 1.6111111640930176,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 1994
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.0,
      "epoch": 14.992537313432836,
      "grad_norm": 0.0,
      "learning_rate": 4.963696888414365e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1995
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.47222137451172,
      "epoch": 15.007462686567164,
      "grad_norm": 0.0,
      "learning_rate": 4.963586224688821e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 1996
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.66666412353516,
      "epoch": 15.014925373134329,
      "grad_norm": 0.0,
      "learning_rate": 4.963475393787676e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 1997
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.52777862548828,
      "epoch": 15.022388059701493,
      "grad_norm": 0.0,
      "learning_rate": 4.96336439571845e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 1998
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.91666412353516,
      "epoch": 15.029850746268657,
      "grad_norm": 9.898631473864379,
      "learning_rate": 4.963253230488676e-07,
      "loss": 0.0074,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 1999
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.05555725097656,
      "epoch": 15.037313432835822,
      "grad_norm": 2.543260422668743,
      "learning_rate": 4.963141898105897e-07,
      "loss": -0.0025,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 2000
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.3888931274414,
      "epoch": 15.044776119402986,
      "grad_norm": 0.0,
      "learning_rate": 4.963030398577668e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2001
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.72222137451172,
      "epoch": 15.052238805970148,
      "grad_norm": 4.941297854403793,
      "learning_rate": 4.962918731911555e-07,
      "loss": -0.0004,
      "reward": 1.638888955116272,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 2002
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.91666412353516,
      "epoch": 15.059701492537313,
      "grad_norm": 0.0,
      "learning_rate": 4.962806898115136e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2003
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.66666412353516,
      "epoch": 15.067164179104477,
      "grad_norm": 0.0,
      "learning_rate": 4.962694897195999e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2004
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.6388931274414,
      "epoch": 15.074626865671641,
      "grad_norm": 0.0,
      "learning_rate": 4.962582729161745e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 2005
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.72222137451172,
      "epoch": 15.082089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.962470394019986e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2006
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.11111450195312,
      "epoch": 15.08955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.962357891778344e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2007
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.6388931274414,
      "epoch": 15.097014925373134,
      "grad_norm": 8.32670740093872,
      "learning_rate": 4.962245222444454e-07,
      "loss": -0.0258,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 2008
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.47222137451172,
      "epoch": 15.104477611940299,
      "grad_norm": 0.0,
      "learning_rate": 4.962132386025959e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2009
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.3888931274414,
      "epoch": 15.111940298507463,
      "grad_norm": 11.208763769927916,
      "learning_rate": 4.96201938253052e-07,
      "loss": 0.0075,
      "reward": 1.638888955116272,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 2010
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.47222137451172,
      "epoch": 15.119402985074627,
      "grad_norm": 1.4626360454205296,
      "learning_rate": 4.961906211965803e-07,
      "loss": 0.0054,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 2011
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.47222137451172,
      "epoch": 15.126865671641792,
      "grad_norm": 0.0,
      "learning_rate": 4.961792874339488e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2012
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.25,
      "epoch": 15.134328358208956,
      "grad_norm": 0.0,
      "learning_rate": 4.961679369659265e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2013
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.77777862548828,
      "epoch": 15.14179104477612,
      "grad_norm": 0.0,
      "learning_rate": 4.961565697932838e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2014
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.22222137451172,
      "epoch": 15.149253731343283,
      "grad_norm": 0.0,
      "learning_rate": 4.961451859167919e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2015
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.47222137451172,
      "epoch": 15.156716417910447,
      "grad_norm": 0.0,
      "learning_rate": 4.961337853372235e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2016
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.8888931274414,
      "epoch": 15.164179104477611,
      "grad_norm": 0.0,
      "learning_rate": 4.96122368055352e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2017
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 72.52777862548828,
      "epoch": 15.171641791044776,
      "grad_norm": 2.294780712073559,
      "learning_rate": 4.961109340719522e-07,
      "loss": -0.0002,
      "reward": 1.6944444179534912,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 2018
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.77777862548828,
      "epoch": 15.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.960994833878002e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2019
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.44444274902344,
      "epoch": 15.186567164179104,
      "grad_norm": 0.0,
      "learning_rate": 4.960880160036727e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2020
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.44444274902344,
      "epoch": 15.194029850746269,
      "grad_norm": 11.951339878093568,
      "learning_rate": 4.960765319203482e-07,
      "loss": 0.0085,
      "reward": 1.8055555820465088,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 2021
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.41666412353516,
      "epoch": 15.201492537313433,
      "grad_norm": 0.0,
      "learning_rate": 4.960650311386057e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2022
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 72.58333587646484,
      "epoch": 15.208955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.960535136592259e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2023
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.58333587646484,
      "epoch": 15.216417910447761,
      "grad_norm": 0.0,
      "learning_rate": 4.960419794829901e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2024
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.16666412353516,
      "epoch": 15.223880597014926,
      "grad_norm": 7.490509303577683,
      "learning_rate": 4.960304286106812e-07,
      "loss": -0.0102,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 2025
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.80555725097656,
      "epoch": 15.23134328358209,
      "grad_norm": 1.59696010132628,
      "learning_rate": 4.960188610430829e-07,
      "loss": 0.0245,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 2026
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.16666412353516,
      "epoch": 15.238805970149254,
      "grad_norm": 0.0,
      "learning_rate": 4.960072767809802e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2027
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.02777862548828,
      "epoch": 15.246268656716419,
      "grad_norm": 55.79904240223465,
      "learning_rate": 4.959956758251592e-07,
      "loss": 0.0137,
      "reward": 1.7777777910232544,
      "reward_std": 0.12830005586147308,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2028
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.77777862548828,
      "epoch": 15.253731343283581,
      "grad_norm": 0.0,
      "learning_rate": 4.959840581764071e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2029
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.8888931274414,
      "epoch": 15.261194029850746,
      "grad_norm": 12.347906279175652,
      "learning_rate": 4.959724238355123e-07,
      "loss": 0.0227,
      "reward": 1.9444444179534912,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.944444477558136,
      "rewards/format_reward": 1.0,
      "step": 2030
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.80555725097656,
      "epoch": 15.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.959607728032643e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2031
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.8888931274414,
      "epoch": 15.276119402985074,
      "grad_norm": 0.0,
      "learning_rate": 4.959491050804537e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2032
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.9444465637207,
      "epoch": 15.283582089552239,
      "grad_norm": 0.0,
      "learning_rate": 4.959374206678721e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2033
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.9444465637207,
      "epoch": 15.291044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.959257195663127e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2034
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.47222137451172,
      "epoch": 15.298507462686567,
      "grad_norm": 0.0,
      "learning_rate": 4.959140017765693e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2035
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.83333587646484,
      "epoch": 15.305970149253731,
      "grad_norm": 0.0,
      "learning_rate": 4.959022672994371e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 2036
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.86111450195312,
      "epoch": 15.313432835820896,
      "grad_norm": 0.0,
      "learning_rate": 4.958905161357124e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2037
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.6388931274414,
      "epoch": 15.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.958787482861926e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 2038
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.11111450195312,
      "epoch": 15.328358208955224,
      "grad_norm": 0.0,
      "learning_rate": 4.958669637516762e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2039
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.75,
      "epoch": 15.335820895522389,
      "grad_norm": 0.0,
      "learning_rate": 4.95855162532963e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2040
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.88888931274414,
      "epoch": 15.343283582089553,
      "grad_norm": 0.0,
      "learning_rate": 4.958433446308538e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2041
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.0,
      "epoch": 15.350746268656717,
      "grad_norm": 0.0,
      "learning_rate": 4.958315100461505e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2042
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.02777862548828,
      "epoch": 15.35820895522388,
      "grad_norm": 0.0,
      "learning_rate": 4.958196587796562e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2043
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.02777862548828,
      "epoch": 15.365671641791044,
      "grad_norm": 0.0,
      "learning_rate": 4.95807790832175e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 2044
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.27777862548828,
      "epoch": 15.373134328358208,
      "grad_norm": 0.0,
      "learning_rate": 4.957959062045124e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2045
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.27777862548828,
      "epoch": 15.380597014925373,
      "grad_norm": 0.0,
      "learning_rate": 4.957840048974748e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2046
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.5,
      "epoch": 15.388059701492537,
      "grad_norm": 0.0,
      "learning_rate": 4.957720869118699e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2047
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.52777862548828,
      "epoch": 15.395522388059701,
      "grad_norm": 0.0,
      "learning_rate": 4.957601522485062e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2048
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.27777862548828,
      "epoch": 15.402985074626866,
      "grad_norm": 0.0,
      "learning_rate": 4.957482009081938e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2049
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.83333206176758,
      "epoch": 15.41044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.957362328917437e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2050
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.22222137451172,
      "epoch": 15.417910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.957242481999678e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2051
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.8888931274414,
      "epoch": 15.425373134328359,
      "grad_norm": 0.0,
      "learning_rate": 4.957122468336797e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2052
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.86111068725586,
      "epoch": 15.432835820895523,
      "grad_norm": 0.0,
      "learning_rate": 4.957002287936935e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2053
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.02777862548828,
      "epoch": 15.440298507462687,
      "grad_norm": 0.0,
      "learning_rate": 4.95688194080825e-07,
      "loss": 0.0,
      "reward": 1.4444444179534912,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 2054
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.91666412353516,
      "epoch": 15.447761194029852,
      "grad_norm": 0.0,
      "learning_rate": 4.956761426958905e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2055
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.0,
      "epoch": 15.455223880597014,
      "grad_norm": 0.0,
      "learning_rate": 4.956640746397082e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2056
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.47222137451172,
      "epoch": 15.462686567164178,
      "grad_norm": 0.0,
      "learning_rate": 4.956519899130967e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2057
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.6388931274414,
      "epoch": 15.470149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.956398885168763e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2058
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.0,
      "epoch": 15.477611940298507,
      "grad_norm": 0.0,
      "learning_rate": 4.956277704518678e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2059
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.5,
      "epoch": 15.485074626865671,
      "grad_norm": 0.0,
      "learning_rate": 4.956156357188939e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 2060
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.69444274902344,
      "epoch": 15.492537313432836,
      "grad_norm": 0.0,
      "learning_rate": 4.956034843187781e-07,
      "loss": 0.0,
      "reward": 1.4444444179534912,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 2061
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.11111450195312,
      "epoch": 15.5,
      "grad_norm": 35.09486161424404,
      "learning_rate": 4.955913162523446e-07,
      "loss": -0.0003,
      "reward": 1.9444444179534912,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.944444477558136,
      "rewards/format_reward": 1.0,
      "step": 2062
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.19444274902344,
      "epoch": 15.507462686567164,
      "grad_norm": 0.0,
      "learning_rate": 4.955791315204194e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2063
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.55555725097656,
      "epoch": 15.514925373134329,
      "grad_norm": 0.0,
      "learning_rate": 4.955669301238292e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2064
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.08333587646484,
      "epoch": 15.522388059701493,
      "grad_norm": 0.0,
      "learning_rate": 4.95554712063402e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2065
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.58333206176758,
      "epoch": 15.529850746268657,
      "grad_norm": 0.0,
      "learning_rate": 4.95542477339967e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2066
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.55555725097656,
      "epoch": 15.537313432835822,
      "grad_norm": 0.0,
      "learning_rate": 4.955302259543544e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2067
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.25,
      "epoch": 15.544776119402986,
      "grad_norm": 0.0,
      "learning_rate": 4.955179579073954e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2068
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.22222137451172,
      "epoch": 15.552238805970148,
      "grad_norm": 0.0,
      "learning_rate": 4.955056731999226e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2069
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.11111450195312,
      "epoch": 15.559701492537313,
      "grad_norm": 0.0,
      "learning_rate": 4.954933718327696e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2070
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.11111450195312,
      "epoch": 15.567164179104477,
      "grad_norm": 0.0,
      "learning_rate": 4.954810538067713e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2071
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.88888931274414,
      "epoch": 15.574626865671641,
      "grad_norm": 0.0,
      "learning_rate": 4.954687191227634e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2072
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.38888931274414,
      "epoch": 15.582089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.95456367781583e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2073
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.11111068725586,
      "epoch": 15.58955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.954439997840681e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2074
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.72222137451172,
      "epoch": 15.597014925373134,
      "grad_norm": 0.0,
      "learning_rate": 4.954316151310582e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2075
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.25,
      "epoch": 15.604477611940299,
      "grad_norm": 0.0,
      "learning_rate": 4.954192138233937e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2076
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.97222137451172,
      "epoch": 15.611940298507463,
      "grad_norm": 1.8286414210055972,
      "learning_rate": 4.95406795861916e-07,
      "loss": -0.0099,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 2077
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.58333587646484,
      "epoch": 15.619402985074627,
      "grad_norm": 0.0,
      "learning_rate": 4.953943612474678e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2078
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.88888931274414,
      "epoch": 15.626865671641792,
      "grad_norm": 0.0,
      "learning_rate": 4.953819099808928e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2079
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.1388931274414,
      "epoch": 15.634328358208956,
      "grad_norm": 0.0,
      "learning_rate": 4.953694420630361e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2080
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.91666793823242,
      "epoch": 15.64179104477612,
      "grad_norm": 0.0,
      "learning_rate": 4.953569574947437e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2081
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.19444274902344,
      "epoch": 15.649253731343283,
      "grad_norm": 0.0,
      "learning_rate": 4.953444562768628e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2082
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.69444274902344,
      "epoch": 15.656716417910447,
      "grad_norm": 0.0,
      "learning_rate": 4.953319384102416e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2083
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.25,
      "epoch": 15.664179104477611,
      "grad_norm": 0.0,
      "learning_rate": 4.953194038957297e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2084
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.8888931274414,
      "epoch": 15.671641791044776,
      "grad_norm": 0.0,
      "learning_rate": 4.953068527341777e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 2085
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.5,
      "epoch": 15.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.952942849264371e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2086
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.80555725097656,
      "epoch": 15.686567164179104,
      "grad_norm": 0.0,
      "learning_rate": 4.952817004733608e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2087
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.72222137451172,
      "epoch": 15.694029850746269,
      "grad_norm": 0.0,
      "learning_rate": 4.952690993758029e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2088
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.83333206176758,
      "epoch": 15.701492537313433,
      "grad_norm": 0.0,
      "learning_rate": 4.952564816346184e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2089
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.19444274902344,
      "epoch": 15.708955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.952438472506635e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2090
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.11111068725586,
      "epoch": 15.716417910447761,
      "grad_norm": 0.0,
      "learning_rate": 4.952311962247956e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2091
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.44444274902344,
      "epoch": 15.723880597014926,
      "grad_norm": 0.0,
      "learning_rate": 4.952185285578732e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2092
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.19444274902344,
      "epoch": 15.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.952058442507558e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2093
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.1388931274414,
      "epoch": 15.738805970149254,
      "grad_norm": 0.0,
      "learning_rate": 4.951931433043043e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2094
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.19444274902344,
      "epoch": 15.746268656716419,
      "grad_norm": 11.943096218656947,
      "learning_rate": 4.951804257193804e-07,
      "loss": -0.0082,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 2095
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.27777862548828,
      "epoch": 15.753731343283581,
      "grad_norm": 0.0,
      "learning_rate": 4.951676914968471e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2096
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.8888931274414,
      "epoch": 15.761194029850746,
      "grad_norm": 0.0,
      "learning_rate": 4.951549406375688e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2097
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.08333587646484,
      "epoch": 15.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.951421731424104e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2098
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.63888931274414,
      "epoch": 15.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 4.951293890122386e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2099
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.25,
      "epoch": 15.783582089552239,
      "grad_norm": 0.0,
      "learning_rate": 4.951165882479206e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2100
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.30555725097656,
      "epoch": 15.791044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.951037708503253e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2101
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.05555725097656,
      "epoch": 15.798507462686567,
      "grad_norm": 0.0,
      "learning_rate": 4.950909368203224e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2102
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.25,
      "epoch": 15.805970149253731,
      "grad_norm": 45.879118012669096,
      "learning_rate": 4.950780861587826e-07,
      "loss": 0.0109,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 2103
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.6944465637207,
      "epoch": 15.813432835820896,
      "grad_norm": 0.0,
      "learning_rate": 4.950652188665783e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2104
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.61111068725586,
      "epoch": 15.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.950523349445824e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2105
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.5,
      "epoch": 15.828358208955224,
      "grad_norm": 0.0,
      "learning_rate": 4.950394343936692e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2106
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.6388931274414,
      "epoch": 15.835820895522389,
      "grad_norm": 0.0,
      "learning_rate": 4.950265172147141e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2107
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.02777862548828,
      "epoch": 15.843283582089553,
      "grad_norm": 0.0,
      "learning_rate": 4.950135834085939e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2108
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.52777862548828,
      "epoch": 15.850746268656717,
      "grad_norm": 0.0,
      "learning_rate": 4.950006329761859e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2109
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.05555725097656,
      "epoch": 15.85820895522388,
      "grad_norm": 0.0,
      "learning_rate": 4.949876659183692e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2110
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.80555725097656,
      "epoch": 15.865671641791044,
      "grad_norm": 0.0,
      "learning_rate": 4.949746822360235e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2111
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.52777862548828,
      "epoch": 15.873134328358208,
      "grad_norm": 0.0,
      "learning_rate": 4.949616819300299e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2112
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.83333587646484,
      "epoch": 15.880597014925373,
      "grad_norm": 0.0,
      "learning_rate": 4.949486650012707e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2113
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 71.77777862548828,
      "epoch": 15.888059701492537,
      "grad_norm": 0.0,
      "learning_rate": 4.949356314506292e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2114
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.6388931274414,
      "epoch": 15.895522388059701,
      "grad_norm": 0.0,
      "learning_rate": 4.949225812789898e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2115
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.6944465637207,
      "epoch": 15.902985074626866,
      "grad_norm": 0.0,
      "learning_rate": 4.949095144872379e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2116
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.5,
      "epoch": 15.91044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.948964310762605e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2117
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.66666793823242,
      "epoch": 15.917910447761194,
      "grad_norm": 1.7709823127506854,
      "learning_rate": 4.948833310469451e-07,
      "loss": -0.0004,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 2118
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.72222137451172,
      "epoch": 15.925373134328359,
      "grad_norm": 0.0,
      "learning_rate": 4.94870214400181e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2119
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.38888931274414,
      "epoch": 15.932835820895523,
      "grad_norm": 0.0,
      "learning_rate": 4.948570811368579e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2120
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.72222137451172,
      "epoch": 15.940298507462687,
      "grad_norm": 0.0,
      "learning_rate": 4.948439312578673e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2121
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.5,
      "epoch": 15.947761194029852,
      "grad_norm": 0.0,
      "learning_rate": 4.948307647641015e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2122
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.91666793823242,
      "epoch": 15.955223880597014,
      "grad_norm": 0.0,
      "learning_rate": 4.94817581656454e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2123
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.33333206176758,
      "epoch": 15.962686567164178,
      "grad_norm": 0.0,
      "learning_rate": 4.948043819358191e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2124
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.80555725097656,
      "epoch": 15.970149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.947911656030927e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2125
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.6388931274414,
      "epoch": 15.977611940298507,
      "grad_norm": 0.0,
      "learning_rate": 4.947779326591716e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2126
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.4444465637207,
      "epoch": 15.985074626865671,
      "grad_norm": 0.0,
      "learning_rate": 4.947646831049539e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2127
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.41667175292969,
      "epoch": 15.992537313432836,
      "grad_norm": 11.356262896445612,
      "learning_rate": 4.947514169413386e-07,
      "loss": -0.0159,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 2128
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.77777862548828,
      "epoch": 16.007462686567163,
      "grad_norm": 0.0,
      "learning_rate": 4.947381341692259e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2129
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.61111450195312,
      "epoch": 16.01492537313433,
      "grad_norm": 0.0,
      "learning_rate": 4.947248347895172e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2130
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.19444274902344,
      "epoch": 16.02238805970149,
      "grad_norm": 0.0,
      "learning_rate": 4.947115188031149e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2131
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.94444274902344,
      "epoch": 16.029850746268657,
      "grad_norm": 0.0,
      "learning_rate": 4.946981862109227e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2132
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.77777862548828,
      "epoch": 16.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 4.946848370138453e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2133
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.77777862548828,
      "epoch": 16.044776119402986,
      "grad_norm": 0.0,
      "learning_rate": 4.946714712127886e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2134
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.36111068725586,
      "epoch": 16.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 4.946580888086594e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2135
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.4444465637207,
      "epoch": 16.059701492537314,
      "grad_norm": 0.0,
      "learning_rate": 4.946446898023662e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2136
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.1388931274414,
      "epoch": 16.067164179104477,
      "grad_norm": 0.0,
      "learning_rate": 4.946312741948177e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2137
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.9444465637207,
      "epoch": 16.074626865671643,
      "grad_norm": 0.0,
      "learning_rate": 4.946178419869247e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2138
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.69444274902344,
      "epoch": 16.082089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.946043931795986e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2139
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.66666412353516,
      "epoch": 16.08955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.945909277737518e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2140
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.44444274902344,
      "epoch": 16.097014925373134,
      "grad_norm": 0.0,
      "learning_rate": 4.945774457702983e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2141
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.47222137451172,
      "epoch": 16.104477611940297,
      "grad_norm": 0.0,
      "learning_rate": 4.945639471701529e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 2142
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.75,
      "epoch": 16.111940298507463,
      "grad_norm": 0.0,
      "learning_rate": 4.945504319742315e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2143
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 72.58333587646484,
      "epoch": 16.119402985074625,
      "grad_norm": 0.0,
      "learning_rate": 4.945369001834514e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 2144
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.30555725097656,
      "epoch": 16.12686567164179,
      "grad_norm": 0.0,
      "learning_rate": 4.945233517987307e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2145
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.08333587646484,
      "epoch": 16.134328358208954,
      "grad_norm": 3.233323937487993,
      "learning_rate": 4.945097868209887e-07,
      "loss": 0.0023,
      "reward": 1.9444444179534912,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.944444477558136,
      "rewards/format_reward": 1.0,
      "step": 2146
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.0,
      "epoch": 16.14179104477612,
      "grad_norm": 0.0,
      "learning_rate": 4.944962052511462e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2147
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.8888931274414,
      "epoch": 16.149253731343283,
      "grad_norm": 0.0,
      "learning_rate": 4.944826070901246e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2148
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.83333587646484,
      "epoch": 16.15671641791045,
      "grad_norm": 0.0,
      "learning_rate": 4.944689923388467e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2149
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.22222137451172,
      "epoch": 16.16417910447761,
      "grad_norm": 0.0,
      "learning_rate": 4.944553609982362e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2150
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.86111450195312,
      "epoch": 16.171641791044777,
      "grad_norm": 14.168479478401743,
      "learning_rate": 4.944417130692185e-07,
      "loss": 0.0025,
      "reward": 1.5277777910232544,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 2151
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.16666793823242,
      "epoch": 16.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.944280485527195e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2152
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.3888931274414,
      "epoch": 16.186567164179106,
      "grad_norm": 34.854037404547526,
      "learning_rate": 4.944143674496664e-07,
      "loss": 0.0047,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 2153
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.55555725097656,
      "epoch": 16.19402985074627,
      "grad_norm": 0.0,
      "learning_rate": 4.944006697609876e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2154
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.47222137451172,
      "epoch": 16.20149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.943869554876127e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2155
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.16666793823242,
      "epoch": 16.208955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.943732246304723e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2156
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.0,
      "epoch": 16.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 4.943594771904982e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2157
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.80555725097656,
      "epoch": 16.223880597014926,
      "grad_norm": 0.0,
      "learning_rate": 4.943457131686231e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2158
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.33333206176758,
      "epoch": 16.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.943319325657812e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2159
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.33333587646484,
      "epoch": 16.238805970149254,
      "grad_norm": 0.0,
      "learning_rate": 4.943181353829076e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2160
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.0,
      "epoch": 16.246268656716417,
      "grad_norm": 0.0,
      "learning_rate": 4.943043216209384e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2161
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.97222137451172,
      "epoch": 16.253731343283583,
      "grad_norm": 0.0,
      "learning_rate": 4.942904912808112e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2162
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.61111450195312,
      "epoch": 16.261194029850746,
      "grad_norm": 0.0,
      "learning_rate": 4.942766443634645e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2163
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.36111450195312,
      "epoch": 16.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.942627808698378e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2164
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.41666412353516,
      "epoch": 16.276119402985074,
      "grad_norm": 0.0,
      "learning_rate": 4.942489008008718e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2165
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.47222137451172,
      "epoch": 16.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 4.942350041575085e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2166
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.55555725097656,
      "epoch": 16.291044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.94221090940691e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2167
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.77777862548828,
      "epoch": 16.298507462686565,
      "grad_norm": 1.3096743457750462,
      "learning_rate": 4.942071611513633e-07,
      "loss": 0.0033,
      "reward": 1.6944444179534912,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 2168
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.72222137451172,
      "epoch": 16.30597014925373,
      "grad_norm": 0.0,
      "learning_rate": 4.941932147904708e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2169
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.58333206176758,
      "epoch": 16.313432835820894,
      "grad_norm": 0.0,
      "learning_rate": 4.941792518589596e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2170
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.0,
      "epoch": 16.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.941652723577774e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2171
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.5,
      "epoch": 16.328358208955223,
      "grad_norm": 0.0,
      "learning_rate": 4.941512762878728e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2172
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.63888931274414,
      "epoch": 16.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 4.941372636501955e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2173
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.25,
      "epoch": 16.34328358208955,
      "grad_norm": 0.0,
      "learning_rate": 4.941232344456965e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2174
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.91666793823242,
      "epoch": 16.350746268656717,
      "grad_norm": 0.0,
      "learning_rate": 4.941091886753278e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2175
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.5,
      "epoch": 16.35820895522388,
      "grad_norm": 0.0,
      "learning_rate": 4.940951263400424e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2176
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.72222137451172,
      "epoch": 16.365671641791046,
      "grad_norm": 0.0,
      "learning_rate": 4.940810474407946e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2177
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.61111068725586,
      "epoch": 16.37313432835821,
      "grad_norm": 0.0,
      "learning_rate": 4.940669519785398e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2178
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.33333206176758,
      "epoch": 16.380597014925375,
      "grad_norm": 0.0,
      "learning_rate": 4.940528399542345e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2179
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.58333206176758,
      "epoch": 16.388059701492537,
      "grad_norm": 0.0,
      "learning_rate": 4.940387113688362e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2180
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.02777862548828,
      "epoch": 16.395522388059703,
      "grad_norm": 0.0,
      "learning_rate": 4.94024566223304e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2181
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.30555725097656,
      "epoch": 16.402985074626866,
      "grad_norm": 0.0,
      "learning_rate": 4.940104045185973e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2182
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.1388931274414,
      "epoch": 16.41044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.939962262556774e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2183
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.77777862548828,
      "epoch": 16.417910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.939820314355064e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2184
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.41666412353516,
      "epoch": 16.425373134328357,
      "grad_norm": 0.0,
      "learning_rate": 4.939678200590475e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2185
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.63888931274414,
      "epoch": 16.432835820895523,
      "grad_norm": 13.282982856541953,
      "learning_rate": 4.93953592127265e-07,
      "loss": 0.0009,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 2186
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.55555725097656,
      "epoch": 16.440298507462686,
      "grad_norm": 0.0,
      "learning_rate": 4.939393476411244e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2187
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.38888931274414,
      "epoch": 16.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 4.939250866015923e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2188
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.33333206176758,
      "epoch": 16.455223880597014,
      "grad_norm": 0.0,
      "learning_rate": 4.939108090096366e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2189
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.5,
      "epoch": 16.46268656716418,
      "grad_norm": 261.829151763025,
      "learning_rate": 4.93896514866226e-07,
      "loss": -0.003,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 2190
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.30555725097656,
      "epoch": 16.470149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.938822041723304e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 2191
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.05555725097656,
      "epoch": 16.47761194029851,
      "grad_norm": 0.0,
      "learning_rate": 4.938678769289212e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2192
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.97222137451172,
      "epoch": 16.48507462686567,
      "grad_norm": 13.36507226217539,
      "learning_rate": 4.938535331369704e-07,
      "loss": 0.0123,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 2193
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.05555725097656,
      "epoch": 16.492537313432837,
      "grad_norm": 0.0,
      "learning_rate": 4.938391727974513e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2194
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.91666793823242,
      "epoch": 16.5,
      "grad_norm": 0.0,
      "learning_rate": 4.938247959113385e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2195
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.30555725097656,
      "epoch": 16.507462686567163,
      "grad_norm": 0.0,
      "learning_rate": 4.938104024796076e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2196
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.3888931274414,
      "epoch": 16.51492537313433,
      "grad_norm": 0.0,
      "learning_rate": 4.937959925032353e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2197
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.55555725097656,
      "epoch": 16.52238805970149,
      "grad_norm": 0.0,
      "learning_rate": 4.937815659831994e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2198
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.1388931274414,
      "epoch": 16.529850746268657,
      "grad_norm": 0.0,
      "learning_rate": 4.93767122920479e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2199
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.91666793823242,
      "epoch": 16.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 4.937526633160539e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2200
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.25,
      "epoch": 16.544776119402986,
      "grad_norm": 0.0,
      "learning_rate": 4.937381871709057e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2201
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.9444465637207,
      "epoch": 16.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 4.937236944860164e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2202
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.19444274902344,
      "epoch": 16.559701492537314,
      "grad_norm": 0.0,
      "learning_rate": 4.937091852623695e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2203
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.86111450195312,
      "epoch": 16.567164179104477,
      "grad_norm": 0.0,
      "learning_rate": 4.936946595009497e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2204
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.05555725097656,
      "epoch": 16.574626865671643,
      "grad_norm": 0.0,
      "learning_rate": 4.936801172027427e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2205
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.5,
      "epoch": 16.582089552238806,
      "grad_norm": 9.228893653164254,
      "learning_rate": 4.936655583687353e-07,
      "loss": -0.0107,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 2206
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.30555725097656,
      "epoch": 16.58955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.936509829999153e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2207
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.4444465637207,
      "epoch": 16.597014925373134,
      "grad_norm": 0.0,
      "learning_rate": 4.93636391097272e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2208
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.66666793823242,
      "epoch": 16.604477611940297,
      "grad_norm": 0.0,
      "learning_rate": 4.936217826617954e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2209
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.08333587646484,
      "epoch": 16.611940298507463,
      "grad_norm": 0.0,
      "learning_rate": 4.936071576944769e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2210
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.36111068725586,
      "epoch": 16.619402985074625,
      "grad_norm": 0.0,
      "learning_rate": 4.935925161963089e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2211
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.52777862548828,
      "epoch": 16.62686567164179,
      "grad_norm": 0.0,
      "learning_rate": 4.935778581682848e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2212
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.27777862548828,
      "epoch": 16.634328358208954,
      "grad_norm": 0.0,
      "learning_rate": 4.935631836113996e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2213
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.75,
      "epoch": 16.64179104477612,
      "grad_norm": 0.0,
      "learning_rate": 4.935484925266488e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2214
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.08333587646484,
      "epoch": 16.649253731343283,
      "grad_norm": 0.0,
      "learning_rate": 4.935337849150295e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2215
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.86111068725586,
      "epoch": 16.65671641791045,
      "grad_norm": 0.0,
      "learning_rate": 4.935190607775397e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2216
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.58333206176758,
      "epoch": 16.66417910447761,
      "grad_norm": 0.0,
      "learning_rate": 4.935043201151786e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2217
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.11111450195312,
      "epoch": 16.671641791044777,
      "grad_norm": 0.0,
      "learning_rate": 4.934895629289463e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2218
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.30555725097656,
      "epoch": 16.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.934747892198444e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2219
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.80555725097656,
      "epoch": 16.686567164179106,
      "grad_norm": 0.0,
      "learning_rate": 4.934599989888753e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2220
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.86111450195312,
      "epoch": 16.69402985074627,
      "grad_norm": 0.0,
      "learning_rate": 4.934451922370427e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2221
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.05555725097656,
      "epoch": 16.701492537313435,
      "grad_norm": 0.0,
      "learning_rate": 4.934303689653513e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2222
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.33333587646484,
      "epoch": 16.708955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.934155291748072e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2223
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.83333587646484,
      "epoch": 16.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 4.934006728664171e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2224
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.61111450195312,
      "epoch": 16.723880597014926,
      "grad_norm": 0.0,
      "learning_rate": 4.933858000411894e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2225
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.69444274902344,
      "epoch": 16.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.933709107001331e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2226
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 71.36111450195312,
      "epoch": 16.738805970149254,
      "grad_norm": 0.0,
      "learning_rate": 4.933560048442588e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2227
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.36111068725586,
      "epoch": 16.746268656716417,
      "grad_norm": 0.0,
      "learning_rate": 4.933410824745778e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2228
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.27777862548828,
      "epoch": 16.753731343283583,
      "grad_norm": 0.0,
      "learning_rate": 4.933261435921029e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2229
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.02777862548828,
      "epoch": 16.761194029850746,
      "grad_norm": 0.0,
      "learning_rate": 4.933111881978477e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2230
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.83333206176758,
      "epoch": 16.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.932962162928271e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2231
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.61111068725586,
      "epoch": 16.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 4.93281227878057e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2232
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.30555725097656,
      "epoch": 16.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 4.932662229545547e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2233
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.44444274902344,
      "epoch": 16.791044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.93251201523338e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2234
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.5,
      "epoch": 16.798507462686565,
      "grad_norm": 0.0,
      "learning_rate": 4.932361635854267e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2235
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.97222137451172,
      "epoch": 16.80597014925373,
      "grad_norm": 0.0,
      "learning_rate": 4.932211091418411e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2236
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.0,
      "epoch": 16.813432835820894,
      "grad_norm": 0.0,
      "learning_rate": 4.932060381936026e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2237
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.47222137451172,
      "epoch": 16.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.931909507417341e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 2238
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.41666793823242,
      "epoch": 16.828358208955223,
      "grad_norm": 816.5342879340986,
      "learning_rate": 4.931758467872594e-07,
      "loss": 0.011,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 2239
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.58333206176758,
      "epoch": 16.83582089552239,
      "grad_norm": 33.30033968346129,
      "learning_rate": 4.931607263312032e-07,
      "loss": 0.0124,
      "reward": 1.9444444179534912,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.944444477558136,
      "rewards/format_reward": 1.0,
      "step": 2240
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.61111068725586,
      "epoch": 16.84328358208955,
      "grad_norm": 0.0,
      "learning_rate": 4.931455893745918e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2241
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.3888931274414,
      "epoch": 16.850746268656717,
      "grad_norm": 0.0,
      "learning_rate": 4.931304359184524e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2242
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.83333587646484,
      "epoch": 16.85820895522388,
      "grad_norm": 0.0,
      "learning_rate": 4.93115265963813e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2243
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.25,
      "epoch": 16.865671641791046,
      "grad_norm": 0.0,
      "learning_rate": 4.931000795117034e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2244
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.66666412353516,
      "epoch": 16.87313432835821,
      "grad_norm": 0.0,
      "learning_rate": 4.930848765631537e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2245
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.55555725097656,
      "epoch": 16.880597014925375,
      "grad_norm": 0.0,
      "learning_rate": 4.93069657119196e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2246
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.86111450195312,
      "epoch": 16.888059701492537,
      "grad_norm": 0.0,
      "learning_rate": 4.930544211808628e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2247
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.41666412353516,
      "epoch": 16.895522388059703,
      "grad_norm": 0.0,
      "learning_rate": 4.93039168749188e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2248
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.36111068725586,
      "epoch": 16.902985074626866,
      "grad_norm": 0.0,
      "learning_rate": 4.930238998252068e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2249
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.30555725097656,
      "epoch": 16.91044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.93008614409955e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2250
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.02777862548828,
      "epoch": 16.917910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.929933125044701e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2251
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.16666793823242,
      "epoch": 16.925373134328357,
      "grad_norm": 0.0,
      "learning_rate": 4.929779941097905e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2252
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.66666412353516,
      "epoch": 16.932835820895523,
      "grad_norm": 0.0,
      "learning_rate": 4.929626592269554e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2253
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.47222137451172,
      "epoch": 16.940298507462686,
      "grad_norm": 0.0,
      "learning_rate": 4.929473078570058e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2254
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.83333206176758,
      "epoch": 16.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 4.92931940000983e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2255
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.75,
      "epoch": 16.955223880597014,
      "grad_norm": 0.0,
      "learning_rate": 4.929165556599301e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2256
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.08333587646484,
      "epoch": 16.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 4.929011548348912e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2257
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.58333587646484,
      "epoch": 16.970149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.928857375269109e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2258
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.69444274902344,
      "epoch": 16.97761194029851,
      "grad_norm": 0.0,
      "learning_rate": 4.928703037370359e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2259
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.6944465637207,
      "epoch": 16.98507462686567,
      "grad_norm": 0.0,
      "learning_rate": 4.928548534663132e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2260
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.5,
      "epoch": 16.992537313432837,
      "grad_norm": 0.0,
      "learning_rate": 4.928393867157914e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2261
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.83333206176758,
      "epoch": 17.007462686567163,
      "grad_norm": 0.0,
      "learning_rate": 4.9282390348652e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2262
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.36111068725586,
      "epoch": 17.01492537313433,
      "grad_norm": 13.630980517221264,
      "learning_rate": 4.928084037795497e-07,
      "loss": 0.0081,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 2263
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.69444274902344,
      "epoch": 17.02238805970149,
      "grad_norm": 0.0,
      "learning_rate": 4.927928875959321e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2264
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.27777862548828,
      "epoch": 17.029850746268657,
      "grad_norm": 0.0,
      "learning_rate": 4.927773549367205e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2265
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.1944465637207,
      "epoch": 17.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 4.927618058029684e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2266
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.94444274902344,
      "epoch": 17.044776119402986,
      "grad_norm": 0.0,
      "learning_rate": 4.927462401957314e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2267
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.97222137451172,
      "epoch": 17.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 4.927306581160656e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2268
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.0,
      "epoch": 17.059701492537314,
      "grad_norm": 0.0,
      "learning_rate": 4.927150595650283e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2269
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.5,
      "epoch": 17.067164179104477,
      "grad_norm": 0.0,
      "learning_rate": 4.926994445436781e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2270
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.33333206176758,
      "epoch": 17.074626865671643,
      "grad_norm": 0.0,
      "learning_rate": 4.926838130530746e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2271
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.22222137451172,
      "epoch": 17.082089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.926681650942785e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2272
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.27777862548828,
      "epoch": 17.08955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.926525006683516e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2273
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.91666793823242,
      "epoch": 17.097014925373134,
      "grad_norm": 0.0,
      "learning_rate": 4.926368197763569e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2274
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.1388931274414,
      "epoch": 17.104477611940297,
      "grad_norm": 0.0,
      "learning_rate": 4.926211224193586e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2275
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.11111068725586,
      "epoch": 17.111940298507463,
      "grad_norm": 0.0,
      "learning_rate": 4.926054085984218e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2276
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.33333206176758,
      "epoch": 17.119402985074625,
      "grad_norm": 0.0,
      "learning_rate": 4.925896783146128e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2277
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.66666793823242,
      "epoch": 17.12686567164179,
      "grad_norm": 0.0,
      "learning_rate": 4.925739315689991e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2278
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.36111450195312,
      "epoch": 17.134328358208954,
      "grad_norm": 0.0,
      "learning_rate": 4.925581683626491e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2279
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.08333206176758,
      "epoch": 17.14179104477612,
      "grad_norm": 0.0,
      "learning_rate": 4.925423886966328e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2280
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.27777862548828,
      "epoch": 17.149253731343283,
      "grad_norm": 0.0,
      "learning_rate": 4.925265925720206e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2281
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.27777862548828,
      "epoch": 17.15671641791045,
      "grad_norm": 0.0,
      "learning_rate": 4.925107799898847e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2282
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.58333587646484,
      "epoch": 17.16417910447761,
      "grad_norm": 0.0,
      "learning_rate": 4.924949509512979e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2283
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.47222137451172,
      "epoch": 17.171641791044777,
      "grad_norm": 0.0,
      "learning_rate": 4.924791054573344e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2284
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.05555725097656,
      "epoch": 17.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.924632435090696e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2285
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.36111068725586,
      "epoch": 17.186567164179106,
      "grad_norm": 0.0,
      "learning_rate": 4.924473651075797e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2286
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.44444274902344,
      "epoch": 17.19402985074627,
      "grad_norm": 0.0,
      "learning_rate": 4.924314702539422e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2287
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.41666793823242,
      "epoch": 17.20149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.924155589492359e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2288
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.6944465637207,
      "epoch": 17.208955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.923996311945401e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2289
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.5,
      "epoch": 17.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 4.923836869909362e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2290
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.30555725097656,
      "epoch": 17.223880597014926,
      "grad_norm": 99.13036775957214,
      "learning_rate": 4.923677263395057e-07,
      "loss": 0.0244,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 2291
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.66666412353516,
      "epoch": 17.23134328358209,
      "grad_norm": 14.348865417310348,
      "learning_rate": 4.923517492413319e-07,
      "loss": 0.0044,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 2292
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.0,
      "epoch": 17.238805970149254,
      "grad_norm": 0.0,
      "learning_rate": 4.923357556974988e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2293
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.97222137451172,
      "epoch": 17.246268656716417,
      "grad_norm": 3.20424750942962,
      "learning_rate": 4.923197457090919e-07,
      "loss": 0.0179,
      "reward": 1.6111111640930176,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 2294
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.75,
      "epoch": 17.253731343283583,
      "grad_norm": 0.0,
      "learning_rate": 4.923037192771975e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2295
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.91666793823242,
      "epoch": 17.261194029850746,
      "grad_norm": 0.0,
      "learning_rate": 4.922876764029031e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2296
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.72222137451172,
      "epoch": 17.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.922716170872974e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2297
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.97222137451172,
      "epoch": 17.276119402985074,
      "grad_norm": 0.0,
      "learning_rate": 4.922555413314703e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2298
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.1944465637207,
      "epoch": 17.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 4.922394491365124e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2299
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.61111450195312,
      "epoch": 17.291044776119403,
      "grad_norm": 1.5608283175514588,
      "learning_rate": 4.922233405035159e-07,
      "loss": -0.005,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 0.9722222089767456,
      "step": 2300
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.11111068725586,
      "epoch": 17.298507462686565,
      "grad_norm": 2.486762744016405,
      "learning_rate": 4.922072154335739e-07,
      "loss": -0.0098,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 2301
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.44444274902344,
      "epoch": 17.30597014925373,
      "grad_norm": 0.0,
      "learning_rate": 4.921910739277804e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2302
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.69444274902344,
      "epoch": 17.313432835820894,
      "grad_norm": 0.0,
      "learning_rate": 4.921749159872311e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2303
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.80555725097656,
      "epoch": 17.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.921587416130222e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2304
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.63888931274414,
      "epoch": 17.328358208955223,
      "grad_norm": 0.0,
      "learning_rate": 4.921425508062514e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2305
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.3888931274414,
      "epoch": 17.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 4.921263435680172e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2306
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.22222137451172,
      "epoch": 17.34328358208955,
      "grad_norm": 0.0,
      "learning_rate": 4.921101198994196e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2307
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.66666412353516,
      "epoch": 17.350746268656717,
      "grad_norm": 0.0,
      "learning_rate": 4.920938798015595e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2308
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.58333587646484,
      "epoch": 17.35820895522388,
      "grad_norm": 0.0,
      "learning_rate": 4.920776232755388e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2309
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.97222137451172,
      "epoch": 17.365671641791046,
      "grad_norm": 0.0,
      "learning_rate": 4.920613503224608e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2310
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.33333206176758,
      "epoch": 17.37313432835821,
      "grad_norm": 0.0,
      "learning_rate": 4.920450609434295e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2311
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.77777862548828,
      "epoch": 17.380597014925375,
      "grad_norm": 0.0,
      "learning_rate": 4.920287551395506e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2312
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.72222137451172,
      "epoch": 17.388059701492537,
      "grad_norm": 0.0,
      "learning_rate": 4.920124329119305e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2313
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.47222137451172,
      "epoch": 17.395522388059703,
      "grad_norm": 0.0,
      "learning_rate": 4.919960942616767e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2314
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.36111450195312,
      "epoch": 17.402985074626866,
      "grad_norm": 0.0,
      "learning_rate": 4.919797391898979e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2315
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.1944465637207,
      "epoch": 17.41044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.91963367697704e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2316
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.61111068725586,
      "epoch": 17.417910447761194,
      "grad_norm": 2.9279416064828103,
      "learning_rate": 4.91946979786206e-07,
      "loss": -0.0032,
      "reward": 1.638888955116272,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 2317
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.66666793823242,
      "epoch": 17.425373134328357,
      "grad_norm": 0.0,
      "learning_rate": 4.91930575456516e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2318
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.0,
      "epoch": 17.432835820895523,
      "grad_norm": 0.0,
      "learning_rate": 4.919141547097469e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2319
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.55555725097656,
      "epoch": 17.440298507462686,
      "grad_norm": 0.0,
      "learning_rate": 4.918977175470132e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2320
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.52777862548828,
      "epoch": 17.44776119402985,
      "grad_norm": 17.772675576325135,
      "learning_rate": 4.918812639694304e-07,
      "loss": 0.0027,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 2321
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.16666793823242,
      "epoch": 17.455223880597014,
      "grad_norm": 9.465487420166122,
      "learning_rate": 4.918647939781149e-07,
      "loss": 0.0121,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 2322
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.9444465637207,
      "epoch": 17.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 4.918483075741843e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2323
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.27777862548828,
      "epoch": 17.470149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.918318047587572e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2324
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.72222137451172,
      "epoch": 17.47761194029851,
      "grad_norm": 0.0,
      "learning_rate": 4.918152855329538e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2325
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.02777862548828,
      "epoch": 17.48507462686567,
      "grad_norm": 0.0,
      "learning_rate": 4.91798749897895e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2326
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.80555725097656,
      "epoch": 17.492537313432837,
      "grad_norm": 0.0,
      "learning_rate": 4.917821978547025e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2327
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.91666793823242,
      "epoch": 17.5,
      "grad_norm": 45.24649469141428,
      "learning_rate": 4.917656294045e-07,
      "loss": 0.0052,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 2328
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.0,
      "epoch": 17.507462686567163,
      "grad_norm": 15.53528341614375,
      "learning_rate": 4.917490445484116e-07,
      "loss": 0.0021,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 2329
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.88888931274414,
      "epoch": 17.51492537313433,
      "grad_norm": 0.0,
      "learning_rate": 4.917324432875626e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2330
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.63888931274414,
      "epoch": 17.52238805970149,
      "grad_norm": 0.0,
      "learning_rate": 4.917158256230798e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2331
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.9444465637207,
      "epoch": 17.529850746268657,
      "grad_norm": 35.65872938161401,
      "learning_rate": 4.916991915560906e-07,
      "loss": -0.0045,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 2332
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.25,
      "epoch": 17.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 4.91682541087724e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2333
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.13888931274414,
      "epoch": 17.544776119402986,
      "grad_norm": 0.0,
      "learning_rate": 4.916658742191096e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2334
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.72222137451172,
      "epoch": 17.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 4.916491909513787e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2335
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.13888931274414,
      "epoch": 17.559701492537314,
      "grad_norm": 0.0,
      "learning_rate": 4.916324912856632e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2336
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.72222137451172,
      "epoch": 17.567164179104477,
      "grad_norm": 0.0,
      "learning_rate": 4.916157752230963e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2337
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.5,
      "epoch": 17.574626865671643,
      "grad_norm": 0.0,
      "learning_rate": 4.915990427648125e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2338
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.86111068725586,
      "epoch": 17.582089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.915822939119471e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2339
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.11111068725586,
      "epoch": 17.58955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.915655286656368e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2340
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.72222137451172,
      "epoch": 17.597014925373134,
      "grad_norm": 3.5097069189544774,
      "learning_rate": 4.915487470270191e-07,
      "loss": 0.0125,
      "reward": 1.9166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 2341
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.25,
      "epoch": 17.604477611940297,
      "grad_norm": 0.0,
      "learning_rate": 4.915319489972328e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2342
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.77777862548828,
      "epoch": 17.611940298507463,
      "grad_norm": 0.0,
      "learning_rate": 4.915151345774178e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2343
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.27777862548828,
      "epoch": 17.619402985074625,
      "grad_norm": 0.0,
      "learning_rate": 4.914983037687152e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2344
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.97222137451172,
      "epoch": 17.62686567164179,
      "grad_norm": 26.199610952778627,
      "learning_rate": 4.91481456572267e-07,
      "loss": -0.0,
      "reward": 1.6944444179534912,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 2345
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.77777862548828,
      "epoch": 17.634328358208954,
      "grad_norm": 0.0,
      "learning_rate": 4.914645929892166e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2346
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.0,
      "epoch": 17.64179104477612,
      "grad_norm": 0.0,
      "learning_rate": 4.914477130207081e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2347
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.47222137451172,
      "epoch": 17.649253731343283,
      "grad_norm": 0.0,
      "learning_rate": 4.914308166678871e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2348
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.61111068725586,
      "epoch": 17.65671641791045,
      "grad_norm": 0.0,
      "learning_rate": 4.914139039319001e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2349
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.80555725097656,
      "epoch": 17.66417910447761,
      "grad_norm": 0.0,
      "learning_rate": 4.91396974813895e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2350
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.61111068725586,
      "epoch": 17.671641791044777,
      "grad_norm": 0.0,
      "learning_rate": 4.913800293150202e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2351
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.41666793823242,
      "epoch": 17.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.913630674364258e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2352
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.4444465637207,
      "epoch": 17.686567164179106,
      "grad_norm": 0.0,
      "learning_rate": 4.913460891792629e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2353
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.30555725097656,
      "epoch": 17.69402985074627,
      "grad_norm": 0.0,
      "learning_rate": 4.913290945446835e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2354
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.16666793823242,
      "epoch": 17.701492537313435,
      "grad_norm": 0.0,
      "learning_rate": 4.913120835338408e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2355
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.30555725097656,
      "epoch": 17.708955223880597,
      "grad_norm": 52.2029234565209,
      "learning_rate": 4.912950561478893e-07,
      "loss": 0.0081,
      "reward": 1.5277777910232544,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.5277777910232544,
      "rewards/format_reward": 1.0,
      "step": 2356
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.0,
      "epoch": 17.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 4.912780123879843e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2357
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.47222137451172,
      "epoch": 17.723880597014926,
      "grad_norm": 0.0,
      "learning_rate": 4.912609522552824e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2358
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.13888931274414,
      "epoch": 17.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.912438757509414e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 2359
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.05555725097656,
      "epoch": 17.738805970149254,
      "grad_norm": 0.0,
      "learning_rate": 4.912267828761199e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2360
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.11111068725586,
      "epoch": 17.746268656716417,
      "grad_norm": 0.0,
      "learning_rate": 4.912096736319779e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2361
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.83333206176758,
      "epoch": 17.753731343283583,
      "grad_norm": 0.0,
      "learning_rate": 4.911925480196765e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2362
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.36111068725586,
      "epoch": 17.761194029850746,
      "grad_norm": 0.0,
      "learning_rate": 4.911754060403775e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2363
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.33333206176758,
      "epoch": 17.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.911582476952446e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2364
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.80555725097656,
      "epoch": 17.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 4.911410729854418e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2365
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.16666793823242,
      "epoch": 17.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 4.911238819121346e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2366
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.80555725097656,
      "epoch": 17.791044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.911066744764897e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2367
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.16666793823242,
      "epoch": 17.798507462686565,
      "grad_norm": 0.0,
      "learning_rate": 4.910894506796746e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2368
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.83333587646484,
      "epoch": 17.80597014925373,
      "grad_norm": 0.0,
      "learning_rate": 4.910722105228582e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2369
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.5,
      "epoch": 17.813432835820894,
      "grad_norm": 20.16228811046592,
      "learning_rate": 4.910549540072103e-07,
      "loss": -0.0223,
      "reward": 1.6944444179534912,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 2370
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.58333206176758,
      "epoch": 17.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.910376811339021e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2371
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.80555725097656,
      "epoch": 17.828358208955223,
      "grad_norm": 0.0,
      "learning_rate": 4.910203919041054e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2372
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.25,
      "epoch": 17.83582089552239,
      "grad_norm": 0.0,
      "learning_rate": 4.910030863189937e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 2373
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.0,
      "epoch": 17.84328358208955,
      "grad_norm": 0.0,
      "learning_rate": 4.909857643797412e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2374
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.66666793823242,
      "epoch": 17.850746268656717,
      "grad_norm": 0.0,
      "learning_rate": 4.909684260875235e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2375
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.47222137451172,
      "epoch": 17.85820895522388,
      "grad_norm": 0.0,
      "learning_rate": 4.909510714435168e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2376
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.11111450195312,
      "epoch": 17.865671641791046,
      "grad_norm": 3.935845575263143,
      "learning_rate": 4.909337004488992e-07,
      "loss": -0.0096,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 2377
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.5,
      "epoch": 17.87313432835821,
      "grad_norm": 0.0,
      "learning_rate": 4.909163131048492e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2378
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.27777862548828,
      "epoch": 17.880597014925375,
      "grad_norm": 0.0,
      "learning_rate": 4.908989094125468e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2379
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.22222137451172,
      "epoch": 17.888059701492537,
      "grad_norm": 0.0,
      "learning_rate": 4.908814893731728e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2380
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.66666793823242,
      "epoch": 17.895522388059703,
      "grad_norm": 0.0,
      "learning_rate": 4.908640529879095e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2381
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.77777862548828,
      "epoch": 17.902985074626866,
      "grad_norm": 0.0,
      "learning_rate": 4.9084660025794e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2382
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.97222137451172,
      "epoch": 17.91044776119403,
      "grad_norm": 4.972250099733388,
      "learning_rate": 4.908291311844488e-07,
      "loss": 0.0127,
      "reward": 1.6944444179534912,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 2383
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.30555725097656,
      "epoch": 17.917910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.908116457686211e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2384
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.16666412353516,
      "epoch": 17.925373134328357,
      "grad_norm": 0.0,
      "learning_rate": 4.907941440116436e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2385
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.5,
      "epoch": 17.932835820895523,
      "grad_norm": 0.0,
      "learning_rate": 4.907766259147037e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2386
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.97222137451172,
      "epoch": 17.940298507462686,
      "grad_norm": 0.0,
      "learning_rate": 4.907590914789904e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2387
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.41666793823242,
      "epoch": 17.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 4.907415407056936e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2388
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.72222137451172,
      "epoch": 17.955223880597014,
      "grad_norm": 0.0,
      "learning_rate": 4.907239735960041e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2389
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.30555725097656,
      "epoch": 17.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 4.907063901511141e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2390
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.91666793823242,
      "epoch": 17.970149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.906887903722166e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2391
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.44444274902344,
      "epoch": 17.97761194029851,
      "grad_norm": 0.0,
      "learning_rate": 4.906711742605061e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2392
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.72222137451172,
      "epoch": 17.98507462686567,
      "grad_norm": 0.0,
      "learning_rate": 4.906535418171778e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2393
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.0,
      "epoch": 17.992537313432837,
      "grad_norm": 0.0,
      "learning_rate": 4.906358930434285e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2394
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.77777862548828,
      "epoch": 18.007462686567163,
      "grad_norm": 0.0,
      "learning_rate": 4.906182279404557e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2395
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.41666793823242,
      "epoch": 18.01492537313433,
      "grad_norm": 0.0,
      "learning_rate": 4.906005465094581e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2396
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.1944465637207,
      "epoch": 18.02238805970149,
      "grad_norm": 0.0,
      "learning_rate": 4.905828487516355e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2397
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.80555725097656,
      "epoch": 18.029850746268657,
      "grad_norm": 0.0,
      "learning_rate": 4.905651346681888e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2398
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.38888931274414,
      "epoch": 18.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 4.905474042603202e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2399
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.33333206176758,
      "epoch": 18.044776119402986,
      "grad_norm": 0.0,
      "learning_rate": 4.905296575292328e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 2400
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.72222137451172,
      "epoch": 18.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 4.905118944761308e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2401
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.36111068725586,
      "epoch": 18.059701492537314,
      "grad_norm": 0.0,
      "learning_rate": 4.904941151022198e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2402
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.72222137451172,
      "epoch": 18.067164179104477,
      "grad_norm": 0.0,
      "learning_rate": 4.90476319408706e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2403
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.88888931274414,
      "epoch": 18.074626865671643,
      "grad_norm": 0.0,
      "learning_rate": 4.904585073967972e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2404
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.63888931274414,
      "epoch": 18.082089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.904406790677019e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2405
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.02777862548828,
      "epoch": 18.08955223880597,
      "grad_norm": 4.446526340010741,
      "learning_rate": 4.904228344226301e-07,
      "loss": 0.0133,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 2406
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.41666412353516,
      "epoch": 18.097014925373134,
      "grad_norm": 0.0,
      "learning_rate": 4.904049734627927e-07,
      "loss": 0.0,
      "reward": 1.3333333730697632,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.3333333432674408,
      "rewards/format_reward": 1.0,
      "step": 2407
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.97222137451172,
      "epoch": 18.104477611940297,
      "grad_norm": 0.0,
      "learning_rate": 4.903870961894014e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2408
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.33333206176758,
      "epoch": 18.111940298507463,
      "grad_norm": 0.0,
      "learning_rate": 4.903692026036699e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2409
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.86111068725586,
      "epoch": 18.119402985074625,
      "grad_norm": 2.2961922236857872,
      "learning_rate": 4.90351292706812e-07,
      "loss": 0.0092,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 2410
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.63888931274414,
      "epoch": 18.12686567164179,
      "grad_norm": 0.0,
      "learning_rate": 4.90333366500043e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2411
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.1944465637207,
      "epoch": 18.134328358208954,
      "grad_norm": 0.0,
      "learning_rate": 4.903154239845797e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2412
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.22222137451172,
      "epoch": 18.14179104477612,
      "grad_norm": 2.7400902638770206,
      "learning_rate": 4.902974651616394e-07,
      "loss": -0.0015,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 2413
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.25,
      "epoch": 18.149253731343283,
      "grad_norm": 0.0,
      "learning_rate": 4.902794900324409e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2414
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.02777862548828,
      "epoch": 18.15671641791045,
      "grad_norm": 0.0,
      "learning_rate": 4.902614985982038e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 2415
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.88888931274414,
      "epoch": 18.16417910447761,
      "grad_norm": 0.0,
      "learning_rate": 4.90243490860149e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2416
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.75,
      "epoch": 18.171641791044777,
      "grad_norm": 0.0,
      "learning_rate": 4.902254668194987e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2417
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.75,
      "epoch": 18.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.902074264774757e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2418
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.80555725097656,
      "epoch": 18.186567164179106,
      "grad_norm": 0.0,
      "learning_rate": 4.901893698353045e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2419
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.41666793823242,
      "epoch": 18.19402985074627,
      "grad_norm": 0.0,
      "learning_rate": 4.9017129689421e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2420
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.77777862548828,
      "epoch": 18.20149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.90153207655419e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2421
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.5,
      "epoch": 18.208955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.901351021201588e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2422
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.08333206176758,
      "epoch": 18.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 4.90116980289658e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2423
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.13888931274414,
      "epoch": 18.223880597014926,
      "grad_norm": 0.0,
      "learning_rate": 4.900988421651464e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2424
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.97222137451172,
      "epoch": 18.23134328358209,
      "grad_norm": 75.70571438588966,
      "learning_rate": 4.900806877478548e-07,
      "loss": 0.0028,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 2425
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.52777862548828,
      "epoch": 18.238805970149254,
      "grad_norm": 0.0,
      "learning_rate": 4.900625170390152e-07,
      "loss": 0.0,
      "reward": 1.4444444179534912,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 2426
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.83333206176758,
      "epoch": 18.246268656716417,
      "grad_norm": 0.0,
      "learning_rate": 4.900443300398606e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2427
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.0,
      "epoch": 18.253731343283583,
      "grad_norm": 0.0,
      "learning_rate": 4.90026126751625e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2428
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.16666793823242,
      "epoch": 18.261194029850746,
      "grad_norm": 0.0,
      "learning_rate": 4.900079071755439e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2429
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.77777862548828,
      "epoch": 18.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.899896713128535e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2430
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.08333206176758,
      "epoch": 18.276119402985074,
      "grad_norm": 0.0,
      "learning_rate": 4.899714191647914e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2431
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.5,
      "epoch": 18.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 4.899531507325959e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2432
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.6388931274414,
      "epoch": 18.291044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.899348660175068e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2433
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.1944465637207,
      "epoch": 18.298507462686565,
      "grad_norm": 0.0,
      "learning_rate": 4.89916565020765e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2434
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.4444465637207,
      "epoch": 18.30597014925373,
      "grad_norm": 0.0,
      "learning_rate": 4.898982477436123e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2435
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.75,
      "epoch": 18.313432835820894,
      "grad_norm": 0.0,
      "learning_rate": 4.898799141872916e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2436
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.77777862548828,
      "epoch": 18.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.898615643530471e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2437
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.16666793823242,
      "epoch": 18.328358208955223,
      "grad_norm": 0.0,
      "learning_rate": 4.89843198242124e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2438
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.05555725097656,
      "epoch": 18.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 4.898248158557685e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2439
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.33333206176758,
      "epoch": 18.34328358208955,
      "grad_norm": 0.0,
      "learning_rate": 4.898064171952281e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 2440
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.72222137451172,
      "epoch": 18.350746268656717,
      "grad_norm": 0.0,
      "learning_rate": 4.897880022617512e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2441
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.22222137451172,
      "epoch": 18.35820895522388,
      "grad_norm": 0.0,
      "learning_rate": 4.897695710565875e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2442
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.52777862548828,
      "epoch": 18.365671641791046,
      "grad_norm": 0.0,
      "learning_rate": 4.897511235809878e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2443
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.41666793823242,
      "epoch": 18.37313432835821,
      "grad_norm": 0.0,
      "learning_rate": 4.897326598362038e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2444
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.11111068725586,
      "epoch": 18.380597014925375,
      "grad_norm": 0.0,
      "learning_rate": 4.897141798234884e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2445
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.77777862548828,
      "epoch": 18.388059701492537,
      "grad_norm": 0.0,
      "learning_rate": 4.896956835440956e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2446
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.88888931274414,
      "epoch": 18.395522388059703,
      "grad_norm": 0.0,
      "learning_rate": 4.896771709992807e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2447
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.11111068725586,
      "epoch": 18.402985074626866,
      "grad_norm": 0.0,
      "learning_rate": 4.896586421902998e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2448
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.05555725097656,
      "epoch": 18.41044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.896400971184102e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2449
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.33333206176758,
      "epoch": 18.417910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.896215357848705e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2450
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.1944465637207,
      "epoch": 18.425373134328357,
      "grad_norm": 0.0,
      "learning_rate": 4.896029581909403e-07,
      "loss": 0.0,
      "reward": 1.4444444179534912,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 2451
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.47222137451172,
      "epoch": 18.432835820895523,
      "grad_norm": 0.0,
      "learning_rate": 4.895843643378799e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2452
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.02777862548828,
      "epoch": 18.440298507462686,
      "grad_norm": 0.0,
      "learning_rate": 4.895657542269514e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2453
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.72222137451172,
      "epoch": 18.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 4.895471278594175e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2454
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.11111450195312,
      "epoch": 18.455223880597014,
      "grad_norm": 0.0,
      "learning_rate": 4.895284852365421e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2455
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.16666793823242,
      "epoch": 18.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 4.895098263595905e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2456
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.08333206176758,
      "epoch": 18.470149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.894911512298286e-07,
      "loss": 0.0,
      "reward": 1.4444444179534912,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 2457
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.02777862548828,
      "epoch": 18.47761194029851,
      "grad_norm": 0.0,
      "learning_rate": 4.894724598485239e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2458
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.52777862548828,
      "epoch": 18.48507462686567,
      "grad_norm": 0.0,
      "learning_rate": 4.894537522169446e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2459
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.36111068725586,
      "epoch": 18.492537313432837,
      "grad_norm": 0.0,
      "learning_rate": 4.894350283363602e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2460
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.5,
      "epoch": 18.5,
      "grad_norm": 0.0,
      "learning_rate": 4.894162882080414e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2461
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.0,
      "epoch": 18.507462686567163,
      "grad_norm": 0.0,
      "learning_rate": 4.893975318332597e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2462
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.22222137451172,
      "epoch": 18.51492537313433,
      "grad_norm": 0.0,
      "learning_rate": 4.893787592132879e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2463
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.66666793823242,
      "epoch": 18.52238805970149,
      "grad_norm": 0.0,
      "learning_rate": 4.893599703494001e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2464
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.38888931274414,
      "epoch": 18.529850746268657,
      "grad_norm": 0.0,
      "learning_rate": 4.893411652428712e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2465
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.27777862548828,
      "epoch": 18.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 4.893223438949771e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 2466
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.27777862548828,
      "epoch": 18.544776119402986,
      "grad_norm": 0.0,
      "learning_rate": 4.893035063069952e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2467
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.61111068725586,
      "epoch": 18.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 4.892846524802036e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2468
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.77777862548828,
      "epoch": 18.559701492537314,
      "grad_norm": 0.0,
      "learning_rate": 4.892657824158819e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2469
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.4444465637207,
      "epoch": 18.567164179104477,
      "grad_norm": 0.0,
      "learning_rate": 4.892468961153105e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 2470
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.16666793823242,
      "epoch": 18.574626865671643,
      "grad_norm": 0.0,
      "learning_rate": 4.89227993579771e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2471
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.80555725097656,
      "epoch": 18.582089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.89209074810546e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2472
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.13888931274414,
      "epoch": 18.58955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.891901398089196e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2473
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.4444465637207,
      "epoch": 18.597014925373134,
      "grad_norm": 0.0,
      "learning_rate": 4.891711885761764e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 2474
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.83333206176758,
      "epoch": 18.604477611940297,
      "grad_norm": 0.0,
      "learning_rate": 4.891522211136026e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2475
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.22222137451172,
      "epoch": 18.611940298507463,
      "grad_norm": 0.0,
      "learning_rate": 4.891332374224851e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2476
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.25,
      "epoch": 18.619402985074625,
      "grad_norm": 0.0,
      "learning_rate": 4.891142375041123e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2477
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.83333206176758,
      "epoch": 18.62686567164179,
      "grad_norm": 0.0,
      "learning_rate": 4.890952213597734e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2478
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.80555725097656,
      "epoch": 18.634328358208954,
      "grad_norm": 0.0,
      "learning_rate": 4.890761889907589e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2479
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.52777862548828,
      "epoch": 18.64179104477612,
      "grad_norm": 0.0,
      "learning_rate": 4.890571403983602e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 2480
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.27777862548828,
      "epoch": 18.649253731343283,
      "grad_norm": 0.0,
      "learning_rate": 4.8903807558387e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2481
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.38888931274414,
      "epoch": 18.65671641791045,
      "grad_norm": 0.0,
      "learning_rate": 4.89018994548582e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2482
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.1944465637207,
      "epoch": 18.66417910447761,
      "grad_norm": 0.0,
      "learning_rate": 4.889998972937909e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2483
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.08333206176758,
      "epoch": 18.671641791044777,
      "grad_norm": 0.0,
      "learning_rate": 4.889807838207929e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2484
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.05555725097656,
      "epoch": 18.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.889616541308846e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2485
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.88888931274414,
      "epoch": 18.686567164179106,
      "grad_norm": 0.0,
      "learning_rate": 4.889425082253645e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2486
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.33333206176758,
      "epoch": 18.69402985074627,
      "grad_norm": 0.0,
      "learning_rate": 4.889233461055316e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2487
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.4444465637207,
      "epoch": 18.701492537313435,
      "grad_norm": 0.0,
      "learning_rate": 4.889041677726863e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2488
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.91666793823242,
      "epoch": 18.708955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.888849732281299e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2489
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.11111068725586,
      "epoch": 18.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 4.888657624731651e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2490
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.52777862548828,
      "epoch": 18.723880597014926,
      "grad_norm": 0.0,
      "learning_rate": 4.888465355090953e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2491
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.4444465637207,
      "epoch": 18.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.888272923372254e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2492
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.63888931274414,
      "epoch": 18.738805970149254,
      "grad_norm": 0.0,
      "learning_rate": 4.888080329588612e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2493
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.91666793823242,
      "epoch": 18.746268656716417,
      "grad_norm": 0.0,
      "learning_rate": 4.887887573753095e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2494
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.02777862548828,
      "epoch": 18.753731343283583,
      "grad_norm": 0.0,
      "learning_rate": 4.887694655878783e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2495
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.52777862548828,
      "epoch": 18.761194029850746,
      "grad_norm": 0.0,
      "learning_rate": 4.88750157597877e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2496
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.83333206176758,
      "epoch": 18.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.887308334066154e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2497
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.05555725097656,
      "epoch": 18.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 4.887114930154051e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2498
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.27777862548828,
      "epoch": 18.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 4.886921364255585e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2499
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.75,
      "epoch": 18.791044776119403,
      "grad_norm": 22.77136743247006,
      "learning_rate": 4.886727636383889e-07,
      "loss": -0.0005,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 2500
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.5,
      "epoch": 18.798507462686565,
      "grad_norm": 0.0,
      "learning_rate": 4.886533746552111e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2501
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.02777862548828,
      "epoch": 18.80597014925373,
      "grad_norm": 0.0,
      "learning_rate": 4.886339694773408e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2502
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.22222137451172,
      "epoch": 18.813432835820894,
      "grad_norm": 0.0,
      "learning_rate": 4.886145481060948e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2503
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.1944465637207,
      "epoch": 18.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.885951105427909e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2504
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.75,
      "epoch": 18.828358208955223,
      "grad_norm": 0.0,
      "learning_rate": 4.885756567887483e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2505
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.47222137451172,
      "epoch": 18.83582089552239,
      "grad_norm": 0.0,
      "learning_rate": 4.885561868452869e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2506
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.38888931274414,
      "epoch": 18.84328358208955,
      "grad_norm": 0.0,
      "learning_rate": 4.88536700713728e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2507
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.4444465637207,
      "epoch": 18.850746268656717,
      "grad_norm": 0.0,
      "learning_rate": 4.885171983953938e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2508
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.16666793823242,
      "epoch": 18.85820895522388,
      "grad_norm": 7.900582342662905,
      "learning_rate": 4.88497679891608e-07,
      "loss": 0.0009,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 2509
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.02777862548828,
      "epoch": 18.865671641791046,
      "grad_norm": 0.0,
      "learning_rate": 4.884781452036948e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2510
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.55555725097656,
      "epoch": 18.87313432835821,
      "grad_norm": 0.0,
      "learning_rate": 4.884585943329798e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2511
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.88888931274414,
      "epoch": 18.880597014925375,
      "grad_norm": 0.0,
      "learning_rate": 4.884390272807899e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2512
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.77777862548828,
      "epoch": 18.888059701492537,
      "grad_norm": 0.0,
      "learning_rate": 4.884194440484528e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2513
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.6944465637207,
      "epoch": 18.895522388059703,
      "grad_norm": 0.0,
      "learning_rate": 4.883998446372973e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2514
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.80555725097656,
      "epoch": 18.902985074626866,
      "grad_norm": 0.0,
      "learning_rate": 4.883802290486535e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2515
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.6944465637207,
      "epoch": 18.91044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.883605972838524e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2516
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.4444465637207,
      "epoch": 18.917910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.883409493442263e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2517
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.58333206176758,
      "epoch": 18.925373134328357,
      "grad_norm": 0.0,
      "learning_rate": 4.883212852311085e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2518
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.38888931274414,
      "epoch": 18.932835820895523,
      "grad_norm": 0.0,
      "learning_rate": 4.883016049458331e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2519
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.9444465637207,
      "epoch": 18.940298507462686,
      "grad_norm": 0.0,
      "learning_rate": 4.88281908489736e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2520
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.9444465637207,
      "epoch": 18.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 4.882621958641534e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2521
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.58333206176758,
      "epoch": 18.955223880597014,
      "grad_norm": 0.0,
      "learning_rate": 4.882424670704232e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2522
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.61111068725586,
      "epoch": 18.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 4.88222722109884e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2523
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.75,
      "epoch": 18.970149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.882029609838758e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2524
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.63888931274414,
      "epoch": 18.97761194029851,
      "grad_norm": 0.0,
      "learning_rate": 4.881831836937395e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2525
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.30555725097656,
      "epoch": 18.98507462686567,
      "grad_norm": 0.0,
      "learning_rate": 4.881633902408172e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2526
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.25,
      "epoch": 18.992537313432837,
      "grad_norm": 0.0,
      "learning_rate": 4.881435806264521e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2527
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.02777862548828,
      "epoch": 19.007462686567163,
      "grad_norm": 0.0,
      "learning_rate": 4.881237548519883e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2528
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.13888931274414,
      "epoch": 19.01492537313433,
      "grad_norm": 0.0,
      "learning_rate": 4.881039129187713e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2529
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.16666793823242,
      "epoch": 19.02238805970149,
      "grad_norm": 0.0,
      "learning_rate": 4.880840548281474e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 2530
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.97222137451172,
      "epoch": 19.029850746268657,
      "grad_norm": 0.0,
      "learning_rate": 4.880641805814643e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2531
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.83333206176758,
      "epoch": 19.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 4.880442901800705e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2532
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.11111068725586,
      "epoch": 19.044776119402986,
      "grad_norm": 0.0,
      "learning_rate": 4.88024383625316e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2533
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.66666793823242,
      "epoch": 19.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 4.880044609185512e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2534
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.55555725097656,
      "epoch": 19.059701492537314,
      "grad_norm": 0.0,
      "learning_rate": 4.879845220611284e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2535
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.66666793823242,
      "epoch": 19.067164179104477,
      "grad_norm": 0.0,
      "learning_rate": 4.879645670544004e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2536
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.52777862548828,
      "epoch": 19.074626865671643,
      "grad_norm": 0.0,
      "learning_rate": 4.879445958997215e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2537
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.58333206176758,
      "epoch": 19.082089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.879246085984467e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2538
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.83333206176758,
      "epoch": 19.08955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.879046051519325e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2539
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.55555725097656,
      "epoch": 19.097014925373134,
      "grad_norm": 0.0,
      "learning_rate": 4.878845855615364e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2540
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.22222137451172,
      "epoch": 19.104477611940297,
      "grad_norm": 0.0,
      "learning_rate": 4.878645498286165e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2541
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.22222137451172,
      "epoch": 19.111940298507463,
      "grad_norm": 0.0,
      "learning_rate": 4.878444979545327e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2542
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.6944465637207,
      "epoch": 19.119402985074625,
      "grad_norm": 0.0,
      "learning_rate": 4.878244299406457e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2543
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.08333206176758,
      "epoch": 19.12686567164179,
      "grad_norm": 0.0,
      "learning_rate": 4.878043457883172e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2544
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.0,
      "epoch": 19.134328358208954,
      "grad_norm": 0.0,
      "learning_rate": 4.877842454989101e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2545
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.36111068725586,
      "epoch": 19.14179104477612,
      "grad_norm": 2.3373085677744347,
      "learning_rate": 4.877641290737883e-07,
      "loss": -0.0163,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 2546
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.25,
      "epoch": 19.149253731343283,
      "grad_norm": 0.0,
      "learning_rate": 4.877439965143171e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2547
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.75,
      "epoch": 19.15671641791045,
      "grad_norm": 0.0,
      "learning_rate": 4.877238478218625e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2548
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.25,
      "epoch": 19.16417910447761,
      "grad_norm": 0.0,
      "learning_rate": 4.877036829977917e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2549
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.80555725097656,
      "epoch": 19.171641791044777,
      "grad_norm": 0.0,
      "learning_rate": 4.876835020434732e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2550
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.8888931274414,
      "epoch": 19.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.876633049602764e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2551
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.0,
      "epoch": 19.186567164179106,
      "grad_norm": 0.0,
      "learning_rate": 4.876430917495718e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2552
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.13888931274414,
      "epoch": 19.19402985074627,
      "grad_norm": 0.0,
      "learning_rate": 4.876228624127311e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2553
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.91666793823242,
      "epoch": 19.20149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.87602616951127e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2554
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.30555725097656,
      "epoch": 19.208955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.875823553661333e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2555
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.66666793823242,
      "epoch": 19.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 4.87562077659125e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2556
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.6388931274414,
      "epoch": 19.223880597014926,
      "grad_norm": 0.0,
      "learning_rate": 4.875417838314782e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 2557
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.9444465637207,
      "epoch": 19.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.875214738845699e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2558
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.77777862548828,
      "epoch": 19.238805970149254,
      "grad_norm": 0.0,
      "learning_rate": 4.875011478197781e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2559
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.27777862548828,
      "epoch": 19.246268656716417,
      "grad_norm": 0.0,
      "learning_rate": 4.874808056384825e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2560
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.11111068725586,
      "epoch": 19.253731343283583,
      "grad_norm": 0.0,
      "learning_rate": 4.874604473420632e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2561
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.63888931274414,
      "epoch": 19.261194029850746,
      "grad_norm": 0.0,
      "learning_rate": 4.874400729319019e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2562
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.47222137451172,
      "epoch": 19.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.874196824093809e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2563
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.1944465637207,
      "epoch": 19.276119402985074,
      "grad_norm": 0.0,
      "learning_rate": 4.873992757758841e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2564
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.30555725097656,
      "epoch": 19.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 4.873788530327962e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2565
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.1944465637207,
      "epoch": 19.291044776119403,
      "grad_norm": 1.4822483632234988,
      "learning_rate": 4.873584141815032e-07,
      "loss": 0.0067,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 2566
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.36111068725586,
      "epoch": 19.298507462686565,
      "grad_norm": 0.0,
      "learning_rate": 4.873379592233917e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2567
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.05555725097656,
      "epoch": 19.30597014925373,
      "grad_norm": 0.0,
      "learning_rate": 4.8731748815985e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2568
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.80555725097656,
      "epoch": 19.313432835820894,
      "grad_norm": 0.0,
      "learning_rate": 4.872970009922673e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2569
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.72222137451172,
      "epoch": 19.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.872764977220337e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2570
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.02777862548828,
      "epoch": 19.328358208955223,
      "grad_norm": 0.0,
      "learning_rate": 4.872559783505405e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2571
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.41666793823242,
      "epoch": 19.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 4.872354428791803e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2572
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.33333206176758,
      "epoch": 19.34328358208955,
      "grad_norm": 0.0,
      "learning_rate": 4.872148913093464e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2573
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.58333206176758,
      "epoch": 19.350746268656717,
      "grad_norm": 0.0,
      "learning_rate": 4.871943236424334e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2574
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.41666793823242,
      "epoch": 19.35820895522388,
      "grad_norm": 0.0,
      "learning_rate": 4.871737398798372e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2575
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.38888931274414,
      "epoch": 19.365671641791046,
      "grad_norm": 0.0,
      "learning_rate": 4.871531400229544e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2576
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.0,
      "epoch": 19.37313432835821,
      "grad_norm": 0.0,
      "learning_rate": 4.871325240731829e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2577
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.11111450195312,
      "epoch": 19.380597014925375,
      "grad_norm": 0.0,
      "learning_rate": 4.871118920319218e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2578
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.6944465637207,
      "epoch": 19.388059701492537,
      "grad_norm": 0.0,
      "learning_rate": 4.87091243900571e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2579
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.11111068725586,
      "epoch": 19.395522388059703,
      "grad_norm": 0.0,
      "learning_rate": 4.870705796805317e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2580
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.30555725097656,
      "epoch": 19.402985074626866,
      "grad_norm": 0.0,
      "learning_rate": 4.870498993732063e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2581
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.63888931274414,
      "epoch": 19.41044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.870292029799979e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2582
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.38888931274414,
      "epoch": 19.417910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.870084905023111e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 2583
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.41666793823242,
      "epoch": 19.425373134328357,
      "grad_norm": 0.0,
      "learning_rate": 4.869877619415513e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2584
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.36111068725586,
      "epoch": 19.432835820895523,
      "grad_norm": 0.0,
      "learning_rate": 4.869670172991252e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2585
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.47222137451172,
      "epoch": 19.440298507462686,
      "grad_norm": 0.0,
      "learning_rate": 4.869462565764404e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2586
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.08333206176758,
      "epoch": 19.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 4.869254797749058e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2587
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.30555725097656,
      "epoch": 19.455223880597014,
      "grad_norm": 0.0,
      "learning_rate": 4.869046868959313e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2588
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.13888931274414,
      "epoch": 19.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 4.868838779409279e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2589
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.75,
      "epoch": 19.470149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.868630529113075e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2590
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.05555725097656,
      "epoch": 19.47761194029851,
      "grad_norm": 0.0,
      "learning_rate": 4.868422118084834e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2591
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.55555725097656,
      "epoch": 19.48507462686567,
      "grad_norm": 0.0,
      "learning_rate": 4.868213546338698e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2592
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.08333206176758,
      "epoch": 19.492537313432837,
      "grad_norm": 0.0,
      "learning_rate": 4.868004813888819e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2593
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.22222137451172,
      "epoch": 19.5,
      "grad_norm": 0.0,
      "learning_rate": 4.867795920749364e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2594
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.16666793823242,
      "epoch": 19.507462686567163,
      "grad_norm": 0.0,
      "learning_rate": 4.867586866934506e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 2595
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.86111068725586,
      "epoch": 19.51492537313433,
      "grad_norm": 30.60678581123886,
      "learning_rate": 4.867377652458434e-07,
      "loss": 0.037,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 2596
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.52777862548828,
      "epoch": 19.52238805970149,
      "grad_norm": 0.0,
      "learning_rate": 4.867168277335342e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2597
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.0,
      "epoch": 19.529850746268657,
      "grad_norm": 0.0,
      "learning_rate": 4.866958741579439e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2598
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.0,
      "epoch": 19.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 4.866749045204943e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2599
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.27777862548828,
      "epoch": 19.544776119402986,
      "grad_norm": 0.0,
      "learning_rate": 4.866539188226085e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2600
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.5,
      "epoch": 19.55223880597015,
      "grad_norm": 47.33541921206688,
      "learning_rate": 4.866329170657105e-07,
      "loss": -0.0066,
      "reward": 1.638888955116272,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 2601
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.36111068725586,
      "epoch": 19.559701492537314,
      "grad_norm": 0.0,
      "learning_rate": 4.866118992512255e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2602
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.83333206176758,
      "epoch": 19.567164179104477,
      "grad_norm": 0.0,
      "learning_rate": 4.865908653805797e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2603
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.61111068725586,
      "epoch": 19.574626865671643,
      "grad_norm": 0.0,
      "learning_rate": 4.865698154552004e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2604
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.11111068725586,
      "epoch": 19.582089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.86548749476516e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2605
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.58333206176758,
      "epoch": 19.58955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.865276674459562e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2606
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.0,
      "epoch": 19.597014925373134,
      "grad_norm": 0.0,
      "learning_rate": 4.865065693649514e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2607
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.86111068725586,
      "epoch": 19.604477611940297,
      "grad_norm": 0.0,
      "learning_rate": 4.864854552349333e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2608
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.47222137451172,
      "epoch": 19.611940298507463,
      "grad_norm": 0.0,
      "learning_rate": 4.864643250573347e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2609
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.61111068725586,
      "epoch": 19.619402985074625,
      "grad_norm": 0.0,
      "learning_rate": 4.864431788335895e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2610
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.83333206176758,
      "epoch": 19.62686567164179,
      "grad_norm": 0.0,
      "learning_rate": 4.864220165651326e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2611
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.9444465637207,
      "epoch": 19.634328358208954,
      "grad_norm": 0.0,
      "learning_rate": 4.864008382534002e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2612
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.27777862548828,
      "epoch": 19.64179104477612,
      "grad_norm": 0.0,
      "learning_rate": 4.863796438998292e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2613
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.4444465637207,
      "epoch": 19.649253731343283,
      "grad_norm": 0.0,
      "learning_rate": 4.863584335058579e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2614
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.05555725097656,
      "epoch": 19.65671641791045,
      "grad_norm": 0.0,
      "learning_rate": 4.863372070729257e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2615
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.88888931274414,
      "epoch": 19.66417910447761,
      "grad_norm": 0.0,
      "learning_rate": 4.86315964602473e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2616
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.16666793823242,
      "epoch": 19.671641791044777,
      "grad_norm": 15.42786057037073,
      "learning_rate": 4.862947060959412e-07,
      "loss": -0.0442,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 2617
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.80555725097656,
      "epoch": 19.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.862734315547729e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2618
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.05555725097656,
      "epoch": 19.686567164179106,
      "grad_norm": 0.0,
      "learning_rate": 4.862521409804117e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2619
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.36111068725586,
      "epoch": 19.69402985074627,
      "grad_norm": 0.0,
      "learning_rate": 4.862308343743023e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2620
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.6944465637207,
      "epoch": 19.701492537313435,
      "grad_norm": 0.0,
      "learning_rate": 4.862095117378908e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2621
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.86111068725586,
      "epoch": 19.708955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.86188173072624e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2622
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.0,
      "epoch": 19.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 4.861668183799498e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2623
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.41666793823242,
      "epoch": 19.723880597014926,
      "grad_norm": 0.0,
      "learning_rate": 4.861454476613174e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2624
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.36111068725586,
      "epoch": 19.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.86124060918177e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2625
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.41666793823242,
      "epoch": 19.738805970149254,
      "grad_norm": 0.0,
      "learning_rate": 4.861026581519797e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2626
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.61111068725586,
      "epoch": 19.746268656716417,
      "grad_norm": 0.0,
      "learning_rate": 4.860812393641781e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2627
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.22222137451172,
      "epoch": 19.753731343283583,
      "grad_norm": 0.0,
      "learning_rate": 4.860598045562255e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 2628
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.77777862548828,
      "epoch": 19.761194029850746,
      "grad_norm": 0.0,
      "learning_rate": 4.860383537295767e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2629
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.25,
      "epoch": 19.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.860168868856869e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2630
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.25,
      "epoch": 19.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 4.859954040260132e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2631
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.05555725097656,
      "epoch": 19.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 4.859739051520131e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2632
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.5,
      "epoch": 19.791044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.859523902651455e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 2633
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.97222137451172,
      "epoch": 19.798507462686565,
      "grad_norm": 0.0,
      "learning_rate": 4.859308593668707e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2634
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.72222137451172,
      "epoch": 19.80597014925373,
      "grad_norm": 0.0,
      "learning_rate": 4.859093124586495e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2635
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.52777862548828,
      "epoch": 19.813432835820894,
      "grad_norm": 0.0,
      "learning_rate": 4.85887749541944e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2636
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.5,
      "epoch": 19.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.858661706182176e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2637
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.30555725097656,
      "epoch": 19.828358208955223,
      "grad_norm": 0.0,
      "learning_rate": 4.858445756889344e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2638
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.30555725097656,
      "epoch": 19.83582089552239,
      "grad_norm": 0.0,
      "learning_rate": 4.8582296475556e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2639
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.47222137451172,
      "epoch": 19.84328358208955,
      "grad_norm": 0.0,
      "learning_rate": 4.858013378195609e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2640
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.55555725097656,
      "epoch": 19.850746268656717,
      "grad_norm": 0.0,
      "learning_rate": 4.857796948824044e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2641
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.80555725097656,
      "epoch": 19.85820895522388,
      "grad_norm": 0.0,
      "learning_rate": 4.857580359455595e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2642
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.9444465637207,
      "epoch": 19.865671641791046,
      "grad_norm": 0.0,
      "learning_rate": 4.857363610104957e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2643
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.61111068725586,
      "epoch": 19.87313432835821,
      "grad_norm": 0.0,
      "learning_rate": 4.857146700786841e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2644
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.88888931274414,
      "epoch": 19.880597014925375,
      "grad_norm": 0.0,
      "learning_rate": 4.856929631515964e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2645
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.05555725097656,
      "epoch": 19.888059701492537,
      "grad_norm": 79.45473687352597,
      "learning_rate": 4.856712402307054e-07,
      "loss": 0.0022,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 2646
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.02777862548828,
      "epoch": 19.895522388059703,
      "grad_norm": 0.0,
      "learning_rate": 4.856495013174857e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2647
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.4444465637207,
      "epoch": 19.902985074626866,
      "grad_norm": 0.0,
      "learning_rate": 4.856277464134122e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2648
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.02777862548828,
      "epoch": 19.91044776119403,
      "grad_norm": 2.984103915936978,
      "learning_rate": 4.85605975519961e-07,
      "loss": 0.0053,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 2649
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.86111068725586,
      "epoch": 19.917910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.855841886386099e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2650
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.5,
      "epoch": 19.925373134328357,
      "grad_norm": 0.0,
      "learning_rate": 4.855623857708368e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2651
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.36111068725586,
      "epoch": 19.932835820895523,
      "grad_norm": 0.0,
      "learning_rate": 4.855405669181215e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2652
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.5,
      "epoch": 19.940298507462686,
      "grad_norm": 0.0,
      "learning_rate": 4.855187320819446e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2653
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.36111068725586,
      "epoch": 19.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 4.854968812637877e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2654
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.4444465637207,
      "epoch": 19.955223880597014,
      "grad_norm": 0.0,
      "learning_rate": 4.854750144651336e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2655
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.16666793823242,
      "epoch": 19.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 4.854531316874662e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2656
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.75,
      "epoch": 19.970149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.854312329322702e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2657
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.66666793823242,
      "epoch": 19.97761194029851,
      "grad_norm": 0.0,
      "learning_rate": 4.85409318201032e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2658
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.02777862548828,
      "epoch": 19.98507462686567,
      "grad_norm": 0.0,
      "learning_rate": 4.853873874952385e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 2659
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 46.5,
      "epoch": 19.992537313432837,
      "grad_norm": 0.0,
      "learning_rate": 4.853654408163778e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2660
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.0,
      "epoch": 20.007462686567163,
      "grad_norm": 0.0,
      "learning_rate": 4.853434781659394e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2661
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.4444465637207,
      "epoch": 20.01492537313433,
      "grad_norm": 11.707137860237651,
      "learning_rate": 4.853214995454134e-07,
      "loss": 0.0133,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 2662
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.97222137451172,
      "epoch": 20.02238805970149,
      "grad_norm": 0.0,
      "learning_rate": 4.852995049562913e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2663
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.97222137451172,
      "epoch": 20.029850746268657,
      "grad_norm": 0.0,
      "learning_rate": 4.852774944000659e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2664
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.08333206176758,
      "epoch": 20.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 4.852554678782305e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2665
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.55555725097656,
      "epoch": 20.044776119402986,
      "grad_norm": 0.0,
      "learning_rate": 4.852334253922799e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2666
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.6944465637207,
      "epoch": 20.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 4.852113669437098e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2667
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.4444465637207,
      "epoch": 20.059701492537314,
      "grad_norm": 0.0,
      "learning_rate": 4.85189292534017e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2668
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.08333206176758,
      "epoch": 20.067164179104477,
      "grad_norm": 0.0,
      "learning_rate": 4.851672021646998e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2669
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.1944465637207,
      "epoch": 20.074626865671643,
      "grad_norm": 2.783372583252403,
      "learning_rate": 4.851450958372568e-07,
      "loss": 0.0147,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 2670
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.5,
      "epoch": 20.082089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.851229735531885e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2671
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.47222137451172,
      "epoch": 20.08955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.851008353139956e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2672
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.16666793823242,
      "epoch": 20.097014925373134,
      "grad_norm": 0.0,
      "learning_rate": 4.850786811211807e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2673
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.83333206176758,
      "epoch": 20.104477611940297,
      "grad_norm": 0.0,
      "learning_rate": 4.850565109762472e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2674
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.66666793823242,
      "epoch": 20.111940298507463,
      "grad_norm": 0.0,
      "learning_rate": 4.850343248806993e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2675
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.38888931274414,
      "epoch": 20.119402985074625,
      "grad_norm": 0.0,
      "learning_rate": 4.850121228360427e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2676
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.91666793823242,
      "epoch": 20.12686567164179,
      "grad_norm": 0.0,
      "learning_rate": 4.84989904843784e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2677
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.05555725097656,
      "epoch": 20.134328358208954,
      "grad_norm": 0.0,
      "learning_rate": 4.849676709054307e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2678
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.1944465637207,
      "epoch": 20.14179104477612,
      "grad_norm": 0.0,
      "learning_rate": 4.849454210224918e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2679
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.52777862548828,
      "epoch": 20.149253731343283,
      "grad_norm": 0.0,
      "learning_rate": 4.849231551964771e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2680
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.08333206176758,
      "epoch": 20.15671641791045,
      "grad_norm": 0.0,
      "learning_rate": 4.849008734288974e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2681
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.9444465637207,
      "epoch": 20.16417910447761,
      "grad_norm": 0.0,
      "learning_rate": 4.848785757212648e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2682
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.16666793823242,
      "epoch": 20.171641791044777,
      "grad_norm": 0.0,
      "learning_rate": 4.848562620750922e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2683
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.16666793823242,
      "epoch": 20.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.848339324918941e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2684
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.30555725097656,
      "epoch": 20.186567164179106,
      "grad_norm": 0.0,
      "learning_rate": 4.848115869731856e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2685
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.5,
      "epoch": 20.19402985074627,
      "grad_norm": 0.0,
      "learning_rate": 4.84789225520483e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2686
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.1944465637207,
      "epoch": 20.20149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.847668481353038e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2687
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.52777862548828,
      "epoch": 20.208955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.847444548191664e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2688
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.5,
      "epoch": 20.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 4.847220455735904e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2689
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.1944465637207,
      "epoch": 20.223880597014926,
      "grad_norm": 0.0,
      "learning_rate": 4.846996204000966e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2690
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.38888931274414,
      "epoch": 20.23134328358209,
      "grad_norm": 15.68291427401172,
      "learning_rate": 4.846771793002066e-07,
      "loss": -0.0009,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 2691
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.38888931274414,
      "epoch": 20.238805970149254,
      "grad_norm": 0.0,
      "learning_rate": 4.846547222754432e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2692
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.0,
      "epoch": 20.246268656716417,
      "grad_norm": 0.0,
      "learning_rate": 4.846322493273303e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2693
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.91666793823242,
      "epoch": 20.253731343283583,
      "grad_norm": 0.0,
      "learning_rate": 4.84609760457393e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2694
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.58333206176758,
      "epoch": 20.261194029850746,
      "grad_norm": 0.0,
      "learning_rate": 4.845872556671574e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2695
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.08333206176758,
      "epoch": 20.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.845647349581505e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2696
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.02777862548828,
      "epoch": 20.276119402985074,
      "grad_norm": 0.0,
      "learning_rate": 4.845421983319006e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 2697
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.25,
      "epoch": 20.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 4.84519645789937e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2698
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.72222137451172,
      "epoch": 20.291044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.8449707733379e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2699
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.11111068725586,
      "epoch": 20.298507462686565,
      "grad_norm": 0.0,
      "learning_rate": 4.844744929649911e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 2700
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.80555725097656,
      "epoch": 20.30597014925373,
      "grad_norm": 0.0,
      "learning_rate": 4.84451892685073e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2701
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.9444465637207,
      "epoch": 20.313432835820894,
      "grad_norm": 0.0,
      "learning_rate": 4.844292764955691e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2702
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.22222137451172,
      "epoch": 20.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.844066443980143e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2703
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.1944465637207,
      "epoch": 20.328358208955223,
      "grad_norm": 0.0,
      "learning_rate": 4.843839963939442e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2704
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.86111068725586,
      "epoch": 20.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 4.843613324848956e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2705
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.16666793823242,
      "epoch": 20.34328358208955,
      "grad_norm": 0.0,
      "learning_rate": 4.843386526724068e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2706
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.5,
      "epoch": 20.350746268656717,
      "grad_norm": 0.0,
      "learning_rate": 4.843159569580166e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2707
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.75,
      "epoch": 20.35820895522388,
      "grad_norm": 42.245704295376036,
      "learning_rate": 4.842932453432651e-07,
      "loss": 0.0004,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 2708
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.72222137451172,
      "epoch": 20.365671641791046,
      "grad_norm": 0.0,
      "learning_rate": 4.842705178296935e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2709
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.72222137451172,
      "epoch": 20.37313432835821,
      "grad_norm": 0.0,
      "learning_rate": 4.842477744188441e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2710
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 45.27777862548828,
      "epoch": 20.380597014925375,
      "grad_norm": 0.0,
      "learning_rate": 4.8422501511226e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2711
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.97222137451172,
      "epoch": 20.388059701492537,
      "grad_norm": 0.0,
      "learning_rate": 4.842022399114859e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2712
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.22222137451172,
      "epoch": 20.395522388059703,
      "grad_norm": 0.0,
      "learning_rate": 4.841794488180671e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2713
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.66666793823242,
      "epoch": 20.402985074626866,
      "grad_norm": 0.0,
      "learning_rate": 4.841566418335504e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2714
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.6944465637207,
      "epoch": 20.41044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.841338189594834e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 2715
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.38888931274414,
      "epoch": 20.417910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.841109801974145e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2716
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.75,
      "epoch": 20.425373134328357,
      "grad_norm": 11.404759884532222,
      "learning_rate": 4.84088125548894e-07,
      "loss": -0.002,
      "reward": 1.6944444179534912,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 2717
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.97222137451172,
      "epoch": 20.432835820895523,
      "grad_norm": 0.0,
      "learning_rate": 4.840652550154724e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2718
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.52777862548828,
      "epoch": 20.440298507462686,
      "grad_norm": 0.0,
      "learning_rate": 4.840423685987018e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2719
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.47222137451172,
      "epoch": 20.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 4.840194663001354e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2720
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.52777862548828,
      "epoch": 20.455223880597014,
      "grad_norm": 6.82519783634026,
      "learning_rate": 4.839965481213271e-07,
      "loss": -0.02,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 2721
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.11111068725586,
      "epoch": 20.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 4.83973614063832e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2722
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.22222137451172,
      "epoch": 20.470149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.839506641292067e-07,
      "loss": 0.0,
      "reward": 1.4444444179534912,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 2723
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.27777862548828,
      "epoch": 20.47761194029851,
      "grad_norm": 0.0,
      "learning_rate": 4.839276983190083e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2724
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.22222137451172,
      "epoch": 20.48507462686567,
      "grad_norm": 0.0,
      "learning_rate": 4.839047166347954e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2725
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.41666793823242,
      "epoch": 20.492537313432837,
      "grad_norm": 0.0,
      "learning_rate": 4.838817190781274e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2726
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.02777862548828,
      "epoch": 20.5,
      "grad_norm": 0.0,
      "learning_rate": 4.838587056505648e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2727
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.52777862548828,
      "epoch": 20.507462686567163,
      "grad_norm": 0.0,
      "learning_rate": 4.838356763536694e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2728
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.55555725097656,
      "epoch": 20.51492537313433,
      "grad_norm": 0.0,
      "learning_rate": 4.83812631189004e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2729
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.38888931274414,
      "epoch": 20.52238805970149,
      "grad_norm": 0.0,
      "learning_rate": 4.837895701581323e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2730
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.38888931274414,
      "epoch": 20.529850746268657,
      "grad_norm": 0.0,
      "learning_rate": 4.837664932626191e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2731
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.05555725097656,
      "epoch": 20.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 4.837434005040305e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2732
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.5,
      "epoch": 20.544776119402986,
      "grad_norm": 0.0,
      "learning_rate": 4.837202918839335e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2733
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.72222137451172,
      "epoch": 20.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 4.836971674038962e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2734
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.36111068725586,
      "epoch": 20.559701492537314,
      "grad_norm": 0.0,
      "learning_rate": 4.83674027065488e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2735
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.6944465637207,
      "epoch": 20.567164179104477,
      "grad_norm": 0.0,
      "learning_rate": 4.836508708702788e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2736
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.52777862548828,
      "epoch": 20.574626865671643,
      "grad_norm": 0.0,
      "learning_rate": 4.836276988198402e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2737
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.13888931274414,
      "epoch": 20.582089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.836045109157448e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2738
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.47222137451172,
      "epoch": 20.58955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.835813071595656e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2739
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.52777862548828,
      "epoch": 20.597014925373134,
      "grad_norm": 0.0,
      "learning_rate": 4.835580875528775e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2740
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.4444465637207,
      "epoch": 20.604477611940297,
      "grad_norm": 0.0,
      "learning_rate": 4.835348520972561e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2741
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.05555725097656,
      "epoch": 20.611940298507463,
      "grad_norm": 0.0,
      "learning_rate": 4.835116007942782e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2742
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.38888931274414,
      "epoch": 20.619402985074625,
      "grad_norm": 0.0,
      "learning_rate": 4.834883336455214e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2743
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.4444465637207,
      "epoch": 20.62686567164179,
      "grad_norm": 0.0,
      "learning_rate": 4.834650506525648e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2744
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.30555725097656,
      "epoch": 20.634328358208954,
      "grad_norm": 0.0,
      "learning_rate": 4.834417518169882e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2745
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.72222137451172,
      "epoch": 20.64179104477612,
      "grad_norm": 0.0,
      "learning_rate": 4.834184371403727e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2746
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.13888931274414,
      "epoch": 20.649253731343283,
      "grad_norm": 0.0,
      "learning_rate": 4.833951066243004e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2747
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.9444465637207,
      "epoch": 20.65671641791045,
      "grad_norm": 2.7340280249741618,
      "learning_rate": 4.833717602703544e-07,
      "loss": -0.0111,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 2748
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.16666793823242,
      "epoch": 20.66417910447761,
      "grad_norm": 3.8843449521086066,
      "learning_rate": 4.833483980801192e-07,
      "loss": 0.0079,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 2749
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.80555725097656,
      "epoch": 20.671641791044777,
      "grad_norm": 0.0,
      "learning_rate": 4.833250200551798e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2750
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.05555725097656,
      "epoch": 20.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.833016261971226e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2751
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.33333206176758,
      "epoch": 20.686567164179106,
      "grad_norm": 0.0,
      "learning_rate": 4.832782165075354e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2752
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.30555725097656,
      "epoch": 20.69402985074627,
      "grad_norm": 0.0,
      "learning_rate": 4.832547909880065e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2753
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.63888931274414,
      "epoch": 20.701492537313435,
      "grad_norm": 4.255957161640719,
      "learning_rate": 4.832313496401257e-07,
      "loss": -0.0045,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 2754
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.25,
      "epoch": 20.708955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.832078924654834e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2755
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.5,
      "epoch": 20.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 4.831844194656717e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2756
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.80555725097656,
      "epoch": 20.723880597014926,
      "grad_norm": 0.0,
      "learning_rate": 4.831609306422832e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 2757
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.38888931274414,
      "epoch": 20.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.831374259969119e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2758
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.86111068725586,
      "epoch": 20.738805970149254,
      "grad_norm": 0.0,
      "learning_rate": 4.83113905531153e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2759
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.27777862548828,
      "epoch": 20.746268656716417,
      "grad_norm": 5.458393424623605,
      "learning_rate": 4.830903692466023e-07,
      "loss": -0.0061,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 2760
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.9444465637207,
      "epoch": 20.753731343283583,
      "grad_norm": 0.0,
      "learning_rate": 4.83066817144857e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2761
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.08333206176758,
      "epoch": 20.761194029850746,
      "grad_norm": 33.30152605192972,
      "learning_rate": 4.830432492275153e-07,
      "loss": -0.01,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 2762
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.55555725097656,
      "epoch": 20.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.830196654961766e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2763
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.13888931274414,
      "epoch": 20.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 4.829960659524411e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2764
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.27777862548828,
      "epoch": 20.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 4.829724505979104e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2765
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.05555725097656,
      "epoch": 20.791044776119403,
      "grad_norm": 11.631748731522858,
      "learning_rate": 4.829488194341869e-07,
      "loss": -0.0162,
      "reward": 1.7777777910232544,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2766
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.25,
      "epoch": 20.798507462686565,
      "grad_norm": 50.29228906784854,
      "learning_rate": 4.829251724628741e-07,
      "loss": -0.0072,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 2767
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.41666793823242,
      "epoch": 20.80597014925373,
      "grad_norm": 0.0,
      "learning_rate": 4.829015096855769e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2768
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.6944465637207,
      "epoch": 20.813432835820894,
      "grad_norm": 0.0,
      "learning_rate": 4.828778311039008e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2769
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.75,
      "epoch": 20.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.828541367194527e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2770
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.88888931274414,
      "epoch": 20.828358208955223,
      "grad_norm": 0.0,
      "learning_rate": 4.828304265338403e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2771
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.0,
      "epoch": 20.83582089552239,
      "grad_norm": 22.63005835942431,
      "learning_rate": 4.828067005486729e-07,
      "loss": -0.0178,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 2772
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.63888931274414,
      "epoch": 20.84328358208955,
      "grad_norm": 0.0,
      "learning_rate": 4.827829587655602e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2773
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.22222137451172,
      "epoch": 20.850746268656717,
      "grad_norm": 275.8050141016683,
      "learning_rate": 4.827592011861133e-07,
      "loss": -0.019,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 2774
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.77777862548828,
      "epoch": 20.85820895522388,
      "grad_norm": 0.0,
      "learning_rate": 4.827354278119445e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2775
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.27777862548828,
      "epoch": 20.865671641791046,
      "grad_norm": 0.0,
      "learning_rate": 4.827116386446671e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2776
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.30555725097656,
      "epoch": 20.87313432835821,
      "grad_norm": 2.4603081723548694,
      "learning_rate": 4.826878336858951e-07,
      "loss": -0.0059,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 2777
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.75,
      "epoch": 20.880597014925375,
      "grad_norm": 0.0,
      "learning_rate": 4.82664012937244e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2778
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.22222137451172,
      "epoch": 20.888059701492537,
      "grad_norm": 0.0,
      "learning_rate": 4.826401764003304e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2779
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.41666793823242,
      "epoch": 20.895522388059703,
      "grad_norm": 0.0,
      "learning_rate": 4.826163240767716e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2780
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.16666793823242,
      "epoch": 20.902985074626866,
      "grad_norm": 0.0,
      "learning_rate": 4.825924559681864e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2781
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.05555725097656,
      "epoch": 20.91044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.825685720761943e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2782
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.91666793823242,
      "epoch": 20.917910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.82544672402416e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2783
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.25,
      "epoch": 20.925373134328357,
      "grad_norm": 0.0,
      "learning_rate": 4.825207569484733e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2784
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.16666793823242,
      "epoch": 20.932835820895523,
      "grad_norm": 0.0,
      "learning_rate": 4.824968257159894e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2785
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.27777862548828,
      "epoch": 20.940298507462686,
      "grad_norm": 0.0,
      "learning_rate": 4.824728787065878e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2786
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.02777862548828,
      "epoch": 20.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 4.824489159218937e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2787
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.22222137451172,
      "epoch": 20.955223880597014,
      "grad_norm": 0.0,
      "learning_rate": 4.824249373635332e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2788
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.80555725097656,
      "epoch": 20.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 4.824009430331333e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2789
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.5,
      "epoch": 20.970149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.823769329323225e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2790
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.83333206176758,
      "epoch": 20.97761194029851,
      "grad_norm": 10.395466134624321,
      "learning_rate": 4.823529070627299e-07,
      "loss": -0.0167,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 2791
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.66666793823242,
      "epoch": 20.98507462686567,
      "grad_norm": 0.0,
      "learning_rate": 4.823288654259859e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2792
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.0,
      "epoch": 20.992537313432837,
      "grad_norm": 0.0,
      "learning_rate": 4.823048080237219e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2793
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.47222137451172,
      "epoch": 21.007462686567163,
      "grad_norm": 0.0,
      "learning_rate": 4.822807348575705e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2794
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.77777862548828,
      "epoch": 21.01492537313433,
      "grad_norm": 0.0,
      "learning_rate": 4.822566459291652e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2795
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.25,
      "epoch": 21.02238805970149,
      "grad_norm": 0.0,
      "learning_rate": 4.822325412401405e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2796
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.86111068725586,
      "epoch": 21.029850746268657,
      "grad_norm": 0.0,
      "learning_rate": 4.822084207921325e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2797
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.13888931274414,
      "epoch": 21.03731343283582,
      "grad_norm": 8.94932596884022,
      "learning_rate": 4.821842845867776e-07,
      "loss": 0.0256,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 2798
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.08333206176758,
      "epoch": 21.044776119402986,
      "grad_norm": 0.0,
      "learning_rate": 4.821601326257139e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2799
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.08333206176758,
      "epoch": 21.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 4.8213596491058e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2800
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.36111068725586,
      "epoch": 21.059701492537314,
      "grad_norm": 0.0,
      "learning_rate": 4.821117814430162e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2801
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.02777862548828,
      "epoch": 21.067164179104477,
      "grad_norm": 0.0,
      "learning_rate": 4.820875822246636e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2802
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.27777862548828,
      "epoch": 21.074626865671643,
      "grad_norm": 0.0,
      "learning_rate": 4.82063367257164e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2803
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.63888931274414,
      "epoch": 21.082089552238806,
      "grad_norm": 13.888781659515466,
      "learning_rate": 4.820391365421609e-07,
      "loss": 0.0074,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 2804
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.61111068725586,
      "epoch": 21.08955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.820148900812983e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2805
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.41666793823242,
      "epoch": 21.097014925373134,
      "grad_norm": 0.0,
      "learning_rate": 4.819906278762218e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2806
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.08333206176758,
      "epoch": 21.104477611940297,
      "grad_norm": 0.0,
      "learning_rate": 4.819663499285777e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2807
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.05555725097656,
      "epoch": 21.111940298507463,
      "grad_norm": 1.869808077110025,
      "learning_rate": 4.819420562400133e-07,
      "loss": 0.0022,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 2808
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.22222137451172,
      "epoch": 21.119402985074625,
      "grad_norm": 0.0,
      "learning_rate": 4.819177468121773e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2809
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.19444274902344,
      "epoch": 21.12686567164179,
      "grad_norm": 0.0,
      "learning_rate": 4.818934216467195e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2810
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.47222137451172,
      "epoch": 21.134328358208954,
      "grad_norm": 0.0,
      "learning_rate": 4.818690807452901e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2811
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.77777862548828,
      "epoch": 21.14179104477612,
      "grad_norm": 0.0,
      "learning_rate": 4.818447241095412e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2812
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.58333206176758,
      "epoch": 21.149253731343283,
      "grad_norm": 0.0,
      "learning_rate": 4.818203517411255e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2813
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.41666793823242,
      "epoch": 21.15671641791045,
      "grad_norm": 0.0,
      "learning_rate": 4.817959636416969e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2814
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.77777862548828,
      "epoch": 21.16417910447761,
      "grad_norm": 1.8852171850563397,
      "learning_rate": 4.817715598129103e-07,
      "loss": 0.0033,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 2815
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.61111068725586,
      "epoch": 21.171641791044777,
      "grad_norm": 0.0,
      "learning_rate": 4.817471402564216e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2816
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.36111068725586,
      "epoch": 21.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.817227049738882e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2817
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.36111068725586,
      "epoch": 21.186567164179106,
      "grad_norm": 0.0,
      "learning_rate": 4.816982539669679e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2818
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.36111068725586,
      "epoch": 21.19402985074627,
      "grad_norm": 0.0,
      "learning_rate": 4.816737872373202e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2819
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.1944465637207,
      "epoch": 21.20149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.816493047866053e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2820
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.9444465637207,
      "epoch": 21.208955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.816248066164843e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2821
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.25,
      "epoch": 21.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 4.816002927286199e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2822
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.47222137451172,
      "epoch": 21.223880597014926,
      "grad_norm": 0.0,
      "learning_rate": 4.815757631246756e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2823
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.41666793823242,
      "epoch": 21.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.815512178063156e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2824
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.5,
      "epoch": 21.238805970149254,
      "grad_norm": 0.0,
      "learning_rate": 4.815266567752059e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2825
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.33333206176758,
      "epoch": 21.246268656716417,
      "grad_norm": 0.0,
      "learning_rate": 4.81502080033013e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2826
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.13888931274414,
      "epoch": 21.253731343283583,
      "grad_norm": 0.0,
      "learning_rate": 4.814774875814045e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2827
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.58333206176758,
      "epoch": 21.261194029850746,
      "grad_norm": 0.0,
      "learning_rate": 4.814528794220495e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2828
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.80555725097656,
      "epoch": 21.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.814282555566178e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2829
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.72222137451172,
      "epoch": 21.276119402985074,
      "grad_norm": 0.0,
      "learning_rate": 4.814036159867803e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2830
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.30555725097656,
      "epoch": 21.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 4.813789607142089e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2831
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.16666793823242,
      "epoch": 21.291044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.813542897405768e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2832
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.72222137451172,
      "epoch": 21.298507462686565,
      "grad_norm": 0.0,
      "learning_rate": 4.813296030675582e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2833
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.97222137451172,
      "epoch": 21.30597014925373,
      "grad_norm": 18.517476639012347,
      "learning_rate": 4.813049006968281e-07,
      "loss": -0.0037,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 2834
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.25,
      "epoch": 21.313432835820894,
      "grad_norm": 0.0,
      "learning_rate": 4.81280182630063e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2835
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.25,
      "epoch": 21.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.8125544886894e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2836
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.05555725097656,
      "epoch": 21.328358208955223,
      "grad_norm": 0.0,
      "learning_rate": 4.812306994151376e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2837
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.63888931274414,
      "epoch": 21.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 4.812059342703354e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2838
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.66666793823242,
      "epoch": 21.34328358208955,
      "grad_norm": 0.0,
      "learning_rate": 4.811811534362138e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2839
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.75,
      "epoch": 21.350746268656717,
      "grad_norm": 11.430006130465722,
      "learning_rate": 4.811563569144544e-07,
      "loss": 0.016,
      "reward": 1.6944444179534912,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 2840
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.86111068725586,
      "epoch": 21.35820895522388,
      "grad_norm": 0.0,
      "learning_rate": 4.811315447067397e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2841
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.1944465637207,
      "epoch": 21.365671641791046,
      "grad_norm": 0.0,
      "learning_rate": 4.811067168147537e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2842
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.66666793823242,
      "epoch": 21.37313432835821,
      "grad_norm": 0.0,
      "learning_rate": 4.810818732401811e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2843
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.13888931274414,
      "epoch": 21.380597014925375,
      "grad_norm": 0.0,
      "learning_rate": 4.810570139847077e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2844
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.13888931274414,
      "epoch": 21.388059701492537,
      "grad_norm": 0.0,
      "learning_rate": 4.810321390500205e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2845
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.41666793823242,
      "epoch": 21.395522388059703,
      "grad_norm": 0.0,
      "learning_rate": 4.810072484378074e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2846
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.75,
      "epoch": 21.402985074626866,
      "grad_norm": 0.0,
      "learning_rate": 4.809823421497574e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2847
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.63888931274414,
      "epoch": 21.41044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.809574201875607e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2848
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.61111068725586,
      "epoch": 21.417910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.809324825529084e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2849
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.41666793823242,
      "epoch": 21.425373134328357,
      "grad_norm": 0.0,
      "learning_rate": 4.809075292474928e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2850
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.05555725097656,
      "epoch": 21.432835820895523,
      "grad_norm": 0.0,
      "learning_rate": 4.808825602730072e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2851
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.63888931274414,
      "epoch": 21.440298507462686,
      "grad_norm": 0.0,
      "learning_rate": 4.808575756311458e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2852
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.91666793823242,
      "epoch": 21.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 4.808325753236043e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2853
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.25,
      "epoch": 21.455223880597014,
      "grad_norm": 15.081932438921331,
      "learning_rate": 4.80807559352079e-07,
      "loss": -0.0116,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 2854
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.41666793823242,
      "epoch": 21.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 4.807825277182675e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2855
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.80555725097656,
      "epoch": 21.470149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.807574804238684e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2856
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.41666793823242,
      "epoch": 21.47761194029851,
      "grad_norm": 0.0,
      "learning_rate": 4.807324174705812e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2857
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.05555725097656,
      "epoch": 21.48507462686567,
      "grad_norm": 0.0,
      "learning_rate": 4.807073388601071e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 2858
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.80555725097656,
      "epoch": 21.492537313432837,
      "grad_norm": 0.0,
      "learning_rate": 4.806822445941474e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2859
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.4444465637207,
      "epoch": 21.5,
      "grad_norm": 0.0,
      "learning_rate": 4.806571346744052e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2860
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.22222137451172,
      "epoch": 21.507462686567163,
      "grad_norm": 0.0,
      "learning_rate": 4.806320091025845e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2861
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.13888931274414,
      "epoch": 21.51492537313433,
      "grad_norm": 0.0,
      "learning_rate": 4.806068678803902e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2862
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.97222137451172,
      "epoch": 21.52238805970149,
      "grad_norm": 0.0,
      "learning_rate": 4.805817110095283e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2863
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.55555725097656,
      "epoch": 21.529850746268657,
      "grad_norm": 6.5235239548280575,
      "learning_rate": 4.80556538491706e-07,
      "loss": 0.0023,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 2864
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.52777862548828,
      "epoch": 21.53731343283582,
      "grad_norm": 12.756281538409546,
      "learning_rate": 4.805313503286313e-07,
      "loss": 0.002,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 2865
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.22222137451172,
      "epoch": 21.544776119402986,
      "grad_norm": 0.0,
      "learning_rate": 4.805061465220136e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2866
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.05555725097656,
      "epoch": 21.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 4.804809270735632e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2867
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.13888931274414,
      "epoch": 21.559701492537314,
      "grad_norm": 0.0,
      "learning_rate": 4.804556919849914e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2868
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.63888931274414,
      "epoch": 21.567164179104477,
      "grad_norm": 0.0,
      "learning_rate": 4.804304412580106e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2869
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.13888931274414,
      "epoch": 21.574626865671643,
      "grad_norm": 0.0,
      "learning_rate": 4.804051748943342e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2870
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.52777862548828,
      "epoch": 21.582089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.803798928956771e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2871
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.52777862548828,
      "epoch": 21.58955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.803545952637545e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2872
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.11111068725586,
      "epoch": 21.597014925373134,
      "grad_norm": 0.0,
      "learning_rate": 4.803292820002832e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2873
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.63888931274414,
      "epoch": 21.604477611940297,
      "grad_norm": 0.0,
      "learning_rate": 4.80303953106981e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2874
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.33333206176758,
      "epoch": 21.611940298507463,
      "grad_norm": 31.00463838833318,
      "learning_rate": 4.802786085855667e-07,
      "loss": 0.0009,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 2875
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.55555725097656,
      "epoch": 21.619402985074625,
      "grad_norm": 0.0,
      "learning_rate": 4.8025324843776e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2876
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.36111068725586,
      "epoch": 21.62686567164179,
      "grad_norm": 0.0,
      "learning_rate": 4.802278726652818e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2877
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.97222137451172,
      "epoch": 21.634328358208954,
      "grad_norm": 0.0,
      "learning_rate": 4.802024812698542e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2878
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.27777862548828,
      "epoch": 21.64179104477612,
      "grad_norm": 0.0,
      "learning_rate": 4.801770742532001e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2879
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.9444465637207,
      "epoch": 21.649253731343283,
      "grad_norm": 0.0,
      "learning_rate": 4.801516516170437e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2880
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.88888931274414,
      "epoch": 21.65671641791045,
      "grad_norm": 134.20196677069495,
      "learning_rate": 4.801262133631101e-07,
      "loss": 0.0097,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 2881
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.41666793823242,
      "epoch": 21.66417910447761,
      "grad_norm": 1.6263830670464994,
      "learning_rate": 4.801007594931255e-07,
      "loss": -0.0023,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 2882
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.63888931274414,
      "epoch": 21.671641791044777,
      "grad_norm": 0.0,
      "learning_rate": 4.800752900088171e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2883
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.08333206176758,
      "epoch": 21.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.800498049119133e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2884
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.5,
      "epoch": 21.686567164179106,
      "grad_norm": 0.0,
      "learning_rate": 4.800243042041435e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2885
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.52777862548828,
      "epoch": 21.69402985074627,
      "grad_norm": 0.0,
      "learning_rate": 4.799987878872381e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 2886
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.66666793823242,
      "epoch": 21.701492537313435,
      "grad_norm": 0.0,
      "learning_rate": 4.799732559629287e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2887
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.91666793823242,
      "epoch": 21.708955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.799477084329478e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2888
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.16666793823242,
      "epoch": 21.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 4.799221452990288e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2889
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.88888931274414,
      "epoch": 21.723880597014926,
      "grad_norm": 0.0,
      "learning_rate": 4.798965665629067e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2890
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.63888931274414,
      "epoch": 21.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.798709722263171e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2891
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.41666793823242,
      "epoch": 21.738805970149254,
      "grad_norm": 0.0,
      "learning_rate": 4.79845362290997e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2892
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.77777862548828,
      "epoch": 21.746268656716417,
      "grad_norm": 0.0,
      "learning_rate": 4.798197367586838e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2893
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.97222137451172,
      "epoch": 21.753731343283583,
      "grad_norm": 0.0,
      "learning_rate": 4.797940956311167e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2894
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.55555725097656,
      "epoch": 21.761194029850746,
      "grad_norm": 0.0,
      "learning_rate": 4.797684389100358e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2895
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.6944465637207,
      "epoch": 21.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.797427665971819e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2896
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.94444274902344,
      "epoch": 21.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 4.797170786942972e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2897
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.91666793823242,
      "epoch": 21.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 4.796913752031248e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2898
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.61111450195312,
      "epoch": 21.791044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.79665656125409e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2899
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.36111068725586,
      "epoch": 21.798507462686565,
      "grad_norm": 0.0,
      "learning_rate": 4.796399214628949e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2900
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.47222137451172,
      "epoch": 21.80597014925373,
      "grad_norm": 0.0,
      "learning_rate": 4.796141712173289e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2901
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.77777862548828,
      "epoch": 21.813432835820894,
      "grad_norm": 0.0,
      "learning_rate": 4.795884053904585e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2902
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.4444465637207,
      "epoch": 21.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.795626239840319e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2903
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.25,
      "epoch": 21.828358208955223,
      "grad_norm": 0.0,
      "learning_rate": 4.795368269997987e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2904
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.4444465637207,
      "epoch": 21.83582089552239,
      "grad_norm": 0.0,
      "learning_rate": 4.795110144395096e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2905
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.6944465637207,
      "epoch": 21.84328358208955,
      "grad_norm": 0.0,
      "learning_rate": 4.794851863049158e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2906
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.55555725097656,
      "epoch": 21.850746268656717,
      "grad_norm": 0.0,
      "learning_rate": 4.794593425977704e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2907
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.08333206176758,
      "epoch": 21.85820895522388,
      "grad_norm": 0.0,
      "learning_rate": 4.794334833198269e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2908
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.16666793823242,
      "epoch": 21.865671641791046,
      "grad_norm": 0.0,
      "learning_rate": 4.794076084728401e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2909
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.27777862548828,
      "epoch": 21.87313432835821,
      "grad_norm": 0.0,
      "learning_rate": 4.79381718058566e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2910
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.77777862548828,
      "epoch": 21.880597014925375,
      "grad_norm": 0.0,
      "learning_rate": 4.793558120787612e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2911
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.4444465637207,
      "epoch": 21.888059701492537,
      "grad_norm": 0.0,
      "learning_rate": 4.793298905351837e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2912
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.47222137451172,
      "epoch": 21.895522388059703,
      "grad_norm": 17.86556344989639,
      "learning_rate": 4.793039534295927e-07,
      "loss": -0.0046,
      "reward": 1.9166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 2913
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.41666793823242,
      "epoch": 21.902985074626866,
      "grad_norm": 0.0,
      "learning_rate": 4.79278000763748e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2914
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.66666793823242,
      "epoch": 21.91044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.792520325394111e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2915
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.75,
      "epoch": 21.917910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.792260487583437e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2916
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.66666793823242,
      "epoch": 21.925373134328357,
      "grad_norm": 33.12752486986605,
      "learning_rate": 4.792000494223093e-07,
      "loss": -0.0023,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 2917
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.38888931274414,
      "epoch": 21.932835820895523,
      "grad_norm": 1.5992306691340537,
      "learning_rate": 4.791740345330722e-07,
      "loss": 0.0099,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 2918
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.75,
      "epoch": 21.940298507462686,
      "grad_norm": 20.943876802221762,
      "learning_rate": 4.791480040923975e-07,
      "loss": 0.0117,
      "reward": 1.9444444179534912,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.944444477558136,
      "rewards/format_reward": 1.0,
      "step": 2919
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.61111068725586,
      "epoch": 21.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 4.791219581020518e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2920
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.08333206176758,
      "epoch": 21.955223880597014,
      "grad_norm": 0.0,
      "learning_rate": 4.790958965638025e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2921
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.86111068725586,
      "epoch": 21.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 4.790698194794182e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2922
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.27777862548828,
      "epoch": 21.970149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.790437268506682e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2923
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.6944465637207,
      "epoch": 21.97761194029851,
      "grad_norm": 0.0,
      "learning_rate": 4.790176186793233e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2924
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.80555725097656,
      "epoch": 21.98507462686567,
      "grad_norm": 0.0,
      "learning_rate": 4.789914949671552e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2925
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.833335876464844,
      "epoch": 21.992537313432837,
      "grad_norm": 0.0,
      "learning_rate": 4.789653557159365e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2926
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.75,
      "epoch": 22.007462686567163,
      "grad_norm": 0.0,
      "learning_rate": 4.78939200927441e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2927
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.25,
      "epoch": 22.01492537313433,
      "grad_norm": 0.0,
      "learning_rate": 4.789130306034436e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2928
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.55555725097656,
      "epoch": 22.02238805970149,
      "grad_norm": 0.0,
      "learning_rate": 4.7888684474572e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2929
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.52777862548828,
      "epoch": 22.029850746268657,
      "grad_norm": 0.0,
      "learning_rate": 4.788606433560473e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2930
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.55555725097656,
      "epoch": 22.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 4.788344264362036e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2931
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.9444465637207,
      "epoch": 22.044776119402986,
      "grad_norm": 0.0,
      "learning_rate": 4.788081939879675e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2932
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.86111068725586,
      "epoch": 22.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 4.787819460131197e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2933
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.38888931274414,
      "epoch": 22.059701492537314,
      "grad_norm": 0.0,
      "learning_rate": 4.787556825134409e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2934
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.88888931274414,
      "epoch": 22.067164179104477,
      "grad_norm": 0.0,
      "learning_rate": 4.787294034907134e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2935
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.5,
      "epoch": 22.074626865671643,
      "grad_norm": 0.0,
      "learning_rate": 4.787031089467207e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2936
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.33333206176758,
      "epoch": 22.082089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.786767988832468e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2937
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.5,
      "epoch": 22.08955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.786504733020772e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2938
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.02777862548828,
      "epoch": 22.097014925373134,
      "grad_norm": 0.0,
      "learning_rate": 4.786241322049983e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2939
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.08333206176758,
      "epoch": 22.104477611940297,
      "grad_norm": 0.0,
      "learning_rate": 4.785977755937976e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2940
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.75,
      "epoch": 22.111940298507463,
      "grad_norm": 0.0,
      "learning_rate": 4.785714034702636e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2941
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.6944465637207,
      "epoch": 22.119402985074625,
      "grad_norm": 0.0,
      "learning_rate": 4.785450158361859e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 2942
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.02777862548828,
      "epoch": 22.12686567164179,
      "grad_norm": 0.0,
      "learning_rate": 4.78518612693355e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2943
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.86111068725586,
      "epoch": 22.134328358208954,
      "grad_norm": 0.0,
      "learning_rate": 4.784921940435628e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2944
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.91666793823242,
      "epoch": 22.14179104477612,
      "grad_norm": 11.364354898906067,
      "learning_rate": 4.784657598886019e-07,
      "loss": -0.0151,
      "reward": 1.638888955116272,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 2945
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.22222137451172,
      "epoch": 22.149253731343283,
      "grad_norm": 0.0,
      "learning_rate": 4.78439310230266e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2946
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.55555725097656,
      "epoch": 22.15671641791045,
      "grad_norm": 0.0,
      "learning_rate": 4.784128450703503e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2947
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.47222137451172,
      "epoch": 22.16417910447761,
      "grad_norm": 0.0,
      "learning_rate": 4.783863644106502e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2948
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.33333206176758,
      "epoch": 22.171641791044777,
      "grad_norm": 0.0,
      "learning_rate": 4.78359868252963e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2949
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.30555725097656,
      "epoch": 22.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.783333565990865e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2950
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.55555725097656,
      "epoch": 22.186567164179106,
      "grad_norm": 0.0,
      "learning_rate": 4.783068294508198e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2951
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.88888931274414,
      "epoch": 22.19402985074627,
      "grad_norm": 0.0,
      "learning_rate": 4.78280286809963e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2952
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.80555725097656,
      "epoch": 22.20149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.782537286783173e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2953
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.38888931274414,
      "epoch": 22.208955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.782271550576849e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2954
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.80555725097656,
      "epoch": 22.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 4.78200565949869e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2955
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.11111068725586,
      "epoch": 22.223880597014926,
      "grad_norm": 0.0,
      "learning_rate": 4.781739613566738e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2956
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.16666793823242,
      "epoch": 22.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.781473412799048e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2957
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.77777862548828,
      "epoch": 22.238805970149254,
      "grad_norm": 0.0,
      "learning_rate": 4.781207057213685e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2958
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.83333206176758,
      "epoch": 22.246268656716417,
      "grad_norm": 0.0,
      "learning_rate": 4.780940546828721e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2959
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.41666793823242,
      "epoch": 22.253731343283583,
      "grad_norm": 0.0,
      "learning_rate": 4.780673881662242e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2960
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.55555725097656,
      "epoch": 22.261194029850746,
      "grad_norm": 0.0,
      "learning_rate": 4.780407061732343e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2961
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.77777862548828,
      "epoch": 22.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.780140087057131e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2962
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.33333206176758,
      "epoch": 22.276119402985074,
      "grad_norm": 0.0,
      "learning_rate": 4.779872957654723e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2963
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.58333206176758,
      "epoch": 22.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 4.779605673543246e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2964
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.75,
      "epoch": 22.291044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.779338234740836e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2965
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.47222137451172,
      "epoch": 22.298507462686565,
      "grad_norm": 0.0,
      "learning_rate": 4.779070641265642e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2966
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.58333206176758,
      "epoch": 22.30597014925373,
      "grad_norm": 0.0,
      "learning_rate": 4.778802893135822e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2967
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.66666793823242,
      "epoch": 22.313432835820894,
      "grad_norm": 0.0,
      "learning_rate": 4.778534990369546e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2968
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.91666793823242,
      "epoch": 22.32089552238806,
      "grad_norm": 1.9775416329975384,
      "learning_rate": 4.778266932984992e-07,
      "loss": -0.0047,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 2969
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.22222137451172,
      "epoch": 22.328358208955223,
      "grad_norm": 2.1511317278731608,
      "learning_rate": 4.777998721000352e-07,
      "loss": -0.0223,
      "reward": 1.6944444179534912,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 2970
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.52777862548828,
      "epoch": 22.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 4.777730354433825e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2971
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.72222137451172,
      "epoch": 22.34328358208955,
      "grad_norm": 0.0,
      "learning_rate": 4.777461833303622e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2972
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.88888931274414,
      "epoch": 22.350746268656717,
      "grad_norm": 0.0,
      "learning_rate": 4.777193157627965e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2973
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.33333206176758,
      "epoch": 22.35820895522388,
      "grad_norm": 0.0,
      "learning_rate": 4.776924327425087e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2974
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.52777862548828,
      "epoch": 22.365671641791046,
      "grad_norm": 0.0,
      "learning_rate": 4.776655342713229e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2975
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.5,
      "epoch": 22.37313432835821,
      "grad_norm": 0.0,
      "learning_rate": 4.776386203510644e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2976
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.66666793823242,
      "epoch": 22.380597014925375,
      "grad_norm": 185.7306806314991,
      "learning_rate": 4.776116909835595e-07,
      "loss": -0.0182,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 2977
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.91666793823242,
      "epoch": 22.388059701492537,
      "grad_norm": 0.0,
      "learning_rate": 4.775847461706357e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2978
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.5,
      "epoch": 22.395522388059703,
      "grad_norm": 0.0,
      "learning_rate": 4.775577859141214e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2979
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.52777862548828,
      "epoch": 22.402985074626866,
      "grad_norm": 0.0,
      "learning_rate": 4.775308102158461e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2980
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.33333206176758,
      "epoch": 22.41044776119403,
      "grad_norm": 1.7202048109924868,
      "learning_rate": 4.775038190776403e-07,
      "loss": 0.0127,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 2981
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.91666793823242,
      "epoch": 22.417910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.774768125013355e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2982
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.11111068725586,
      "epoch": 22.425373134328357,
      "grad_norm": 0.0,
      "learning_rate": 4.774497904887646e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 2983
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.6944465637207,
      "epoch": 22.432835820895523,
      "grad_norm": 0.0,
      "learning_rate": 4.774227530417611e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2984
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.80555725097656,
      "epoch": 22.440298507462686,
      "grad_norm": 0.0,
      "learning_rate": 4.773957001621596e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2985
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.72222137451172,
      "epoch": 22.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 4.773686318517961e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2986
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.33333206176758,
      "epoch": 22.455223880597014,
      "grad_norm": 0.0,
      "learning_rate": 4.773415481125073e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 2987
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.4444465637207,
      "epoch": 22.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 4.77314448946131e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2988
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.02777862548828,
      "epoch": 22.470149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.772873343545063e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2989
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.08333206176758,
      "epoch": 22.47761194029851,
      "grad_norm": 0.0,
      "learning_rate": 4.77260204339473e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2990
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.58333206176758,
      "epoch": 22.48507462686567,
      "grad_norm": 0.0,
      "learning_rate": 4.772330589028722e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2991
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.16666793823242,
      "epoch": 22.492537313432837,
      "grad_norm": 0.0,
      "learning_rate": 4.772058980465459e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2992
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.30555725097656,
      "epoch": 22.5,
      "grad_norm": 0.0,
      "learning_rate": 4.771787217723373e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2993
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.97222137451172,
      "epoch": 22.507462686567163,
      "grad_norm": 0.0,
      "learning_rate": 4.771515300820903e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2994
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.63888931274414,
      "epoch": 22.51492537313433,
      "grad_norm": 0.0,
      "learning_rate": 4.771243229776504e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2995
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.86111068725586,
      "epoch": 22.52238805970149,
      "grad_norm": 0.0,
      "learning_rate": 4.770971004608636e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2996
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.27777862548828,
      "epoch": 22.529850746268657,
      "grad_norm": 37.415139724056885,
      "learning_rate": 4.770698625335773e-07,
      "loss": -0.0071,
      "reward": 1.9444444179534912,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.944444477558136,
      "rewards/format_reward": 1.0,
      "step": 2997
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.86111068725586,
      "epoch": 22.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 4.770426091976397e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 2998
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.0,
      "epoch": 22.544776119402986,
      "grad_norm": 0.0,
      "learning_rate": 4.770153404549004e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 2999
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.5,
      "epoch": 22.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 4.769880563072097e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3000
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.97222137451172,
      "epoch": 22.559701492537314,
      "grad_norm": 0.0,
      "learning_rate": 4.769607567564189e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3001
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.91666793823242,
      "epoch": 22.567164179104477,
      "grad_norm": 0.0,
      "learning_rate": 4.769334418043808e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3002
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.27777862548828,
      "epoch": 22.574626865671643,
      "grad_norm": 0.0,
      "learning_rate": 4.769061114529488e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3003
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.55555725097656,
      "epoch": 22.582089552238806,
      "grad_norm": 8.899862242185568,
      "learning_rate": 4.768787657039775e-07,
      "loss": 0.0186,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 3004
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.88888931274414,
      "epoch": 22.58955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.768514045593226e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3005
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.80555725097656,
      "epoch": 22.597014925373134,
      "grad_norm": 0.0,
      "learning_rate": 4.7682402802084077e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3006
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.52777862548828,
      "epoch": 22.604477611940297,
      "grad_norm": 0.0,
      "learning_rate": 4.7679663609038965e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3007
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.86111068725586,
      "epoch": 22.611940298507463,
      "grad_norm": 0.0,
      "learning_rate": 4.767692287698282e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3008
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.0,
      "epoch": 22.619402985074625,
      "grad_norm": 0.0,
      "learning_rate": 4.7674180606101613e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3009
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.08333206176758,
      "epoch": 22.62686567164179,
      "grad_norm": 0.0,
      "learning_rate": 4.7671436796581423e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3010
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.1944465637207,
      "epoch": 22.634328358208954,
      "grad_norm": 0.0,
      "learning_rate": 4.7668691448608457e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3011
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.25,
      "epoch": 22.64179104477612,
      "grad_norm": 0.0,
      "learning_rate": 4.766594456236901e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3012
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.66666793823242,
      "epoch": 22.649253731343283,
      "grad_norm": 0.0,
      "learning_rate": 4.766319613804947e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3013
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.72222137451172,
      "epoch": 22.65671641791045,
      "grad_norm": 0.0,
      "learning_rate": 4.766044617583634e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 3014
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.86111068725586,
      "epoch": 22.66417910447761,
      "grad_norm": 0.0,
      "learning_rate": 4.7657694675916247e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3015
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.63888931274414,
      "epoch": 22.671641791044777,
      "grad_norm": 0.0,
      "learning_rate": 4.7654941638475885e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3016
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.91666793823242,
      "epoch": 22.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.7652187063702086e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3017
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.1388931274414,
      "epoch": 22.686567164179106,
      "grad_norm": 0.0,
      "learning_rate": 4.7649430951781767e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3018
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.72222137451172,
      "epoch": 22.69402985074627,
      "grad_norm": 0.0,
      "learning_rate": 4.7646673302901944e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3019
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.02777862548828,
      "epoch": 22.701492537313435,
      "grad_norm": 0.0,
      "learning_rate": 4.7643914117249763e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3020
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.3888931274414,
      "epoch": 22.708955223880597,
      "grad_norm": 2.9606960956794373,
      "learning_rate": 4.7641153395012445e-07,
      "loss": 0.0024,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 3021
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.02777862548828,
      "epoch": 22.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 4.7638391136377337e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3022
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.75,
      "epoch": 22.723880597014926,
      "grad_norm": 0.0,
      "learning_rate": 4.7635627341531883e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3023
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.0,
      "epoch": 22.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.763286201066362e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3024
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.11111068725586,
      "epoch": 22.738805970149254,
      "grad_norm": 0.0,
      "learning_rate": 4.7630095143960216e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3025
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.05555725097656,
      "epoch": 22.746268656716417,
      "grad_norm": 0.0,
      "learning_rate": 4.762732674160941e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3026
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.47222137451172,
      "epoch": 22.753731343283583,
      "grad_norm": 65.91738881191206,
      "learning_rate": 4.7624556803799076e-07,
      "loss": -0.0307,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 3027
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.72222137451172,
      "epoch": 22.761194029850746,
      "grad_norm": 0.0,
      "learning_rate": 4.762178533071717e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3028
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.66666793823242,
      "epoch": 22.76865671641791,
      "grad_norm": 37.398372911382786,
      "learning_rate": 4.7619012322551755e-07,
      "loss": -0.0163,
      "reward": 1.7222222089767456,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 3029
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.08333206176758,
      "epoch": 22.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 4.761623777949102e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3030
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.22222137451172,
      "epoch": 22.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 4.7613461701723223e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 3031
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.58333206176758,
      "epoch": 22.791044776119403,
      "grad_norm": 31.29985120007585,
      "learning_rate": 4.761068408943676e-07,
      "loss": 0.0253,
      "reward": 1.5833333730697632,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 3032
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.5,
      "epoch": 22.798507462686565,
      "grad_norm": 0.0,
      "learning_rate": 4.760790494282011e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3033
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.61111068725586,
      "epoch": 22.80597014925373,
      "grad_norm": 3.596030152445638,
      "learning_rate": 4.760512426206187e-07,
      "loss": -0.0203,
      "reward": 1.5833333730697632,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 3034
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.0,
      "epoch": 22.813432835820894,
      "grad_norm": 0.0,
      "learning_rate": 4.7602342047350716e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3035
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.58333206176758,
      "epoch": 22.82089552238806,
      "grad_norm": 2.3136279583201658,
      "learning_rate": 4.759955829887545e-07,
      "loss": 0.0094,
      "reward": 1.9166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 3036
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.47222137451172,
      "epoch": 22.828358208955223,
      "grad_norm": 0.0,
      "learning_rate": 4.7596773016824993e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3037
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.55555725097656,
      "epoch": 22.83582089552239,
      "grad_norm": 0.0,
      "learning_rate": 4.7593986201388323e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3038
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.33333206176758,
      "epoch": 22.84328358208955,
      "grad_norm": 9.863308948759787,
      "learning_rate": 4.7591197852754573e-07,
      "loss": 0.0054,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 3039
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.88888931274414,
      "epoch": 22.850746268656717,
      "grad_norm": 0.0,
      "learning_rate": 4.7588407971112945e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3040
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.52777862548828,
      "epoch": 22.85820895522388,
      "grad_norm": 0.0,
      "learning_rate": 4.758561655665275e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3041
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.27777862548828,
      "epoch": 22.865671641791046,
      "grad_norm": 0.0,
      "learning_rate": 4.7582823609563415e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3042
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.88888931274414,
      "epoch": 22.87313432835821,
      "grad_norm": 0.0,
      "learning_rate": 4.758002913003447e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3043
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.0,
      "epoch": 22.880597014925375,
      "grad_norm": 0.0,
      "learning_rate": 4.757723311825554e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3044
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.1944465637207,
      "epoch": 22.888059701492537,
      "grad_norm": 0.0,
      "learning_rate": 4.757443557441637e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3045
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.25,
      "epoch": 22.895522388059703,
      "grad_norm": 0.0,
      "learning_rate": 4.7571636498706784e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3046
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.33333206176758,
      "epoch": 22.902985074626866,
      "grad_norm": 2.145488765206757,
      "learning_rate": 4.756883589131673e-07,
      "loss": -0.0121,
      "reward": 1.9166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 3047
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.5,
      "epoch": 22.91044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.756603375243625e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3048
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.5,
      "epoch": 22.917910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.756323008225549e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3049
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.16666793823242,
      "epoch": 22.925373134328357,
      "grad_norm": 0.0,
      "learning_rate": 4.7560424880964714e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3050
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.22222137451172,
      "epoch": 22.932835820895523,
      "grad_norm": 2.915022126422202,
      "learning_rate": 4.7557618148754263e-07,
      "loss": -0.0111,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 3051
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.75,
      "epoch": 22.940298507462686,
      "grad_norm": 0.0,
      "learning_rate": 4.755480988581461e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3052
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.83333206176758,
      "epoch": 22.94776119402985,
      "grad_norm": 7.440770121512167,
      "learning_rate": 4.755200009233632e-07,
      "loss": 0.014,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 3053
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.9444465637207,
      "epoch": 22.955223880597014,
      "grad_norm": 0.0,
      "learning_rate": 4.754918876851006e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3054
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.05555725097656,
      "epoch": 22.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 4.75463759145266e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3055
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.86111068725586,
      "epoch": 22.970149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.7543561530576826e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3056
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.0,
      "epoch": 22.97761194029851,
      "grad_norm": 0.0,
      "learning_rate": 4.75407456168517e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3057
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.88888931274414,
      "epoch": 22.98507462686567,
      "grad_norm": 0.0,
      "learning_rate": 4.7537928173542317e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3058
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 44.0,
      "epoch": 22.992537313432837,
      "grad_norm": 0.0,
      "learning_rate": 4.753510920083987e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3059
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.25,
      "epoch": 23.007462686567163,
      "grad_norm": 0.0,
      "learning_rate": 4.7532288698935654e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3060
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.52777862548828,
      "epoch": 23.01492537313433,
      "grad_norm": 0.0,
      "learning_rate": 4.752946666802104e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3061
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.13888931274414,
      "epoch": 23.02238805970149,
      "grad_norm": 0.0,
      "learning_rate": 4.7526643108287547e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3062
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.22222137451172,
      "epoch": 23.029850746268657,
      "grad_norm": 0.0,
      "learning_rate": 4.7523818019926776e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3063
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.88888931274414,
      "epoch": 23.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 4.7520991403130426e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3064
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.22222137451172,
      "epoch": 23.044776119402986,
      "grad_norm": 0.0,
      "learning_rate": 4.7518163258090323e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3065
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.41666793823242,
      "epoch": 23.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 4.7515333584998363e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3066
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.6944465637207,
      "epoch": 23.059701492537314,
      "grad_norm": 0.0,
      "learning_rate": 4.7512502384046573e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3067
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.88888931274414,
      "epoch": 23.067164179104477,
      "grad_norm": 0.0,
      "learning_rate": 4.7509669655427077e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3068
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.11111068725586,
      "epoch": 23.074626865671643,
      "grad_norm": 0.0,
      "learning_rate": 4.750683539933209e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3069
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.6944465637207,
      "epoch": 23.082089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.750399961595395e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3070
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.77777862548828,
      "epoch": 23.08955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.7501162305485086e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3071
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.55555725097656,
      "epoch": 23.097014925373134,
      "grad_norm": 0.0,
      "learning_rate": 4.7498323468118036e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3072
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.47222137451172,
      "epoch": 23.104477611940297,
      "grad_norm": 0.0,
      "learning_rate": 4.749548310404543e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3073
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.63888931274414,
      "epoch": 23.111940298507463,
      "grad_norm": 12.700182307106537,
      "learning_rate": 4.749264121346003e-07,
      "loss": 0.0061,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 3074
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.86111068725586,
      "epoch": 23.119402985074625,
      "grad_norm": 0.0,
      "learning_rate": 4.7489797796554664e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3075
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.63888931274414,
      "epoch": 23.12686567164179,
      "grad_norm": 0.0,
      "learning_rate": 4.7486952853522297e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3076
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.97222137451172,
      "epoch": 23.134328358208954,
      "grad_norm": 8.672416809579135,
      "learning_rate": 4.7484106384555967e-07,
      "loss": -0.007,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 3077
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.38888931274414,
      "epoch": 23.14179104477612,
      "grad_norm": 1.1828980803841582,
      "learning_rate": 4.7481258389848845e-07,
      "loss": -0.0068,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 3078
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.63888931274414,
      "epoch": 23.149253731343283,
      "grad_norm": 0.0,
      "learning_rate": 4.747840886959419e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3079
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.11111068725586,
      "epoch": 23.15671641791045,
      "grad_norm": 0.0,
      "learning_rate": 4.7475557823985363e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3080
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.11111068725586,
      "epoch": 23.16417910447761,
      "grad_norm": 0.0,
      "learning_rate": 4.747270525321583e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3081
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.08333206176758,
      "epoch": 23.171641791044777,
      "grad_norm": 5.157185106006397,
      "learning_rate": 4.746985115747917e-07,
      "loss": 0.021,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 3082
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.02777862548828,
      "epoch": 23.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.7466995536969054e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3083
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.52777862548828,
      "epoch": 23.186567164179106,
      "grad_norm": 0.0,
      "learning_rate": 4.746413839187926e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3084
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.86111068725586,
      "epoch": 23.19402985074627,
      "grad_norm": 0.0,
      "learning_rate": 4.746127972240367e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3085
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.83333206176758,
      "epoch": 23.20149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.7458419528736273e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3086
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.6944465637207,
      "epoch": 23.208955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.7455557811071153e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3087
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.91666793823242,
      "epoch": 23.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 4.74526945696025e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3088
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.58333206176758,
      "epoch": 23.223880597014926,
      "grad_norm": 6.417456500284886,
      "learning_rate": 4.744982980452462e-07,
      "loss": 0.0139,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 3089
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.47222137451172,
      "epoch": 23.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.74469635160319e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3090
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.6944465637207,
      "epoch": 23.238805970149254,
      "grad_norm": 0.0,
      "learning_rate": 4.7444095704318855e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3091
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.58333206176758,
      "epoch": 23.246268656716417,
      "grad_norm": 0.0,
      "learning_rate": 4.744122636958008e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3092
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.1944465637207,
      "epoch": 23.253731343283583,
      "grad_norm": 6.242086961016185,
      "learning_rate": 4.743835551201029e-07,
      "loss": 0.0152,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 3093
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.27777862548828,
      "epoch": 23.261194029850746,
      "grad_norm": 2.013278864883013,
      "learning_rate": 4.743548313180429e-07,
      "loss": 0.0081,
      "reward": 1.5833333730697632,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 3094
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.55555725097656,
      "epoch": 23.26865671641791,
      "grad_norm": 6.224239026083364,
      "learning_rate": 4.7432609229157007e-07,
      "loss": -0.0038,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 3095
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.6944465637207,
      "epoch": 23.276119402985074,
      "grad_norm": 0.0,
      "learning_rate": 4.742973380426345e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3096
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.30555725097656,
      "epoch": 23.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 4.742685685731874e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3097
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.33333206176758,
      "epoch": 23.291044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.7423978388518124e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3098
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.97222137451172,
      "epoch": 23.298507462686565,
      "grad_norm": 0.0,
      "learning_rate": 4.742109839805691e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3099
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.36111068725586,
      "epoch": 23.30597014925373,
      "grad_norm": 7.80587675517789,
      "learning_rate": 4.741821688613053e-07,
      "loss": -0.015,
      "reward": 1.9444444179534912,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.944444477558136,
      "rewards/format_reward": 1.0,
      "step": 3100
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.66666793823242,
      "epoch": 23.313432835820894,
      "grad_norm": 0.0,
      "learning_rate": 4.741533385293453e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3101
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.36111068725586,
      "epoch": 23.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.741244929866454e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3102
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.88888931274414,
      "epoch": 23.328358208955223,
      "grad_norm": 0.0,
      "learning_rate": 4.740956322351631e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3103
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.27777862548828,
      "epoch": 23.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 4.7406675627685684e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3104
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.1944465637207,
      "epoch": 23.34328358208955,
      "grad_norm": 0.0,
      "learning_rate": 4.74037865113686e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3105
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.33333206176758,
      "epoch": 23.350746268656717,
      "grad_norm": 0.0,
      "learning_rate": 4.7400895874761126e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3106
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.08333206176758,
      "epoch": 23.35820895522388,
      "grad_norm": 0.0,
      "learning_rate": 4.73980037180594e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3107
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 46.6944465637207,
      "epoch": 23.365671641791046,
      "grad_norm": 0.0,
      "learning_rate": 4.7395110041459684e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3108
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.0,
      "epoch": 23.37313432835821,
      "grad_norm": 0.0,
      "learning_rate": 4.739221484515835e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3109
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.41666793823242,
      "epoch": 23.380597014925375,
      "grad_norm": 0.0,
      "learning_rate": 4.7389318129351853e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3110
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.72222137451172,
      "epoch": 23.388059701492537,
      "grad_norm": 15.202910282443176,
      "learning_rate": 4.7386419894236763e-07,
      "loss": 0.0095,
      "reward": 1.9166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 3111
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.05555725097656,
      "epoch": 23.395522388059703,
      "grad_norm": 0.0,
      "learning_rate": 4.738352014000974e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3112
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.58333206176758,
      "epoch": 23.402985074626866,
      "grad_norm": 2.9907925353332394,
      "learning_rate": 4.7380618866867573e-07,
      "loss": 0.0069,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 3113
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.1944465637207,
      "epoch": 23.41044776119403,
      "grad_norm": 5.092579846563734,
      "learning_rate": 4.7377716075007136e-07,
      "loss": -0.0095,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 3114
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.22222137451172,
      "epoch": 23.417910447761194,
      "grad_norm": 1.8329505173547318,
      "learning_rate": 4.7374811764625397e-07,
      "loss": -0.0032,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 3115
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.61111068725586,
      "epoch": 23.425373134328357,
      "grad_norm": 0.0,
      "learning_rate": 4.7371905935919444e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3116
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 45.61111068725586,
      "epoch": 23.432835820895523,
      "grad_norm": 0.0,
      "learning_rate": 4.736899858908647e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3117
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 46.6944465637207,
      "epoch": 23.440298507462686,
      "grad_norm": 0.0,
      "learning_rate": 4.736608972432375e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3118
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.63888931274414,
      "epoch": 23.44776119402985,
      "grad_norm": 2.2046258530388907,
      "learning_rate": 4.736317934182869e-07,
      "loss": 0.0049,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 3119
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.30555725097656,
      "epoch": 23.455223880597014,
      "grad_norm": 1.9931780386273408,
      "learning_rate": 4.736026744179878e-07,
      "loss": -0.0056,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 3120
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 45.63888931274414,
      "epoch": 23.46268656716418,
      "grad_norm": 21.667236451171746,
      "learning_rate": 4.7357354024431607e-07,
      "loss": 0.0234,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 3121
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 46.47222137451172,
      "epoch": 23.470149253731343,
      "grad_norm": 32.67397874091683,
      "learning_rate": 4.735443908992489e-07,
      "loss": 0.0256,
      "reward": 1.7777777910232544,
      "reward_std": 0.12830005586147308,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3122
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.41666793823242,
      "epoch": 23.47761194029851,
      "grad_norm": 0.0,
      "learning_rate": 4.7351522638476415e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3123
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 44.5,
      "epoch": 23.48507462686567,
      "grad_norm": 0.0,
      "learning_rate": 4.73486046702841e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3124
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.83333206176758,
      "epoch": 23.492537313432837,
      "grad_norm": 0.0,
      "learning_rate": 4.7345685185545946e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3125
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 44.97222137451172,
      "epoch": 23.5,
      "grad_norm": 0.0,
      "learning_rate": 4.7342764184460074e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3126
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.61111068725586,
      "epoch": 23.507462686567163,
      "grad_norm": 0.0,
      "learning_rate": 4.7339841667224697e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3127
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.66666793823242,
      "epoch": 23.51492537313433,
      "grad_norm": 0.0,
      "learning_rate": 4.733691763403812e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3128
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 44.05555725097656,
      "epoch": 23.52238805970149,
      "grad_norm": 33.98995380485115,
      "learning_rate": 4.7333992085098785e-07,
      "loss": 0.0571,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 3129
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.05555725097656,
      "epoch": 23.529850746268657,
      "grad_norm": 1.76621100873934,
      "learning_rate": 4.73310650206052e-07,
      "loss": -0.0248,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 3130
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 46.13888931274414,
      "epoch": 23.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 4.7328136440756e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3131
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.33333206176758,
      "epoch": 23.544776119402986,
      "grad_norm": 0.0,
      "learning_rate": 4.732520634574991e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3132
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 45.88888931274414,
      "epoch": 23.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 4.732227473578576e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3133
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.05555725097656,
      "epoch": 23.559701492537314,
      "grad_norm": 0.0,
      "learning_rate": 4.73193416110625e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3134
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 46.6944465637207,
      "epoch": 23.567164179104477,
      "grad_norm": 0.0,
      "learning_rate": 4.731640697177914e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3135
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.80555725097656,
      "epoch": 23.574626865671643,
      "grad_norm": 0.0,
      "learning_rate": 4.731347081813485e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3136
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.33333206176758,
      "epoch": 23.582089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.731053315032886e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3137
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.88888931274414,
      "epoch": 23.58955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.7307593968560513e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3138
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.52777862548828,
      "epoch": 23.597014925373134,
      "grad_norm": 0.0,
      "learning_rate": 4.7304653273029263e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3139
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 44.75,
      "epoch": 23.604477611940297,
      "grad_norm": 0.0,
      "learning_rate": 4.730171106393466e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3140
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.02777862548828,
      "epoch": 23.611940298507463,
      "grad_norm": 26.333563377604555,
      "learning_rate": 4.729876734147636e-07,
      "loss": -0.0086,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 3141
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.08333206176758,
      "epoch": 23.619402985074625,
      "grad_norm": 0.0,
      "learning_rate": 4.7295822105854117e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3142
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.86111068725586,
      "epoch": 23.62686567164179,
      "grad_norm": 0.0,
      "learning_rate": 4.7292875357267793e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3143
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.33333206176758,
      "epoch": 23.634328358208954,
      "grad_norm": 0.0,
      "learning_rate": 4.728992709591735e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3144
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.0,
      "epoch": 23.64179104477612,
      "grad_norm": 0.0,
      "learning_rate": 4.728697732200284e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3145
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.66666793823242,
      "epoch": 23.649253731343283,
      "grad_norm": 0.0,
      "learning_rate": 4.7284026035724454e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3146
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.72222137451172,
      "epoch": 23.65671641791045,
      "grad_norm": 3.885016993898799,
      "learning_rate": 4.7281073237282453e-07,
      "loss": -0.0072,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 3147
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.77777862548828,
      "epoch": 23.66417910447761,
      "grad_norm": 0.0,
      "learning_rate": 4.727811892687721e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3148
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.11111068725586,
      "epoch": 23.671641791044777,
      "grad_norm": 0.0,
      "learning_rate": 4.7275163104709194e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3149
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.11111068725586,
      "epoch": 23.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.727220577097899e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3150
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.72222137451172,
      "epoch": 23.686567164179106,
      "grad_norm": 0.0,
      "learning_rate": 4.7269246925887274e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3151
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.16666793823242,
      "epoch": 23.69402985074627,
      "grad_norm": 0.0,
      "learning_rate": 4.7266286569634834e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3152
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.25,
      "epoch": 23.701492537313435,
      "grad_norm": 0.0,
      "learning_rate": 4.726332470242255e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3153
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.55555725097656,
      "epoch": 23.708955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.726036132445141e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3154
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.58333206176758,
      "epoch": 23.71641791044776,
      "grad_norm": 5.555736478357487,
      "learning_rate": 4.7257396435922517e-07,
      "loss": -0.0044,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 3155
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.33333206176758,
      "epoch": 23.723880597014926,
      "grad_norm": 0.0,
      "learning_rate": 4.7254430037037056e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3156
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.25,
      "epoch": 23.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.725146212799632e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3157
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.80555725097656,
      "epoch": 23.738805970149254,
      "grad_norm": 0.0,
      "learning_rate": 4.724849270900171e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3158
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.63888931274414,
      "epoch": 23.746268656716417,
      "grad_norm": 0.0,
      "learning_rate": 4.7245521780254725e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3159
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.4444465637207,
      "epoch": 23.753731343283583,
      "grad_norm": 0.0,
      "learning_rate": 4.7242549341956974e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3160
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 46.33333206176758,
      "epoch": 23.761194029850746,
      "grad_norm": 0.0,
      "learning_rate": 4.723957539431015e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3161
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 45.80555725097656,
      "epoch": 23.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.7236599937516077e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3162
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 45.6944465637207,
      "epoch": 23.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 4.7233622971776655e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3163
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.4444465637207,
      "epoch": 23.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 4.7230644497293893e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3164
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.33333206176758,
      "epoch": 23.791044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.722766451426992e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3165
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.9444465637207,
      "epoch": 23.798507462686565,
      "grad_norm": 0.0,
      "learning_rate": 4.7224683022906947e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3166
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 46.66666793823242,
      "epoch": 23.80597014925373,
      "grad_norm": 0.0,
      "learning_rate": 4.722170002340729e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3167
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.22222137451172,
      "epoch": 23.813432835820894,
      "grad_norm": 0.0,
      "learning_rate": 4.7218715515973374e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3168
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.08333206176758,
      "epoch": 23.82089552238806,
      "grad_norm": 9.47171084543951,
      "learning_rate": 4.721572950080773e-07,
      "loss": 0.0149,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 3169
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 46.5,
      "epoch": 23.828358208955223,
      "grad_norm": 0.0,
      "learning_rate": 4.7212741978112975e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3170
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.33333206176758,
      "epoch": 23.83582089552239,
      "grad_norm": 0.0,
      "learning_rate": 4.720975294809184e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3171
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.1944465637207,
      "epoch": 23.84328358208955,
      "grad_norm": 0.0,
      "learning_rate": 4.720676241094717e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3172
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.88888931274414,
      "epoch": 23.850746268656717,
      "grad_norm": 0.0,
      "learning_rate": 4.7203770366881866e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3173
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 45.25,
      "epoch": 23.85820895522388,
      "grad_norm": 11.528048717831332,
      "learning_rate": 4.7200776816099005e-07,
      "loss": -0.0099,
      "reward": 1.9444444179534912,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.944444477558136,
      "rewards/format_reward": 1.0,
      "step": 3174
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 46.33333206176758,
      "epoch": 23.865671641791046,
      "grad_norm": 0.0,
      "learning_rate": 4.71977817588017e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3175
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 46.9444465637207,
      "epoch": 23.87313432835821,
      "grad_norm": 52.62192180067585,
      "learning_rate": 4.7194785195193197e-07,
      "loss": -0.0166,
      "reward": 1.9166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 3176
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.83333206176758,
      "epoch": 23.880597014925375,
      "grad_norm": 0.0,
      "learning_rate": 4.7191787125476836e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3177
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.55555725097656,
      "epoch": 23.888059701492537,
      "grad_norm": 0.0,
      "learning_rate": 4.718878754985607e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3178
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.1944465637207,
      "epoch": 23.895522388059703,
      "grad_norm": 10.005225215071246,
      "learning_rate": 4.718578646853444e-07,
      "loss": 0.0409,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 3179
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.1944465637207,
      "epoch": 23.902985074626866,
      "grad_norm": 0.0,
      "learning_rate": 4.7182783881715593e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3180
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.61111068725586,
      "epoch": 23.91044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.717977978960329e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3181
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.02777862548828,
      "epoch": 23.917910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.717677419240137e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3182
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.22222137451172,
      "epoch": 23.925373134328357,
      "grad_norm": 14.989570443427716,
      "learning_rate": 4.71737670903138e-07,
      "loss": 0.0185,
      "reward": 1.9444444179534912,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.944444477558136,
      "rewards/format_reward": 1.0,
      "step": 3183
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.55555725097656,
      "epoch": 23.932835820895523,
      "grad_norm": 0.0,
      "learning_rate": 4.717075848354464e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3184
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.38888931274414,
      "epoch": 23.940298507462686,
      "grad_norm": 0.0,
      "learning_rate": 4.716774837229804e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3185
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 45.36111068725586,
      "epoch": 23.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 4.716473675677827e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3186
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.47222137451172,
      "epoch": 23.955223880597014,
      "grad_norm": 0.0,
      "learning_rate": 4.7161723637189687e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3187
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.55555725097656,
      "epoch": 23.96268656716418,
      "grad_norm": 4.971943312231747,
      "learning_rate": 4.7158709013736766e-07,
      "loss": -0.0088,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 3188
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.33333206176758,
      "epoch": 23.970149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.7155692886624063e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3189
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.11111068725586,
      "epoch": 23.97761194029851,
      "grad_norm": 0.0,
      "learning_rate": 4.7152675256056266e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3190
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.97222137451172,
      "epoch": 23.98507462686567,
      "grad_norm": 0.0,
      "learning_rate": 4.714965612223813e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3191
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.91666793823242,
      "epoch": 23.992537313432837,
      "grad_norm": 0.0,
      "learning_rate": 4.714663548537454e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3192
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.83333206176758,
      "epoch": 24.007462686567163,
      "grad_norm": 0.0,
      "learning_rate": 4.7143613345670475e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3193
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.6944465637207,
      "epoch": 24.01492537313433,
      "grad_norm": 0.0,
      "learning_rate": 4.7140589703330994e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3194
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.27777862548828,
      "epoch": 24.02238805970149,
      "grad_norm": 0.0,
      "learning_rate": 4.7137564558561296e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3195
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 46.55555725097656,
      "epoch": 24.029850746268657,
      "grad_norm": 0.0,
      "learning_rate": 4.7134537911566665e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3196
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.16666793823242,
      "epoch": 24.03731343283582,
      "grad_norm": 3.0403917857629232,
      "learning_rate": 4.713150976255247e-07,
      "loss": 0.0254,
      "reward": 1.7222222089767456,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 3197
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.97222137451172,
      "epoch": 24.044776119402986,
      "grad_norm": 0.0,
      "learning_rate": 4.71284801117242e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3198
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.47222137451172,
      "epoch": 24.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 4.712544895928745e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3199
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.58333206176758,
      "epoch": 24.059701492537314,
      "grad_norm": 0.0,
      "learning_rate": 4.7122416305447917e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3200
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 46.88888931274414,
      "epoch": 24.067164179104477,
      "grad_norm": 0.0,
      "learning_rate": 4.7119382150411374e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3201
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 46.11111068725586,
      "epoch": 24.074626865671643,
      "grad_norm": 0.0,
      "learning_rate": 4.711634649438373e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3202
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 44.97222137451172,
      "epoch": 24.082089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.711330933757097e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3203
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.36111068725586,
      "epoch": 24.08955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.7110270680179196e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3204
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 45.27777862548828,
      "epoch": 24.097014925373134,
      "grad_norm": 0.0,
      "learning_rate": 4.710723052241461e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3205
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.77777862548828,
      "epoch": 24.104477611940297,
      "grad_norm": 11.018418784049251,
      "learning_rate": 4.71041888644835e-07,
      "loss": 0.0117,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 3206
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 46.11111068725586,
      "epoch": 24.111940298507463,
      "grad_norm": 0.0,
      "learning_rate": 4.710114570659229e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3207
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.36111068725586,
      "epoch": 24.119402985074625,
      "grad_norm": 0.0,
      "learning_rate": 4.709810104894747e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3208
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.88888931274414,
      "epoch": 24.12686567164179,
      "grad_norm": 0.0,
      "learning_rate": 4.709505489175565e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3209
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.1944465637207,
      "epoch": 24.134328358208954,
      "grad_norm": 5.3178172231949565,
      "learning_rate": 4.709200723522353e-07,
      "loss": -0.0044,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 3210
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 45.0,
      "epoch": 24.14179104477612,
      "grad_norm": 0.0,
      "learning_rate": 4.708895807955793e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3211
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.91666793823242,
      "epoch": 24.149253731343283,
      "grad_norm": 9.607972837385491,
      "learning_rate": 4.7085907424965767e-07,
      "loss": -0.0067,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 3212
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.63888931274414,
      "epoch": 24.15671641791045,
      "grad_norm": 0.0,
      "learning_rate": 4.708285527165404e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3213
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 44.27777862548828,
      "epoch": 24.16417910447761,
      "grad_norm": 0.0,
      "learning_rate": 4.7079801619829873e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3214
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.33333206176758,
      "epoch": 24.171641791044777,
      "grad_norm": 0.0,
      "learning_rate": 4.707674646970048e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3215
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 46.30555725097656,
      "epoch": 24.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.707368982147317e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3216
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.25,
      "epoch": 24.186567164179106,
      "grad_norm": 0.0,
      "learning_rate": 4.7070631675355374e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3217
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.6944465637207,
      "epoch": 24.19402985074627,
      "grad_norm": 8.308960122602741,
      "learning_rate": 4.7067572031554626e-07,
      "loss": 0.0165,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 3218
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.11111068725586,
      "epoch": 24.20149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.7064510890278517e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3219
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 46.6944465637207,
      "epoch": 24.208955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.7061448251734804e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3220
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 44.08333206176758,
      "epoch": 24.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 4.705838411613129e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3221
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 44.86111068725586,
      "epoch": 24.223880597014926,
      "grad_norm": 0.0,
      "learning_rate": 4.7055318483675923e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3222
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.13888931274414,
      "epoch": 24.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.705225135457671e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3223
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.36111068725586,
      "epoch": 24.238805970149254,
      "grad_norm": 0.0,
      "learning_rate": 4.70491827290418e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 3224
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.9444465637207,
      "epoch": 24.246268656716417,
      "grad_norm": 0.0,
      "learning_rate": 4.7046112607279417e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3225
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 46.55555725097656,
      "epoch": 24.253731343283583,
      "grad_norm": 0.0,
      "learning_rate": 4.7043040989497894e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3226
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.05555725097656,
      "epoch": 24.261194029850746,
      "grad_norm": 6.899590534731548,
      "learning_rate": 4.7039967875905685e-07,
      "loss": 0.0158,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 3227
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 46.47222137451172,
      "epoch": 24.26865671641791,
      "grad_norm": 2.455657473754734,
      "learning_rate": 4.70368932667113e-07,
      "loss": -0.0042,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 3228
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.47222137451172,
      "epoch": 24.276119402985074,
      "grad_norm": 0.0,
      "learning_rate": 4.70338171621234e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3229
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 45.41666793823242,
      "epoch": 24.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 4.703073956235071e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3230
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 45.47222137451172,
      "epoch": 24.291044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.702766046760208e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3231
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 44.6944465637207,
      "epoch": 24.298507462686565,
      "grad_norm": 0.0,
      "learning_rate": 4.702457987808645e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3232
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 44.9444465637207,
      "epoch": 24.30597014925373,
      "grad_norm": 5.910286863044855,
      "learning_rate": 4.7021497794012867e-07,
      "loss": -0.0122,
      "reward": 1.5833333730697632,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.5833333134651184,
      "rewards/format_reward": 1.0,
      "step": 3233
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 44.88888931274414,
      "epoch": 24.313432835820894,
      "grad_norm": 0.0,
      "learning_rate": 4.701841421559048e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3234
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 44.66666793823242,
      "epoch": 24.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.7015329143028526e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3235
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 44.9444465637207,
      "epoch": 24.328358208955223,
      "grad_norm": 0.0,
      "learning_rate": 4.7012242576536366e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3236
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.75,
      "epoch": 24.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 4.7009154516323436e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3237
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.5,
      "epoch": 24.34328358208955,
      "grad_norm": 0.0,
      "learning_rate": 4.70060649625993e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3238
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.16666793823242,
      "epoch": 24.350746268656717,
      "grad_norm": 0.0,
      "learning_rate": 4.7002973915573605e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3239
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 45.0,
      "epoch": 24.35820895522388,
      "grad_norm": 12.372799466527484,
      "learning_rate": 4.699988137545611e-07,
      "loss": -0.0126,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 3240
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.08333206176758,
      "epoch": 24.365671641791046,
      "grad_norm": 0.0,
      "learning_rate": 4.6996787342456667e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3241
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.41666793823242,
      "epoch": 24.37313432835821,
      "grad_norm": 0.0,
      "learning_rate": 4.6993691816785236e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3242
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.63888931274414,
      "epoch": 24.380597014925375,
      "grad_norm": 0.0,
      "learning_rate": 4.699059479865187e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3243
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 46.9444465637207,
      "epoch": 24.388059701492537,
      "grad_norm": 0.0,
      "learning_rate": 4.6987496288266726e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3244
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.66666793823242,
      "epoch": 24.395522388059703,
      "grad_norm": 0.0,
      "learning_rate": 4.6984396285840077e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3245
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.55555725097656,
      "epoch": 24.402985074626866,
      "grad_norm": 0.0,
      "learning_rate": 4.698129479158227e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3246
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 46.25,
      "epoch": 24.41044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.697819180570378e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3247
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.11111068725586,
      "epoch": 24.417910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.6975087328415173e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 3248
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 45.61111068725586,
      "epoch": 24.425373134328357,
      "grad_norm": 0.0,
      "learning_rate": 4.6971981359927106e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3249
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.0,
      "epoch": 24.432835820895523,
      "grad_norm": 0.0,
      "learning_rate": 4.6968873900450346e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3250
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 45.02777862548828,
      "epoch": 24.440298507462686,
      "grad_norm": 0.0,
      "learning_rate": 4.6965764950195763e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3251
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 45.9444465637207,
      "epoch": 24.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 4.696265450937432e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3252
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 45.75,
      "epoch": 24.455223880597014,
      "grad_norm": 0.0,
      "learning_rate": 4.6959542578197107e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3253
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.4444465637207,
      "epoch": 24.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 4.6956429156875274e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3254
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.13888931274414,
      "epoch": 24.470149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.69533142456201e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3255
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.55555725097656,
      "epoch": 24.47761194029851,
      "grad_norm": 0.0,
      "learning_rate": 4.695019784464297e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3256
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 45.1944465637207,
      "epoch": 24.48507462686567,
      "grad_norm": 0.0,
      "learning_rate": 4.6947079954155345e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3257
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.91666793823242,
      "epoch": 24.492537313432837,
      "grad_norm": 0.0,
      "learning_rate": 4.6943960574368804e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3258
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.91666793823242,
      "epoch": 24.5,
      "grad_norm": 0.0,
      "learning_rate": 4.694083970549502e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3259
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 46.9444465637207,
      "epoch": 24.507462686567163,
      "grad_norm": 0.0,
      "learning_rate": 4.6937717347745776e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3260
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.30555725097656,
      "epoch": 24.51492537313433,
      "grad_norm": 19.588868486812075,
      "learning_rate": 4.693459350133295e-07,
      "loss": -0.0165,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 3261
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 45.52777862548828,
      "epoch": 24.52238805970149,
      "grad_norm": 0.0,
      "learning_rate": 4.6931468166468533e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3262
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 45.4444465637207,
      "epoch": 24.529850746268657,
      "grad_norm": 0.0,
      "learning_rate": 4.692834134336459e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3263
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 44.22222137451172,
      "epoch": 24.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 4.6925213032233314e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3264
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.5,
      "epoch": 24.544776119402986,
      "grad_norm": 0.0,
      "learning_rate": 4.6922083233286967e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3265
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.5,
      "epoch": 24.55223880597015,
      "grad_norm": 86.52792190730435,
      "learning_rate": 4.6918951946737963e-07,
      "loss": -0.0023,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 3266
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 45.11111068725586,
      "epoch": 24.559701492537314,
      "grad_norm": 0.0,
      "learning_rate": 4.6915819172798766e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3267
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.1944465637207,
      "epoch": 24.567164179104477,
      "grad_norm": 0.0,
      "learning_rate": 4.6912684911681974e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3268
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.58333206176758,
      "epoch": 24.574626865671643,
      "grad_norm": 0.0,
      "learning_rate": 4.690954916360026e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3269
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.52777862548828,
      "epoch": 24.582089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.690641192876642e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3270
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.55555725097656,
      "epoch": 24.58955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.6903273207393345e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3271
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.80555725097656,
      "epoch": 24.597014925373134,
      "grad_norm": 0.0,
      "learning_rate": 4.690013299969402e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3272
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 44.38888931274414,
      "epoch": 24.604477611940297,
      "grad_norm": 0.0,
      "learning_rate": 4.689699130588153e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3273
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.5,
      "epoch": 24.611940298507463,
      "grad_norm": 0.0,
      "learning_rate": 4.6893848126169084e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3274
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.63888931274414,
      "epoch": 24.619402985074625,
      "grad_norm": 0.0,
      "learning_rate": 4.689070346076995e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3275
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.27777862548828,
      "epoch": 24.62686567164179,
      "grad_norm": 0.0,
      "learning_rate": 4.688755730989754e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3276
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 46.0,
      "epoch": 24.634328358208954,
      "grad_norm": 0.0,
      "learning_rate": 4.6884409673765346e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3277
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 46.1944465637207,
      "epoch": 24.64179104477612,
      "grad_norm": 0.0,
      "learning_rate": 4.6881260552586945e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3278
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 46.58333206176758,
      "epoch": 24.649253731343283,
      "grad_norm": 6.775370711715374,
      "learning_rate": 4.687810994657605e-07,
      "loss": -0.016,
      "reward": 1.9166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 3279
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 44.22222137451172,
      "epoch": 24.65671641791045,
      "grad_norm": 0.0,
      "learning_rate": 4.687495785594645e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3280
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.66666793823242,
      "epoch": 24.66417910447761,
      "grad_norm": 0.0,
      "learning_rate": 4.687180428091204e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3281
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 45.1944465637207,
      "epoch": 24.671641791044777,
      "grad_norm": 0.0,
      "learning_rate": 4.6868649221686826e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3282
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.22222137451172,
      "epoch": 24.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.686549267848489e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3283
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.66666793823242,
      "epoch": 24.686567164179106,
      "grad_norm": 0.0,
      "learning_rate": 4.6862334651520455e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3284
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.80555725097656,
      "epoch": 24.69402985074627,
      "grad_norm": 0.0,
      "learning_rate": 4.685917514100779e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3285
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.05555725097656,
      "epoch": 24.701492537313435,
      "grad_norm": 0.0,
      "learning_rate": 4.6856014147161317e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3286
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 45.16666793823242,
      "epoch": 24.708955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.6852851670195525e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3287
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.66666793823242,
      "epoch": 24.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 4.6849687710325024e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3288
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.22222137451172,
      "epoch": 24.723880597014926,
      "grad_norm": 0.0,
      "learning_rate": 4.684652226776452e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3289
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.63888931274414,
      "epoch": 24.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.6843355342728804e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3290
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 44.05555725097656,
      "epoch": 24.738805970149254,
      "grad_norm": 9.539083185809071,
      "learning_rate": 4.684018693543278e-07,
      "loss": 0.0,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 3291
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 45.41666793823242,
      "epoch": 24.746268656716417,
      "grad_norm": 12.847423650633955,
      "learning_rate": 4.6837017046091455e-07,
      "loss": 0.0094,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 3292
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.86111068725586,
      "epoch": 24.753731343283583,
      "grad_norm": 0.0,
      "learning_rate": 4.6833845674919935e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3293
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 45.36111068725586,
      "epoch": 24.761194029850746,
      "grad_norm": 0.0,
      "learning_rate": 4.6830672822133435e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3294
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.08333206176758,
      "epoch": 24.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.682749848794724e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3295
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.13888931274414,
      "epoch": 24.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 4.6824322672576755e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3296
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.33333206176758,
      "epoch": 24.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 4.682114537623751e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3297
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 44.86111068725586,
      "epoch": 24.791044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.6817966599145096e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3298
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.33333206176758,
      "epoch": 24.798507462686565,
      "grad_norm": 11.446078779673021,
      "learning_rate": 4.6814786341515223e-07,
      "loss": -0.0138,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 3299
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 46.97222137451172,
      "epoch": 24.80597014925373,
      "grad_norm": 4.817166149330744,
      "learning_rate": 4.6811604603563694e-07,
      "loss": 0.0012,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 3300
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.75,
      "epoch": 24.813432835820894,
      "grad_norm": 0.0,
      "learning_rate": 4.680842138550642e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3301
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.75,
      "epoch": 24.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.680523668755943e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3302
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.25,
      "epoch": 24.828358208955223,
      "grad_norm": 0.0,
      "learning_rate": 4.68020505099388e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3303
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.86111068725586,
      "epoch": 24.83582089552239,
      "grad_norm": 2.3391582737170595,
      "learning_rate": 4.6798862852860764e-07,
      "loss": -0.0251,
      "reward": 1.9444444179534912,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.944444477558136,
      "rewards/format_reward": 1.0,
      "step": 3304
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.08333206176758,
      "epoch": 24.84328358208955,
      "grad_norm": 43.74219812020991,
      "learning_rate": 4.6795673716541615e-07,
      "loss": -0.0225,
      "reward": 1.6944444179534912,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 3305
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 44.08333206176758,
      "epoch": 24.850746268656717,
      "grad_norm": 0.0,
      "learning_rate": 4.6792483101197776e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3306
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.80555725097656,
      "epoch": 24.85820895522388,
      "grad_norm": 0.0,
      "learning_rate": 4.6789291007045753e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3307
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.55555725097656,
      "epoch": 24.865671641791046,
      "grad_norm": 0.0,
      "learning_rate": 4.6786097434302166e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3308
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.58333206176758,
      "epoch": 24.87313432835821,
      "grad_norm": 0.0,
      "learning_rate": 4.6782902383183705e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3309
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.80555725097656,
      "epoch": 24.880597014925375,
      "grad_norm": 0.0,
      "learning_rate": 4.6779705853907195e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3310
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.9444465637207,
      "epoch": 24.888059701492537,
      "grad_norm": 15.452892111784983,
      "learning_rate": 4.677650784668956e-07,
      "loss": 0.0051,
      "reward": 1.9444444179534912,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.944444477558136,
      "rewards/format_reward": 1.0,
      "step": 3311
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.4444465637207,
      "epoch": 24.895522388059703,
      "grad_norm": 0.0,
      "learning_rate": 4.677330836174779e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3312
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.02777862548828,
      "epoch": 24.902985074626866,
      "grad_norm": 0.0,
      "learning_rate": 4.6770107399299013e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3313
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.88888931274414,
      "epoch": 24.91044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.676690495956044e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3314
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.55555725097656,
      "epoch": 24.917910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.676370104274937e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3315
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.38888931274414,
      "epoch": 24.925373134328357,
      "grad_norm": 0.0,
      "learning_rate": 4.676049564908324e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3316
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.6944465637207,
      "epoch": 24.932835820895523,
      "grad_norm": 7.5965763421372445,
      "learning_rate": 4.675728877877955e-07,
      "loss": -0.0158,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 3317
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.33333206176758,
      "epoch": 24.940298507462686,
      "grad_norm": 10.88911969814622,
      "learning_rate": 4.675408043205591e-07,
      "loss": -0.0233,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 3318
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.75,
      "epoch": 24.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 4.6750870609130046e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3319
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.38888931274414,
      "epoch": 24.955223880597014,
      "grad_norm": 0.0,
      "learning_rate": 4.6747659310219757e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3320
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.6944465637207,
      "epoch": 24.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 4.674444653554297e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3321
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.6944465637207,
      "epoch": 24.970149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.6741232285317693e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3322
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.1944465637207,
      "epoch": 24.97761194029851,
      "grad_norm": 0.0,
      "learning_rate": 4.673801655976205e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 3323
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.75,
      "epoch": 24.98507462686567,
      "grad_norm": 11.26689882568438,
      "learning_rate": 4.673479935909424e-07,
      "loss": 0.0112,
      "reward": 1.9444444179534912,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.944444477558136,
      "rewards/format_reward": 1.0,
      "step": 3324
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.083335876464844,
      "epoch": 24.992537313432837,
      "grad_norm": 0.0,
      "learning_rate": 4.673158068353259e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3325
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.88888931274414,
      "epoch": 25.007462686567163,
      "grad_norm": 0.0,
      "learning_rate": 4.6728360533295514e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3326
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.4444465637207,
      "epoch": 25.01492537313433,
      "grad_norm": 0.0,
      "learning_rate": 4.6725138908601526e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3327
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 46.66666793823242,
      "epoch": 25.02238805970149,
      "grad_norm": 0.0,
      "learning_rate": 4.6721915809669235e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3328
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.38888931274414,
      "epoch": 25.029850746268657,
      "grad_norm": 0.0,
      "learning_rate": 4.6718691236717355e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3329
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.47222137451172,
      "epoch": 25.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 4.6715465189964723e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3330
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.80555725097656,
      "epoch": 25.044776119402986,
      "grad_norm": 0.0,
      "learning_rate": 4.671223766963023e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3331
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.61111068725586,
      "epoch": 25.05223880597015,
      "grad_norm": 3.578061636351554,
      "learning_rate": 4.670900867593289e-07,
      "loss": -0.0064,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 3332
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.63888931274414,
      "epoch": 25.059701492537314,
      "grad_norm": 4.576714277843913,
      "learning_rate": 4.670577820909184e-07,
      "loss": -0.0022,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 3333
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.30555725097656,
      "epoch": 25.067164179104477,
      "grad_norm": 0.0,
      "learning_rate": 4.6702546269326277e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3334
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.16666793823242,
      "epoch": 25.074626865671643,
      "grad_norm": 0.0,
      "learning_rate": 4.6699312856855524e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3335
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.02777862548828,
      "epoch": 25.082089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.6696077971898985e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3336
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.72222137451172,
      "epoch": 25.08955223880597,
      "grad_norm": 9.558834308603158,
      "learning_rate": 4.6692841614676194e-07,
      "loss": 0.0125,
      "reward": 1.638888955116272,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 3337
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.58333206176758,
      "epoch": 25.097014925373134,
      "grad_norm": 0.0,
      "learning_rate": 4.668960378540675e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3338
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.97222137451172,
      "epoch": 25.104477611940297,
      "grad_norm": 0.0,
      "learning_rate": 4.668636448431037e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3339
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.5,
      "epoch": 25.111940298507463,
      "grad_norm": 0.0,
      "learning_rate": 4.6683123711606876e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3340
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.9444465637207,
      "epoch": 25.119402985074625,
      "grad_norm": 0.0,
      "learning_rate": 4.6679881467516177e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3341
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.58333206176758,
      "epoch": 25.12686567164179,
      "grad_norm": 0.0,
      "learning_rate": 4.6676637752258283e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3342
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.61111068725586,
      "epoch": 25.134328358208954,
      "grad_norm": 12.891189045217589,
      "learning_rate": 4.667339256605332e-07,
      "loss": -0.0084,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 3343
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.05555725097656,
      "epoch": 25.14179104477612,
      "grad_norm": 0.0,
      "learning_rate": 4.667014590912149e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3344
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.88888931274414,
      "epoch": 25.149253731343283,
      "grad_norm": 0.0,
      "learning_rate": 4.666689778168311e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3345
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.9444465637207,
      "epoch": 25.15671641791045,
      "grad_norm": 0.0,
      "learning_rate": 4.6663648183958604e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3346
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.97222137451172,
      "epoch": 25.16417910447761,
      "grad_norm": 4.242846151141646,
      "learning_rate": 4.666039711616847e-07,
      "loss": 0.0156,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 3347
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.77777862548828,
      "epoch": 25.171641791044777,
      "grad_norm": 0.0,
      "learning_rate": 4.6657144578533324e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3348
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.97222137451172,
      "epoch": 25.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.6653890571273883e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3349
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.08333206176758,
      "epoch": 25.186567164179106,
      "grad_norm": 0.0,
      "learning_rate": 4.6650635094610966e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3350
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.72222137451172,
      "epoch": 25.19402985074627,
      "grad_norm": 0.0,
      "learning_rate": 4.664737814876547e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3351
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.9444465637207,
      "epoch": 25.20149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.664411973395842e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3352
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.41666793823242,
      "epoch": 25.208955223880597,
      "grad_norm": 4.964814219001145,
      "learning_rate": 4.6640859850410917e-07,
      "loss": 0.0057,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 3353
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.08333206176758,
      "epoch": 25.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 4.6637598498344185e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3354
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.72222137451172,
      "epoch": 25.223880597014926,
      "grad_norm": 6.889512164313873,
      "learning_rate": 4.663433567797952e-07,
      "loss": 0.005,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 3355
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.13888931274414,
      "epoch": 25.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.6631071389538343e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3356
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.36111068725586,
      "epoch": 25.238805970149254,
      "grad_norm": 0.0,
      "learning_rate": 4.662780563324217e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3357
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.0,
      "epoch": 25.246268656716417,
      "grad_norm": 16.581945479350072,
      "learning_rate": 4.6624538409312584e-07,
      "loss": 0.0202,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 3358
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.13888931274414,
      "epoch": 25.253731343283583,
      "grad_norm": 4.287669798979454,
      "learning_rate": 4.662126971797132e-07,
      "loss": -0.0005,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 3359
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.88888931274414,
      "epoch": 25.261194029850746,
      "grad_norm": 0.0,
      "learning_rate": 4.6617999559440187e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3360
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.6944465637207,
      "epoch": 25.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.6614727933941077e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3361
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.88888931274414,
      "epoch": 25.276119402985074,
      "grad_norm": 0.0,
      "learning_rate": 4.6611454841696014e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3362
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.08333206176758,
      "epoch": 25.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 4.660818028292709e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3363
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.75,
      "epoch": 25.291044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.6604904257856526e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3364
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.02777862548828,
      "epoch": 25.298507462686565,
      "grad_norm": 0.0,
      "learning_rate": 4.660162676670662e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3365
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.33333206176758,
      "epoch": 25.30597014925373,
      "grad_norm": 5.649681223262636,
      "learning_rate": 4.6598347809699783e-07,
      "loss": 0.0127,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 3366
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.05555725097656,
      "epoch": 25.313432835820894,
      "grad_norm": 0.0,
      "learning_rate": 4.659506738705852e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3367
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.66666793823242,
      "epoch": 25.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.6591785499005433e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3368
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.63888931274414,
      "epoch": 25.328358208955223,
      "grad_norm": 0.0,
      "learning_rate": 4.658850214576323e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3369
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.13888931274414,
      "epoch": 25.33582089552239,
      "grad_norm": 22.453246763355033,
      "learning_rate": 4.6585217327554707e-07,
      "loss": -0.0115,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 3370
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.13888931274414,
      "epoch": 25.34328358208955,
      "grad_norm": 4.762101915858313,
      "learning_rate": 4.658193104460278e-07,
      "loss": 0.0022,
      "reward": 1.9166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 3371
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.36111068725586,
      "epoch": 25.350746268656717,
      "grad_norm": 0.0,
      "learning_rate": 4.657864329713044e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3372
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.1944465637207,
      "epoch": 25.35820895522388,
      "grad_norm": 0.0,
      "learning_rate": 4.6575354085360796e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3373
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.02777862548828,
      "epoch": 25.365671641791046,
      "grad_norm": 0.0,
      "learning_rate": 4.657206340951705e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3374
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.30555725097656,
      "epoch": 25.37313432835821,
      "grad_norm": 0.0,
      "learning_rate": 4.656877126982249e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3375
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.16666793823242,
      "epoch": 25.380597014925375,
      "grad_norm": 0.0,
      "learning_rate": 4.656547766650054e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3376
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.5,
      "epoch": 25.388059701492537,
      "grad_norm": 6.623640612553682,
      "learning_rate": 4.656218259977468e-07,
      "loss": -0.0073,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 3377
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.61111068725586,
      "epoch": 25.395522388059703,
      "grad_norm": 0.0,
      "learning_rate": 4.655888606986852e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3378
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.13888931274414,
      "epoch": 25.402985074626866,
      "grad_norm": 10.704722078951775,
      "learning_rate": 4.655558807700575e-07,
      "loss": -0.0026,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 3379
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.97222137451172,
      "epoch": 25.41044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.6552288621410165e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3380
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.88888931274414,
      "epoch": 25.417910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.654898770330566e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3381
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.22222137451172,
      "epoch": 25.425373134328357,
      "grad_norm": 0.0,
      "learning_rate": 4.654568532291625e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3382
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.97222137451172,
      "epoch": 25.432835820895523,
      "grad_norm": 0.0,
      "learning_rate": 4.654238148046601e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3383
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.30555725097656,
      "epoch": 25.440298507462686,
      "grad_norm": 0.0,
      "learning_rate": 4.653907617617915e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3384
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.77777862548828,
      "epoch": 25.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 4.6535769410279944e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3385
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.22222137451172,
      "epoch": 25.455223880597014,
      "grad_norm": 0.0,
      "learning_rate": 4.65324611829928e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3386
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.4444465637207,
      "epoch": 25.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 4.6529151494542206e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3387
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.11111068725586,
      "epoch": 25.470149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.6525840345152754e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3388
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.61111068725586,
      "epoch": 25.47761194029851,
      "grad_norm": 0.0,
      "learning_rate": 4.6522527735049134e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3389
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.75,
      "epoch": 25.48507462686567,
      "grad_norm": 0.0,
      "learning_rate": 4.6519213664456123e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3390
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.38888931274414,
      "epoch": 25.492537313432837,
      "grad_norm": 0.0,
      "learning_rate": 4.651589813359863e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3391
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.30555725097656,
      "epoch": 25.5,
      "grad_norm": 0.0,
      "learning_rate": 4.651258114270163e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3392
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.36111068725586,
      "epoch": 25.507462686567163,
      "grad_norm": 0.0,
      "learning_rate": 4.650926269199021e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3393
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.22222137451172,
      "epoch": 25.51492537313433,
      "grad_norm": 0.0,
      "learning_rate": 4.6505942781689556e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3394
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.86111068725586,
      "epoch": 25.52238805970149,
      "grad_norm": 0.0,
      "learning_rate": 4.6502621412024957e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3395
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.0,
      "epoch": 25.529850746268657,
      "grad_norm": 0.0,
      "learning_rate": 4.64992985832218e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3396
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.97222137451172,
      "epoch": 25.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 4.6495974295505545e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3397
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.88888931274414,
      "epoch": 25.544776119402986,
      "grad_norm": 0.0,
      "learning_rate": 4.64926485491018e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3398
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.58333206176758,
      "epoch": 25.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 4.648932134423623e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3399
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.38888931274414,
      "epoch": 25.559701492537314,
      "grad_norm": 0.0,
      "learning_rate": 4.6485992681134633e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3400
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.80555725097656,
      "epoch": 25.567164179104477,
      "grad_norm": 0.0,
      "learning_rate": 4.648266256002286e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3401
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.75,
      "epoch": 25.574626865671643,
      "grad_norm": 0.0,
      "learning_rate": 4.6479330981126905e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3402
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.27777862548828,
      "epoch": 25.582089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.6475997944672853e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3403
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.47222137451172,
      "epoch": 25.58955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.647266345088686e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3404
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.25,
      "epoch": 25.597014925373134,
      "grad_norm": 0.0,
      "learning_rate": 4.6469327499995207e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3405
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.33333206176758,
      "epoch": 25.604477611940297,
      "grad_norm": 0.0,
      "learning_rate": 4.6465990092224274e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3406
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.88888931274414,
      "epoch": 25.611940298507463,
      "grad_norm": 0.0,
      "learning_rate": 4.6462651227800526e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3407
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.77777862548828,
      "epoch": 25.619402985074625,
      "grad_norm": 0.0,
      "learning_rate": 4.645931090695053e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3408
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.58333206176758,
      "epoch": 25.62686567164179,
      "grad_norm": 0.0,
      "learning_rate": 4.6455969129900974e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3409
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.05555725097656,
      "epoch": 25.634328358208954,
      "grad_norm": 0.0,
      "learning_rate": 4.6452625896878607e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3410
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.77777862548828,
      "epoch": 25.64179104477612,
      "grad_norm": 0.0,
      "learning_rate": 4.64492812081103e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3411
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.0,
      "epoch": 25.649253731343283,
      "grad_norm": 0.0,
      "learning_rate": 4.6445935063823026e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3412
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.0,
      "epoch": 25.65671641791045,
      "grad_norm": 0.0,
      "learning_rate": 4.6442587464243844e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3413
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.22222137451172,
      "epoch": 25.66417910447761,
      "grad_norm": 0.0,
      "learning_rate": 4.643923840959992e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3414
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.30555725097656,
      "epoch": 25.671641791044777,
      "grad_norm": 0.0,
      "learning_rate": 4.643588790011851e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3415
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.47222137451172,
      "epoch": 25.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.643253593602699e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3416
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.88888931274414,
      "epoch": 25.686567164179106,
      "grad_norm": 0.0,
      "learning_rate": 4.642918251755281e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3417
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.11111068725586,
      "epoch": 25.69402985074627,
      "grad_norm": 0.0,
      "learning_rate": 4.642582764492352e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3418
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.25,
      "epoch": 25.701492537313435,
      "grad_norm": 0.0,
      "learning_rate": 4.642247131836679e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3419
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.36111068725586,
      "epoch": 25.708955223880597,
      "grad_norm": 23.54385265397852,
      "learning_rate": 4.641911353811037e-07,
      "loss": -0.015,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 3420
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.47222137451172,
      "epoch": 25.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 4.641575430438212e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3421
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.77777862548828,
      "epoch": 25.723880597014926,
      "grad_norm": 0.0,
      "learning_rate": 4.6412393617409983e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3422
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.11111068725586,
      "epoch": 25.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.6409031477422024e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3423
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.66666793823242,
      "epoch": 25.738805970149254,
      "grad_norm": 0.0,
      "learning_rate": 4.640566788464638e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3424
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.91666793823242,
      "epoch": 25.746268656716417,
      "grad_norm": 0.0,
      "learning_rate": 4.6402302839311315e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3425
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.25,
      "epoch": 25.753731343283583,
      "grad_norm": 0.0,
      "learning_rate": 4.6398936341645156e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3426
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.83333206176758,
      "epoch": 25.761194029850746,
      "grad_norm": 6.78984200915062,
      "learning_rate": 4.639556839187636e-07,
      "loss": -0.0097,
      "reward": 1.638888955116272,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 3427
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.0,
      "epoch": 25.76865671641791,
      "grad_norm": 4.599141542720451,
      "learning_rate": 4.639219899023348e-07,
      "loss": -0.0125,
      "reward": 1.8055555820465088,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 3428
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.13888931274414,
      "epoch": 25.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 4.6388828136945144e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3429
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.80555725097656,
      "epoch": 25.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 4.6385455832240105e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3430
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.66666793823242,
      "epoch": 25.791044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.638208207634719e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3431
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.41666793823242,
      "epoch": 25.798507462686565,
      "grad_norm": 12.47891121222867,
      "learning_rate": 4.6378706869495353e-07,
      "loss": 0.0044,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 3432
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.63888931274414,
      "epoch": 25.80597014925373,
      "grad_norm": 0.0,
      "learning_rate": 4.637533021191362e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3433
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.55555725097656,
      "epoch": 25.813432835820894,
      "grad_norm": 0.0,
      "learning_rate": 4.637195210383113e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3434
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.4444465637207,
      "epoch": 25.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.6368572545477114e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3435
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.88888931274414,
      "epoch": 25.828358208955223,
      "grad_norm": 0.0,
      "learning_rate": 4.636519153708091e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3436
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.86111068725586,
      "epoch": 25.83582089552239,
      "grad_norm": 0.0,
      "learning_rate": 4.636180907887195e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3437
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.88888931274414,
      "epoch": 25.84328358208955,
      "grad_norm": 4.730419283703583,
      "learning_rate": 4.6358425171079753e-07,
      "loss": 0.0067,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 3438
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.6944465637207,
      "epoch": 25.850746268656717,
      "grad_norm": 1.6665687046764692,
      "learning_rate": 4.635503981393395e-07,
      "loss": -0.0081,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 3439
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.25,
      "epoch": 25.85820895522388,
      "grad_norm": 15.896877568576537,
      "learning_rate": 4.635165300766427e-07,
      "loss": 0.0022,
      "reward": 1.9444444179534912,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.944444477558136,
      "rewards/format_reward": 1.0,
      "step": 3440
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.58333206176758,
      "epoch": 25.865671641791046,
      "grad_norm": 0.0,
      "learning_rate": 4.634826475250053e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3441
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.05555725097656,
      "epoch": 25.87313432835821,
      "grad_norm": 0.0,
      "learning_rate": 4.634487504867267e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3442
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.75,
      "epoch": 25.880597014925375,
      "grad_norm": 0.0,
      "learning_rate": 4.634148389641069e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3443
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.61111068725586,
      "epoch": 25.888059701492537,
      "grad_norm": 0.0,
      "learning_rate": 4.633809129594472e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3444
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.25,
      "epoch": 25.895522388059703,
      "grad_norm": 0.0,
      "learning_rate": 4.6334697247504975e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3445
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.97222137451172,
      "epoch": 25.902985074626866,
      "grad_norm": 0.0,
      "learning_rate": 4.633130175132177e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3446
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.22222137451172,
      "epoch": 25.91044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.632790480762552e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3447
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.16666793823242,
      "epoch": 25.917910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.632450641664673e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3448
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.58333206176758,
      "epoch": 25.925373134328357,
      "grad_norm": 0.0,
      "learning_rate": 4.632110657861602e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3449
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.05555725097656,
      "epoch": 25.932835820895523,
      "grad_norm": 0.0,
      "learning_rate": 4.6317705293764096e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3450
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.6944465637207,
      "epoch": 25.940298507462686,
      "grad_norm": 0.0,
      "learning_rate": 4.631430256232177e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3451
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.91666793823242,
      "epoch": 25.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 4.6310898384519927e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3452
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.16666793823242,
      "epoch": 25.955223880597014,
      "grad_norm": 0.0,
      "learning_rate": 4.6307492760589586e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3453
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.6944465637207,
      "epoch": 25.96268656716418,
      "grad_norm": 9.875418460274592,
      "learning_rate": 4.630408569076185e-07,
      "loss": -0.0039,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 3454
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.11111068725586,
      "epoch": 25.970149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.630067717526791e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3455
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.02777862548828,
      "epoch": 25.97761194029851,
      "grad_norm": 0.0,
      "learning_rate": 4.6297267214339063e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3456
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.88888931274414,
      "epoch": 25.98507462686567,
      "grad_norm": 0.0,
      "learning_rate": 4.629385580820671e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3457
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.91666793823242,
      "epoch": 25.992537313432837,
      "grad_norm": 55.93266756482738,
      "learning_rate": 4.629044295710234e-07,
      "loss": -0.0189,
      "reward": 1.6944444179534912,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 3458
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.1944465637207,
      "epoch": 26.007462686567163,
      "grad_norm": 0.0,
      "learning_rate": 4.628702866125755e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3459
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.86111068725586,
      "epoch": 26.01492537313433,
      "grad_norm": 0.0,
      "learning_rate": 4.6283612920904023e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3460
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.11111068725586,
      "epoch": 26.02238805970149,
      "grad_norm": 6.626229975316235,
      "learning_rate": 4.6280195736273545e-07,
      "loss": -0.005,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 3461
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.41666793823242,
      "epoch": 26.029850746268657,
      "grad_norm": 0.0,
      "learning_rate": 4.627677710759801e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3462
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.9444465637207,
      "epoch": 26.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 4.62733570351094e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3463
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.55555725097656,
      "epoch": 26.044776119402986,
      "grad_norm": 0.0,
      "learning_rate": 4.626993551903979e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3464
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.75,
      "epoch": 26.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 4.626651255962136e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3465
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.4444465637207,
      "epoch": 26.059701492537314,
      "grad_norm": 0.0,
      "learning_rate": 4.626308815708639e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3466
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.27777862548828,
      "epoch": 26.067164179104477,
      "grad_norm": 0.0,
      "learning_rate": 4.6259662311667265e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3467
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.63888931274414,
      "epoch": 26.074626865671643,
      "grad_norm": 0.0,
      "learning_rate": 4.625623502359644e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3468
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.4444465637207,
      "epoch": 26.082089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.625280629310649e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3469
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.41666793823242,
      "epoch": 26.08955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.6249376120430106e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3470
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.27777862548828,
      "epoch": 26.097014925373134,
      "grad_norm": 0.0,
      "learning_rate": 4.624594450580003e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3471
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.63888931274414,
      "epoch": 26.104477611940297,
      "grad_norm": 0.0,
      "learning_rate": 4.6242511449449127e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3472
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.05555725097656,
      "epoch": 26.111940298507463,
      "grad_norm": 0.0,
      "learning_rate": 4.6239076951610367e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3473
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.88888931274414,
      "epoch": 26.119402985074625,
      "grad_norm": 0.0,
      "learning_rate": 4.623564101251682e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3474
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.88888931274414,
      "epoch": 26.12686567164179,
      "grad_norm": 8.747488073609336,
      "learning_rate": 4.6232203632401625e-07,
      "loss": -0.0059,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 3475
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.86111068725586,
      "epoch": 26.134328358208954,
      "grad_norm": 0.0,
      "learning_rate": 4.622876481149806e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3476
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.1944465637207,
      "epoch": 26.14179104477612,
      "grad_norm": 0.0,
      "learning_rate": 4.6225324550039447e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3477
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.33333206176758,
      "epoch": 26.149253731343283,
      "grad_norm": 0.0,
      "learning_rate": 4.622188284825927e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3478
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.52777862548828,
      "epoch": 26.15671641791045,
      "grad_norm": 0.0,
      "learning_rate": 4.6218439706391053e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3479
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.80555725097656,
      "epoch": 26.16417910447761,
      "grad_norm": 0.0,
      "learning_rate": 4.6214995124668466e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3480
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.86111068725586,
      "epoch": 26.171641791044777,
      "grad_norm": 0.0,
      "learning_rate": 4.621154910332524e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3481
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.27777862548828,
      "epoch": 26.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.620810164259522e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3482
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.88888931274414,
      "epoch": 26.186567164179106,
      "grad_norm": 0.0,
      "learning_rate": 4.620465274271234e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3483
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.36111068725586,
      "epoch": 26.19402985074627,
      "grad_norm": 0.0,
      "learning_rate": 4.6201202403910643e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3484
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.5,
      "epoch": 26.20149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.619775062642427e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3485
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.41666793823242,
      "epoch": 26.208955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.619429741048745e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3486
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.41666793823242,
      "epoch": 26.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 4.6190842756334504e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3487
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.41666793823242,
      "epoch": 26.223880597014926,
      "grad_norm": 0.0,
      "learning_rate": 4.618738666419987e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3488
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.36111068725586,
      "epoch": 26.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.618392913431808e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3489
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.16666793823242,
      "epoch": 26.238805970149254,
      "grad_norm": 0.0,
      "learning_rate": 4.6180470166923737e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3490
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.9444465637207,
      "epoch": 26.246268656716417,
      "grad_norm": 0.0,
      "learning_rate": 4.6177009762251577e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3491
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.77777862548828,
      "epoch": 26.253731343283583,
      "grad_norm": 0.0,
      "learning_rate": 4.6173547920536416e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3492
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.83333206176758,
      "epoch": 26.261194029850746,
      "grad_norm": 0.0,
      "learning_rate": 4.6170084642013174e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3493
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.36111068725586,
      "epoch": 26.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.616661992691685e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3494
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.4444465637207,
      "epoch": 26.276119402985074,
      "grad_norm": 0.0,
      "learning_rate": 4.616315377548257e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3495
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.36111068725586,
      "epoch": 26.28358208955224,
      "grad_norm": 3.5287511640657625,
      "learning_rate": 4.6159686187945536e-07,
      "loss": 0.0203,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 3496
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.52777862548828,
      "epoch": 26.291044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.615621716454105e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3497
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.72222137451172,
      "epoch": 26.298507462686565,
      "grad_norm": 0.0,
      "learning_rate": 4.615274670550452e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3498
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.13888931274414,
      "epoch": 26.30597014925373,
      "grad_norm": 0.0,
      "learning_rate": 4.6149274811071446e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3499
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.47222137451172,
      "epoch": 26.313432835820894,
      "grad_norm": 0.0,
      "learning_rate": 4.6145801481477433e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3500
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.52777862548828,
      "epoch": 26.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.614232671695816e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3501
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.27777862548828,
      "epoch": 26.328358208955223,
      "grad_norm": 0.0,
      "learning_rate": 4.613885051774944e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3502
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.4444465637207,
      "epoch": 26.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 4.6135372884087143e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3503
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.08333206176758,
      "epoch": 26.34328358208955,
      "grad_norm": 0.0,
      "learning_rate": 4.613189381620727e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3504
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.58333206176758,
      "epoch": 26.350746268656717,
      "grad_norm": 0.0,
      "learning_rate": 4.61284133143459e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3505
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.83333206176758,
      "epoch": 26.35820895522388,
      "grad_norm": 0.0,
      "learning_rate": 4.6124931378739217e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3506
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.25,
      "epoch": 26.365671641791046,
      "grad_norm": 0.0,
      "learning_rate": 4.61214480096235e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3507
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.66666793823242,
      "epoch": 26.37313432835821,
      "grad_norm": 0.0,
      "learning_rate": 4.611796320723512e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3508
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.88888931274414,
      "epoch": 26.380597014925375,
      "grad_norm": 0.0,
      "learning_rate": 4.611447697181057e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3509
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.05555725097656,
      "epoch": 26.388059701492537,
      "grad_norm": 0.0,
      "learning_rate": 4.611098930358639e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3510
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.30555725097656,
      "epoch": 26.395522388059703,
      "grad_norm": 0.0,
      "learning_rate": 4.6107500202799277e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3511
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.27777862548828,
      "epoch": 26.402985074626866,
      "grad_norm": 0.0,
      "learning_rate": 4.610400966968599e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3512
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.66666793823242,
      "epoch": 26.41044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.6100517704483377e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3513
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.25,
      "epoch": 26.417910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.6097024307428417e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3514
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.6944465637207,
      "epoch": 26.425373134328357,
      "grad_norm": 0.0,
      "learning_rate": 4.6093529478758153e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3515
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.58333206176758,
      "epoch": 26.432835820895523,
      "grad_norm": 0.0,
      "learning_rate": 4.6090033218709755e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3516
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.72222137451172,
      "epoch": 26.440298507462686,
      "grad_norm": 0.0,
      "learning_rate": 4.6086535527520456e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3517
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.27777862548828,
      "epoch": 26.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 4.6083036405427615e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3518
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.91666793823242,
      "epoch": 26.455223880597014,
      "grad_norm": 0.0,
      "learning_rate": 4.607953585266868e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3519
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.41666793823242,
      "epoch": 26.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 4.6076033869481177e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3520
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.08333206176758,
      "epoch": 26.470149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.607253045610277e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3521
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.05555725097656,
      "epoch": 26.47761194029851,
      "grad_norm": 0.0,
      "learning_rate": 4.606902561277118e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3522
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.02777862548828,
      "epoch": 26.48507462686567,
      "grad_norm": 0.0,
      "learning_rate": 4.6065519339724244e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3523
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.08333206176758,
      "epoch": 26.492537313432837,
      "grad_norm": 0.0,
      "learning_rate": 4.6062011637199903e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3524
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.61111068725586,
      "epoch": 26.5,
      "grad_norm": 0.0,
      "learning_rate": 4.605850250543617e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3525
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.86111068725586,
      "epoch": 26.507462686567163,
      "grad_norm": 0.0,
      "learning_rate": 4.6054991944671173e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3526
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.30555725097656,
      "epoch": 26.51492537313433,
      "grad_norm": 0.0,
      "learning_rate": 4.6051479955143134e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3527
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.11111068725586,
      "epoch": 26.52238805970149,
      "grad_norm": 0.0,
      "learning_rate": 4.604796653709038e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3528
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.88888931274414,
      "epoch": 26.529850746268657,
      "grad_norm": 12.690415117773133,
      "learning_rate": 4.6044451690751325e-07,
      "loss": -0.0179,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 3529
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.05555725097656,
      "epoch": 26.53731343283582,
      "grad_norm": 10.637580771655783,
      "learning_rate": 4.6040935416364466e-07,
      "loss": -0.0053,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 3530
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.27777862548828,
      "epoch": 26.544776119402986,
      "grad_norm": 0.0,
      "learning_rate": 4.6037417714168436e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3531
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.1944465637207,
      "epoch": 26.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 4.6033898584401923e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3532
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.16666793823242,
      "epoch": 26.559701492537314,
      "grad_norm": 0.0,
      "learning_rate": 4.6030378027303743e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3533
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.61111068725586,
      "epoch": 26.567164179104477,
      "grad_norm": 0.0,
      "learning_rate": 4.6026856043112796e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3534
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.72222137451172,
      "epoch": 26.574626865671643,
      "grad_norm": 5.33547405296157,
      "learning_rate": 4.6023332632068057e-07,
      "loss": 0.0094,
      "reward": 1.9166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 3535
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.05555725097656,
      "epoch": 26.582089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.601980779440865e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3536
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.86111068725586,
      "epoch": 26.58955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.601628153037374e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3537
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.11111068725586,
      "epoch": 26.597014925373134,
      "grad_norm": 0.0,
      "learning_rate": 4.6012753840202634e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3538
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.22222137451172,
      "epoch": 26.604477611940297,
      "grad_norm": 0.0,
      "learning_rate": 4.600922472413471e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3539
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.13888931274414,
      "epoch": 26.611940298507463,
      "grad_norm": 4.365754411710732,
      "learning_rate": 4.600569418240945e-07,
      "loss": 0.0165,
      "reward": 1.6944444179534912,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 3540
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.6944465637207,
      "epoch": 26.619402985074625,
      "grad_norm": 0.0,
      "learning_rate": 4.6002162215266426e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3541
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.72222137451172,
      "epoch": 26.62686567164179,
      "grad_norm": 0.0,
      "learning_rate": 4.599862882294531e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3542
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.5,
      "epoch": 26.634328358208954,
      "grad_norm": 0.0,
      "learning_rate": 4.5995094005685884e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3543
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.66666793823242,
      "epoch": 26.64179104477612,
      "grad_norm": 0.0,
      "learning_rate": 4.5991557763728017e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3544
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.30555725097656,
      "epoch": 26.649253731343283,
      "grad_norm": 0.0,
      "learning_rate": 4.5988020097311666e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3545
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.9444465637207,
      "epoch": 26.65671641791045,
      "grad_norm": 0.0,
      "learning_rate": 4.598448100667689e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3546
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.55555725097656,
      "epoch": 26.66417910447761,
      "grad_norm": 0.0,
      "learning_rate": 4.5980940492063846e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3547
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.83333206176758,
      "epoch": 26.671641791044777,
      "grad_norm": 0.0,
      "learning_rate": 4.59773985537128e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3548
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.83333206176758,
      "epoch": 26.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.5973855191864095e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3549
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.63888931274414,
      "epoch": 26.686567164179106,
      "grad_norm": 0.0,
      "learning_rate": 4.5970310406758185e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3550
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.63888931274414,
      "epoch": 26.69402985074627,
      "grad_norm": 0.0,
      "learning_rate": 4.59667641986356e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3551
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.47222137451172,
      "epoch": 26.701492537313435,
      "grad_norm": 0.0,
      "learning_rate": 4.5963216567736993e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3552
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.80555725097656,
      "epoch": 26.708955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.59596675143031e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3553
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.02777862548828,
      "epoch": 26.71641791044776,
      "grad_norm": 29.88953464116901,
      "learning_rate": 4.5956117038574757e-07,
      "loss": 0.015,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 3554
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.91666793823242,
      "epoch": 26.723880597014926,
      "grad_norm": 0.0,
      "learning_rate": 4.595256514079289e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3555
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.61111068725586,
      "epoch": 26.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.594901182119852e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3556
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.9444465637207,
      "epoch": 26.738805970149254,
      "grad_norm": 0.0,
      "learning_rate": 4.5945457080032777e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3557
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.55555725097656,
      "epoch": 26.746268656716417,
      "grad_norm": 0.0,
      "learning_rate": 4.5941900917536893e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3558
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.66666793823242,
      "epoch": 26.753731343283583,
      "grad_norm": 0.0,
      "learning_rate": 4.593834333395216e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3559
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.63888931274414,
      "epoch": 26.761194029850746,
      "grad_norm": 0.0,
      "learning_rate": 4.5934784329520015e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3560
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.30555725097656,
      "epoch": 26.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.5931223904481945e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3561
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.83333206176758,
      "epoch": 26.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 4.5927662059079573e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3562
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.58333206176758,
      "epoch": 26.78358208955224,
      "grad_norm": 2.567847060464684,
      "learning_rate": 4.592409879355459e-07,
      "loss": 0.0089,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 3563
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.91666793823242,
      "epoch": 26.791044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.59205341081488e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3564
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.41666793823242,
      "epoch": 26.798507462686565,
      "grad_norm": 0.0,
      "learning_rate": 4.5916968003104096e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3565
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.91666793823242,
      "epoch": 26.80597014925373,
      "grad_norm": 0.0,
      "learning_rate": 4.5913400478662465e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3566
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.16666793823242,
      "epoch": 26.813432835820894,
      "grad_norm": 0.0,
      "learning_rate": 4.590983153506601e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3567
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 46.55555725097656,
      "epoch": 26.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.5906261172556893e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3568
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.33333206176758,
      "epoch": 26.828358208955223,
      "grad_norm": 0.0,
      "learning_rate": 4.5902689391377407e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3569
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.33333206176758,
      "epoch": 26.83582089552239,
      "grad_norm": 0.0,
      "learning_rate": 4.5899116191769925e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3570
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.27777862548828,
      "epoch": 26.84328358208955,
      "grad_norm": 0.0,
      "learning_rate": 4.589554157397692e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3571
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.86111068725586,
      "epoch": 26.850746268656717,
      "grad_norm": 0.0,
      "learning_rate": 4.589196553824096e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3572
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.86111068725586,
      "epoch": 26.85820895522388,
      "grad_norm": 0.0,
      "learning_rate": 4.588838808480471e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3573
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.91666793823242,
      "epoch": 26.865671641791046,
      "grad_norm": 0.0,
      "learning_rate": 4.5884809213910936e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3574
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.66666793823242,
      "epoch": 26.87313432835821,
      "grad_norm": 0.0,
      "learning_rate": 4.588122892580248e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3575
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.55555725097656,
      "epoch": 26.880597014925375,
      "grad_norm": 0.0,
      "learning_rate": 4.5877647220722317e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3576
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.66666793823242,
      "epoch": 26.888059701492537,
      "grad_norm": 0.0,
      "learning_rate": 4.587406409891348e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3577
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.83333206176758,
      "epoch": 26.895522388059703,
      "grad_norm": 0.0,
      "learning_rate": 4.5870479560619123e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3578
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.0,
      "epoch": 26.902985074626866,
      "grad_norm": 0.0,
      "learning_rate": 4.586689360608249e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3579
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.72222137451172,
      "epoch": 26.91044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.5863306235546904e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3580
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.5,
      "epoch": 26.917910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.5859717449255814e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3581
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.80555725097656,
      "epoch": 26.925373134328357,
      "grad_norm": 0.0,
      "learning_rate": 4.5856127247452745e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3582
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.02777862548828,
      "epoch": 26.932835820895523,
      "grad_norm": 0.0,
      "learning_rate": 4.585253563038133e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3583
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.55555725097656,
      "epoch": 26.940298507462686,
      "grad_norm": 0.0,
      "learning_rate": 4.584894259828528e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3584
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.97222137451172,
      "epoch": 26.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 4.5845348151408415e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3585
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.77777862548828,
      "epoch": 26.955223880597014,
      "grad_norm": 0.0,
      "learning_rate": 4.584175228999465e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3586
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.05555725097656,
      "epoch": 26.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 4.5838155014288e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3587
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.33333206176758,
      "epoch": 26.970149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.583455632453258e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3588
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.02777862548828,
      "epoch": 26.97761194029851,
      "grad_norm": 0.0,
      "learning_rate": 4.583095622097257e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3589
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.6944465637207,
      "epoch": 26.98507462686567,
      "grad_norm": 0.0,
      "learning_rate": 4.5827354703852284e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3590
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.0,
      "epoch": 26.992537313432837,
      "grad_norm": 0.0,
      "learning_rate": 4.5823751773416115e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3591
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.91666793823242,
      "epoch": 27.007462686567163,
      "grad_norm": 0.0,
      "learning_rate": 4.582014742990854e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3592
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.63888931274414,
      "epoch": 27.01492537313433,
      "grad_norm": 0.0,
      "learning_rate": 4.581654167357416e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3593
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.80555725097656,
      "epoch": 27.02238805970149,
      "grad_norm": 0.0,
      "learning_rate": 4.5812934504657654e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3594
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.1944465637207,
      "epoch": 27.029850746268657,
      "grad_norm": 0.0,
      "learning_rate": 4.580932592340379e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3595
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.08333206176758,
      "epoch": 27.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 4.5805715930057454e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3596
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.13888931274414,
      "epoch": 27.044776119402986,
      "grad_norm": 0.0,
      "learning_rate": 4.5802104524863604e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3597
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.13888931274414,
      "epoch": 27.05223880597015,
      "grad_norm": 7.621683511777963,
      "learning_rate": 4.579849170806731e-07,
      "loss": 0.0017,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 3598
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.1944465637207,
      "epoch": 27.059701492537314,
      "grad_norm": 0.0,
      "learning_rate": 4.579487747991373e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3599
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.88888931274414,
      "epoch": 27.067164179104477,
      "grad_norm": 24.130391451788075,
      "learning_rate": 4.5791261840648134e-07,
      "loss": 0.0099,
      "reward": 1.9166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 3600
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.33333206176758,
      "epoch": 27.074626865671643,
      "grad_norm": 0.0,
      "learning_rate": 4.5787644790515857e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3601
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.61111068725586,
      "epoch": 27.082089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.578402632976235e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3602
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.47222137451172,
      "epoch": 27.08955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.5780406458633167e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3603
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.9444465637207,
      "epoch": 27.097014925373134,
      "grad_norm": 0.0,
      "learning_rate": 4.5776785177373944e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3604
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.6944465637207,
      "epoch": 27.104477611940297,
      "grad_norm": 0.0,
      "learning_rate": 4.57731624862304e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3605
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.27777862548828,
      "epoch": 27.111940298507463,
      "grad_norm": 0.0,
      "learning_rate": 4.5769538385448394e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3606
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.63888931274414,
      "epoch": 27.119402985074625,
      "grad_norm": 0.0,
      "learning_rate": 4.576591287527383e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3607
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.4444465637207,
      "epoch": 27.12686567164179,
      "grad_norm": 7.15964033130287,
      "learning_rate": 4.5762285955952745e-07,
      "loss": -0.0162,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 3608
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.05555725097656,
      "epoch": 27.134328358208954,
      "grad_norm": 0.0,
      "learning_rate": 4.575865762773125e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3609
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.80555725097656,
      "epoch": 27.14179104477612,
      "grad_norm": 0.0,
      "learning_rate": 4.5755027890855546e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3610
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.55555725097656,
      "epoch": 27.149253731343283,
      "grad_norm": 0.0,
      "learning_rate": 4.575139674557196e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3611
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.91666793823242,
      "epoch": 27.15671641791045,
      "grad_norm": 0.0,
      "learning_rate": 4.5747764192126894e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3612
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.33333206176758,
      "epoch": 27.16417910447761,
      "grad_norm": 0.0,
      "learning_rate": 4.574413023076685e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3613
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.86111068725586,
      "epoch": 27.171641791044777,
      "grad_norm": 0.0,
      "learning_rate": 4.574049486173841e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3614
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.27777862548828,
      "epoch": 27.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.573685808528828e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3615
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.66666793823242,
      "epoch": 27.186567164179106,
      "grad_norm": 0.0,
      "learning_rate": 4.5733219901663235e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3616
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.97222137451172,
      "epoch": 27.19402985074627,
      "grad_norm": 0.0,
      "learning_rate": 4.5729580311110163e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3617
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.36111068725586,
      "epoch": 27.20149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.572593931387604e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3618
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.47222137451172,
      "epoch": 27.208955223880597,
      "grad_norm": 13.085459424356284,
      "learning_rate": 4.5722296910207947e-07,
      "loss": -0.0159,
      "reward": 1.9166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 3619
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.08333206176758,
      "epoch": 27.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 4.571865310035304e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3620
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.86111068725586,
      "epoch": 27.223880597014926,
      "grad_norm": 0.0,
      "learning_rate": 4.5715007884558585e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3621
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.4444465637207,
      "epoch": 27.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.5711361263071955e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3622
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.22222137451172,
      "epoch": 27.238805970149254,
      "grad_norm": 0.0,
      "learning_rate": 4.570771323614059e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3623
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.0,
      "epoch": 27.246268656716417,
      "grad_norm": 0.0,
      "learning_rate": 4.570406380401205e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3624
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.61111068725586,
      "epoch": 27.253731343283583,
      "grad_norm": 0.0,
      "learning_rate": 4.570041296693397e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3625
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.63888931274414,
      "epoch": 27.261194029850746,
      "grad_norm": 0.0,
      "learning_rate": 4.5696760725154104e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3626
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.36111068725586,
      "epoch": 27.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.5693107078920275e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3627
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.80555725097656,
      "epoch": 27.276119402985074,
      "grad_norm": 0.0,
      "learning_rate": 4.5689452028480424e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3628
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.72222137451172,
      "epoch": 27.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 4.568579557408256e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3629
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.02777862548828,
      "epoch": 27.291044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.5682137715974835e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3630
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.5,
      "epoch": 27.298507462686565,
      "grad_norm": 0.0,
      "learning_rate": 4.5678478454405443e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3631
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.11111068725586,
      "epoch": 27.30597014925373,
      "grad_norm": 0.0,
      "learning_rate": 4.567481778962271e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3632
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.63888931274414,
      "epoch": 27.313432835820894,
      "grad_norm": 0.0,
      "learning_rate": 4.5671155721875034e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3633
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.11111068725586,
      "epoch": 27.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.566749225141092e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3634
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.86111068725586,
      "epoch": 27.328358208955223,
      "grad_norm": 0.0,
      "learning_rate": 4.566382737847897e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3635
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.97222137451172,
      "epoch": 27.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 4.5660161103327867e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3636
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.02777862548828,
      "epoch": 27.34328358208955,
      "grad_norm": 0.0,
      "learning_rate": 4.565649342620641e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3637
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.77777862548828,
      "epoch": 27.350746268656717,
      "grad_norm": 0.0,
      "learning_rate": 4.5652824347363484e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3638
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.22222137451172,
      "epoch": 27.35820895522388,
      "grad_norm": 0.0,
      "learning_rate": 4.5649153867048063e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3639
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.02777862548828,
      "epoch": 27.365671641791046,
      "grad_norm": 0.0,
      "learning_rate": 4.5645481985509215e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3640
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.58333206176758,
      "epoch": 27.37313432835821,
      "grad_norm": 0.0,
      "learning_rate": 4.564180870299612e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3641
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.0,
      "epoch": 27.380597014925375,
      "grad_norm": 9.00881789067177,
      "learning_rate": 4.563813401975804e-07,
      "loss": 0.0183,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 3642
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.0,
      "epoch": 27.388059701492537,
      "grad_norm": 0.0,
      "learning_rate": 4.5634457936044323e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3643
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.77777862548828,
      "epoch": 27.395522388059703,
      "grad_norm": 0.0,
      "learning_rate": 4.563078045210444e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3644
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.91666793823242,
      "epoch": 27.402985074626866,
      "grad_norm": 0.0,
      "learning_rate": 4.562710156818793e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3645
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.25,
      "epoch": 27.41044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.5623421284544427e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3646
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.66666793823242,
      "epoch": 27.417910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.561973960142369e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3647
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.91666793823242,
      "epoch": 27.425373134328357,
      "grad_norm": 0.0,
      "learning_rate": 4.5616056519075543e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3648
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.63888931274414,
      "epoch": 27.432835820895523,
      "grad_norm": 0.0,
      "learning_rate": 4.561237203774991e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3649
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.02777862548828,
      "epoch": 27.440298507462686,
      "grad_norm": 0.0,
      "learning_rate": 4.5608686157696835e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3650
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.72222137451172,
      "epoch": 27.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 4.560499887916641e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3651
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.86111068725586,
      "epoch": 27.455223880597014,
      "grad_norm": 0.0,
      "learning_rate": 4.560131020240887e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3652
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.66666793823242,
      "epoch": 27.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 4.5597620127674506e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3653
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.0,
      "epoch": 27.470149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.559392865521374e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3654
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.83333206176758,
      "epoch": 27.47761194029851,
      "grad_norm": 0.0,
      "learning_rate": 4.559023578527705e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3655
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.22222137451172,
      "epoch": 27.48507462686567,
      "grad_norm": 0.0,
      "learning_rate": 4.558654151811505e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3656
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.80555725097656,
      "epoch": 27.492537313432837,
      "grad_norm": 0.0,
      "learning_rate": 4.558284585397841e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3657
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.80555725097656,
      "epoch": 27.5,
      "grad_norm": 0.0,
      "learning_rate": 4.557914879311793e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3658
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.9444465637207,
      "epoch": 27.507462686567163,
      "grad_norm": 0.0,
      "learning_rate": 4.557545033578447e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3659
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.16666793823242,
      "epoch": 27.51492537313433,
      "grad_norm": 0.0,
      "learning_rate": 4.557175048222901e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3660
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.52777862548828,
      "epoch": 27.52238805970149,
      "grad_norm": 18.58546184694653,
      "learning_rate": 4.556804923270262e-07,
      "loss": -0.0194,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 3661
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.47222137451172,
      "epoch": 27.529850746268657,
      "grad_norm": 0.0,
      "learning_rate": 4.556434658745646e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3662
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.33333206176758,
      "epoch": 27.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 4.556064254674179e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3663
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.11111068725586,
      "epoch": 27.544776119402986,
      "grad_norm": 3.6307127364560032,
      "learning_rate": 4.5556937110809945e-07,
      "loss": 0.0111,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 3664
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.1944465637207,
      "epoch": 27.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 4.555323027991239e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3665
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.41666793823242,
      "epoch": 27.559701492537314,
      "grad_norm": 0.0,
      "learning_rate": 4.554952205430066e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3666
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.16666793823242,
      "epoch": 27.567164179104477,
      "grad_norm": 0.0,
      "learning_rate": 4.5545812434226383e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3667
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.08333206176758,
      "epoch": 27.574626865671643,
      "grad_norm": 0.0,
      "learning_rate": 4.554210141994129e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3668
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.16666793823242,
      "epoch": 27.582089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.553838901169722e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3669
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.08333206176758,
      "epoch": 27.58955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.553467520974607e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3670
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.41666793823242,
      "epoch": 27.597014925373134,
      "grad_norm": 0.0,
      "learning_rate": 4.553096001433987e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3671
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.52777862548828,
      "epoch": 27.604477611940297,
      "grad_norm": 0.0,
      "learning_rate": 4.5527243425730724e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3672
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.02777862548828,
      "epoch": 27.611940298507463,
      "grad_norm": 0.0,
      "learning_rate": 4.5523525444170834e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3673
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.75,
      "epoch": 27.619402985074625,
      "grad_norm": 0.0,
      "learning_rate": 4.5519806069912496e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3674
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.05555725097656,
      "epoch": 27.62686567164179,
      "grad_norm": 0.0,
      "learning_rate": 4.5516085303208103e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3675
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.91666793823242,
      "epoch": 27.634328358208954,
      "grad_norm": 0.0,
      "learning_rate": 4.551236314431014e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3676
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.27777862548828,
      "epoch": 27.64179104477612,
      "grad_norm": 0.0,
      "learning_rate": 4.550863959347118e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3677
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.05555725097656,
      "epoch": 27.649253731343283,
      "grad_norm": 0.0,
      "learning_rate": 4.5504914650943914e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3678
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.66666793823242,
      "epoch": 27.65671641791045,
      "grad_norm": 0.0,
      "learning_rate": 4.550118831698111e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3679
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.36111068725586,
      "epoch": 27.66417910447761,
      "grad_norm": 0.0,
      "learning_rate": 4.549746059183561e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3680
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.1944465637207,
      "epoch": 27.671641791044777,
      "grad_norm": 0.0,
      "learning_rate": 4.5493731475760397e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3681
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.80555725097656,
      "epoch": 27.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.549000096900851e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3682
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.5,
      "epoch": 27.686567164179106,
      "grad_norm": 0.0,
      "learning_rate": 4.548626907183311e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3683
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.52777862548828,
      "epoch": 27.69402985074627,
      "grad_norm": 0.0,
      "learning_rate": 4.5482535784487423e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3684
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.5,
      "epoch": 27.701492537313435,
      "grad_norm": 1.618019580171731,
      "learning_rate": 4.5478801107224794e-07,
      "loss": -0.0099,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 3685
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.80555725097656,
      "epoch": 27.708955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.5475065040298645e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3686
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.52777862548828,
      "epoch": 27.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 4.547132758396251e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3687
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.33333206176758,
      "epoch": 27.723880597014926,
      "grad_norm": 0.0,
      "learning_rate": 4.546758873847e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3688
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.02777862548828,
      "epoch": 27.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.5463848504074833e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3689
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.91666793823242,
      "epoch": 27.738805970149254,
      "grad_norm": 6.267055283194947,
      "learning_rate": 4.546010688103081e-07,
      "loss": -0.0061,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 3690
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.58333206176758,
      "epoch": 27.746268656716417,
      "grad_norm": 0.0,
      "learning_rate": 4.5456363869591854e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3691
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.22222137451172,
      "epoch": 27.753731343283583,
      "grad_norm": 0.0,
      "learning_rate": 4.545261947001192e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3692
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.47222137451172,
      "epoch": 27.761194029850746,
      "grad_norm": 5.488397429893543,
      "learning_rate": 4.5448873682545135e-07,
      "loss": 0.0186,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 3693
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.36111068725586,
      "epoch": 27.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.544512650744566e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3694
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.9444465637207,
      "epoch": 27.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 4.5441377944967793e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3695
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.05555725097656,
      "epoch": 27.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 4.543762799536589e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3696
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.27777862548828,
      "epoch": 27.791044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.5433876658894434e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3697
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.63888931274414,
      "epoch": 27.798507462686565,
      "grad_norm": 0.0,
      "learning_rate": 4.543012393580796e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3698
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.0,
      "epoch": 27.80597014925373,
      "grad_norm": 0.0,
      "learning_rate": 4.5426369826361144e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3699
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.0,
      "epoch": 27.813432835820894,
      "grad_norm": 0.0,
      "learning_rate": 4.5422614330808727e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3700
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.83333206176758,
      "epoch": 27.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.5418857449405556e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3701
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.02777862548828,
      "epoch": 27.828358208955223,
      "grad_norm": 0.0,
      "learning_rate": 4.5415099182406556e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3702
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.97222137451172,
      "epoch": 27.83582089552239,
      "grad_norm": 0.0,
      "learning_rate": 4.5411339530066775e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3703
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.02777862548828,
      "epoch": 27.84328358208955,
      "grad_norm": 0.0,
      "learning_rate": 4.540757849264133e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3704
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.72222137451172,
      "epoch": 27.850746268656717,
      "grad_norm": 0.0,
      "learning_rate": 4.5403816070385437e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3705
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.38888931274414,
      "epoch": 27.85820895522388,
      "grad_norm": 0.0,
      "learning_rate": 4.540005226355441e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3706
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.08333206176758,
      "epoch": 27.865671641791046,
      "grad_norm": 0.0,
      "learning_rate": 4.539628707240366e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3707
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.41666793823242,
      "epoch": 27.87313432835821,
      "grad_norm": 0.0,
      "learning_rate": 4.5392520497188694e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3708
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.83333206176758,
      "epoch": 27.880597014925375,
      "grad_norm": 0.0,
      "learning_rate": 4.5388752538165083e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3709
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.97222137451172,
      "epoch": 27.888059701492537,
      "grad_norm": 0.0,
      "learning_rate": 4.5384983195588534e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3710
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.77777862548828,
      "epoch": 27.895522388059703,
      "grad_norm": 0.0,
      "learning_rate": 4.5381212469714823e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3711
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.05555725097656,
      "epoch": 27.902985074626866,
      "grad_norm": 0.0,
      "learning_rate": 4.537744036079984e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3712
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.66666793823242,
      "epoch": 27.91044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.5373666869099537e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3713
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.86111068725586,
      "epoch": 27.917910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.536989199486998e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3714
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.33333206176758,
      "epoch": 27.925373134328357,
      "grad_norm": 0.0,
      "learning_rate": 4.536611573836734e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3715
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.1944465637207,
      "epoch": 27.932835820895523,
      "grad_norm": 0.0,
      "learning_rate": 4.5362338099847856e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3716
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.36111068725586,
      "epoch": 27.940298507462686,
      "grad_norm": 5.817437270739983,
      "learning_rate": 4.5358559079567884e-07,
      "loss": 0.0034,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 3717
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.83333206176758,
      "epoch": 27.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 4.535477867778385e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3718
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.1944465637207,
      "epoch": 27.955223880597014,
      "grad_norm": 0.0,
      "learning_rate": 4.53509968947523e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3719
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.1944465637207,
      "epoch": 27.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 4.534721373072985e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3720
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.61111068725586,
      "epoch": 27.970149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.5343429185973225e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3721
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.1944465637207,
      "epoch": 27.97761194029851,
      "grad_norm": 0.0,
      "learning_rate": 4.5339643260739245e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3722
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.55555725097656,
      "epoch": 27.98507462686567,
      "grad_norm": 0.0,
      "learning_rate": 4.5335855955284807e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3723
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.66666793823242,
      "epoch": 27.992537313432837,
      "grad_norm": 0.0,
      "learning_rate": 4.5332067269866913e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3724
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.47222137451172,
      "epoch": 28.007462686567163,
      "grad_norm": 0.0,
      "learning_rate": 4.532827720474267e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3725
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.27777862548828,
      "epoch": 28.01492537313433,
      "grad_norm": 0.0,
      "learning_rate": 4.5324485760169254e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3726
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.6944465637207,
      "epoch": 28.02238805970149,
      "grad_norm": 0.0,
      "learning_rate": 4.532069293640396e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3727
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.86111068725586,
      "epoch": 28.029850746268657,
      "grad_norm": 0.0,
      "learning_rate": 4.5316898733704146e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3728
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.61111068725586,
      "epoch": 28.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 4.5313103152327294e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3729
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.41666793823242,
      "epoch": 28.044776119402986,
      "grad_norm": 0.0,
      "learning_rate": 4.5309306192530967e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3730
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.38888931274414,
      "epoch": 28.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 4.530550785457282e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3731
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.80555725097656,
      "epoch": 28.059701492537314,
      "grad_norm": 0.0,
      "learning_rate": 4.53017081387106e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3732
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.41666793823242,
      "epoch": 28.067164179104477,
      "grad_norm": 0.0,
      "learning_rate": 4.529790704520215e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3733
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.80555725097656,
      "epoch": 28.074626865671643,
      "grad_norm": 0.0,
      "learning_rate": 4.5294104574305416e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3734
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.38888931274414,
      "epoch": 28.082089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.5290300726278407e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3735
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.91666793823242,
      "epoch": 28.08955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.5286495501379273e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3736
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.55555725097656,
      "epoch": 28.097014925373134,
      "grad_norm": 0.0,
      "learning_rate": 4.528268889986622e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3737
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.97222137451172,
      "epoch": 28.104477611940297,
      "grad_norm": 0.0,
      "learning_rate": 4.5278880921997566e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3738
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.77777862548828,
      "epoch": 28.111940298507463,
      "grad_norm": 0.0,
      "learning_rate": 4.52750715680317e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3739
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.27777862548828,
      "epoch": 28.119402985074625,
      "grad_norm": 0.0,
      "learning_rate": 4.5271260838227123e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3740
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.88888931274414,
      "epoch": 28.12686567164179,
      "grad_norm": 0.0,
      "learning_rate": 4.526744873284244e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3741
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.0,
      "epoch": 28.134328358208954,
      "grad_norm": 0.0,
      "learning_rate": 4.5263635252136324e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3742
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.58333206176758,
      "epoch": 28.14179104477612,
      "grad_norm": 0.0,
      "learning_rate": 4.525982039636755e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3743
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.58333206176758,
      "epoch": 28.149253731343283,
      "grad_norm": 0.0,
      "learning_rate": 4.525600416579499e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3744
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.16666793823242,
      "epoch": 28.15671641791045,
      "grad_norm": 0.0,
      "learning_rate": 4.525218656067762e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3745
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.55555725097656,
      "epoch": 28.16417910447761,
      "grad_norm": 0.0,
      "learning_rate": 4.524836758127449e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3746
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.6944465637207,
      "epoch": 28.171641791044777,
      "grad_norm": 0.0,
      "learning_rate": 4.5244547227844746e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3747
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.97222137451172,
      "epoch": 28.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.5240725500647637e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3748
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.16666793823242,
      "epoch": 28.186567164179106,
      "grad_norm": 0.0,
      "learning_rate": 4.52369023999425e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3749
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.75,
      "epoch": 28.19402985074627,
      "grad_norm": 0.0,
      "learning_rate": 4.523307792598876e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3750
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.0,
      "epoch": 28.20149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.5229252079045953e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3751
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.05555725097656,
      "epoch": 28.208955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.5225424859373684e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3752
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.55555725097656,
      "epoch": 28.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 4.5221596267231665e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3753
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.16666793823242,
      "epoch": 28.223880597014926,
      "grad_norm": 0.0,
      "learning_rate": 4.52177663028797e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3754
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.0,
      "epoch": 28.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.5213934966577694e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3755
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.77777862548828,
      "epoch": 28.238805970149254,
      "grad_norm": 0.0,
      "learning_rate": 4.521010225858562e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3756
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.86111068725586,
      "epoch": 28.246268656716417,
      "grad_norm": 0.0,
      "learning_rate": 4.520626817916357e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3757
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.58333206176758,
      "epoch": 28.253731343283583,
      "grad_norm": 0.0,
      "learning_rate": 4.520243272857172e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3758
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.80555725097656,
      "epoch": 28.261194029850746,
      "grad_norm": 0.0,
      "learning_rate": 4.5198595907070334e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3759
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.91666793823242,
      "epoch": 28.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.519475771491977e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3760
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.30555725097656,
      "epoch": 28.276119402985074,
      "grad_norm": 1.5005219763605047,
      "learning_rate": 4.5190918152380504e-07,
      "loss": -0.0044,
      "reward": 1.9444444179534912,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 0.9722222089767456,
      "step": 3761
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.61111068725586,
      "epoch": 28.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 4.5187077219713054e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3762
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.27777862548828,
      "epoch": 28.291044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.518323491717808e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3763
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.33333206176758,
      "epoch": 28.298507462686565,
      "grad_norm": 0.0,
      "learning_rate": 4.5179391245036313e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3764
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.52777862548828,
      "epoch": 28.30597014925373,
      "grad_norm": 0.0,
      "learning_rate": 4.517554620354857e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3765
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.22222137451172,
      "epoch": 28.313432835820894,
      "grad_norm": 0.0,
      "learning_rate": 4.517169979297578e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3766
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.25,
      "epoch": 28.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.516785201357895e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3767
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.16666793823242,
      "epoch": 28.328358208955223,
      "grad_norm": 0.0,
      "learning_rate": 4.516400286561919e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3768
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.61111068725586,
      "epoch": 28.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 4.516015234935769e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3769
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.16666793823242,
      "epoch": 28.34328358208955,
      "grad_norm": 0.0,
      "learning_rate": 4.515630046505574e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3770
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.88888931274414,
      "epoch": 28.350746268656717,
      "grad_norm": 0.0,
      "learning_rate": 4.5152447212974743e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3771
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.4444465637207,
      "epoch": 28.35820895522388,
      "grad_norm": 0.0,
      "learning_rate": 4.514859259337615e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3772
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.63888931274414,
      "epoch": 28.365671641791046,
      "grad_norm": 0.0,
      "learning_rate": 4.5144736606521546e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3773
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.1944465637207,
      "epoch": 28.37313432835821,
      "grad_norm": 0.0,
      "learning_rate": 4.5140879252672585e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3774
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.13888931274414,
      "epoch": 28.380597014925375,
      "grad_norm": 0.0,
      "learning_rate": 4.513702053209103e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3775
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.97222137451172,
      "epoch": 28.388059701492537,
      "grad_norm": 0.0,
      "learning_rate": 4.513316044503872e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3776
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.22222137451172,
      "epoch": 28.395522388059703,
      "grad_norm": 0.0,
      "learning_rate": 4.51292989917776e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3777
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.77777862548828,
      "epoch": 28.402985074626866,
      "grad_norm": 0.0,
      "learning_rate": 4.512543617256971e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3778
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.13888931274414,
      "epoch": 28.41044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.5121571987677155e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3779
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.41666793823242,
      "epoch": 28.417910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.5117706437362166e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3780
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.80555725097656,
      "epoch": 28.425373134328357,
      "grad_norm": 0.0,
      "learning_rate": 4.5113839521887067e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3781
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.55555725097656,
      "epoch": 28.432835820895523,
      "grad_norm": 0.0,
      "learning_rate": 4.510997124151424e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3782
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.16666793823242,
      "epoch": 28.440298507462686,
      "grad_norm": 0.0,
      "learning_rate": 4.510610159650619e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3783
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.83333206176758,
      "epoch": 28.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 4.5102230587125504e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3784
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.0,
      "epoch": 28.455223880597014,
      "grad_norm": 0.0,
      "learning_rate": 4.509835821363487e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3785
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.77777862548828,
      "epoch": 28.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 4.509448447629706e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3786
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.38888931274414,
      "epoch": 28.470149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.5090609375374923e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3787
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.88888931274414,
      "epoch": 28.47761194029851,
      "grad_norm": 16.142438020393453,
      "learning_rate": 4.5086732911131444e-07,
      "loss": 0.0124,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 3788
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.6944465637207,
      "epoch": 28.48507462686567,
      "grad_norm": 0.0,
      "learning_rate": 4.5082855083829665e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3789
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.55555725097656,
      "epoch": 28.492537313432837,
      "grad_norm": 0.0,
      "learning_rate": 4.507897589373272e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3790
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.5,
      "epoch": 28.5,
      "grad_norm": 0.0,
      "learning_rate": 4.5075095341103857e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3791
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.97222137451172,
      "epoch": 28.507462686567163,
      "grad_norm": 0.0,
      "learning_rate": 4.50712134262064e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3792
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.83333206176758,
      "epoch": 28.51492537313433,
      "grad_norm": 0.0,
      "learning_rate": 4.5067330149303777e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3793
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.27777862548828,
      "epoch": 28.52238805970149,
      "grad_norm": 0.0,
      "learning_rate": 4.50634455106595e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3794
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.88888931274414,
      "epoch": 28.529850746268657,
      "grad_norm": 0.0,
      "learning_rate": 4.5059559510537167e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3795
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.80555725097656,
      "epoch": 28.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 4.5055672149200485e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3796
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.91666793823242,
      "epoch": 28.544776119402986,
      "grad_norm": 0.0,
      "learning_rate": 4.5051783426913235e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3797
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.25,
      "epoch": 28.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 4.5047893343939314e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3798
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.63888931274414,
      "epoch": 28.559701492537314,
      "grad_norm": 0.0,
      "learning_rate": 4.504400190054269e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3799
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.25,
      "epoch": 28.567164179104477,
      "grad_norm": 0.0,
      "learning_rate": 4.504010909698743e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3800
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.4444465637207,
      "epoch": 28.574626865671643,
      "grad_norm": 0.0,
      "learning_rate": 4.5036214933537696e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3801
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.0,
      "epoch": 28.582089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.503231941045775e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3802
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.58333206176758,
      "epoch": 28.58955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.502842252801192e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3803
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.05555725097656,
      "epoch": 28.597014925373134,
      "grad_norm": 0.0,
      "learning_rate": 4.5024524286464657e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3804
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.63888931274414,
      "epoch": 28.604477611940297,
      "grad_norm": 0.0,
      "learning_rate": 4.502062468608048e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3805
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.16666793823242,
      "epoch": 28.611940298507463,
      "grad_norm": 0.0,
      "learning_rate": 4.5016723727124017e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3806
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.63888931274414,
      "epoch": 28.619402985074625,
      "grad_norm": 0.0,
      "learning_rate": 4.501282140985998e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3807
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.38888931274414,
      "epoch": 28.62686567164179,
      "grad_norm": 0.0,
      "learning_rate": 4.5008917734553175e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3808
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.25,
      "epoch": 28.634328358208954,
      "grad_norm": 0.0,
      "learning_rate": 4.500501270146849e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3809
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.0,
      "epoch": 28.64179104477612,
      "grad_norm": 0.0,
      "learning_rate": 4.500110631087094e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3810
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.75,
      "epoch": 28.649253731343283,
      "grad_norm": 0.0,
      "learning_rate": 4.4997198563025583e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3811
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.25,
      "epoch": 28.65671641791045,
      "grad_norm": 0.0,
      "learning_rate": 4.4993289458197614e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3812
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.86111068725586,
      "epoch": 28.66417910447761,
      "grad_norm": 0.0,
      "learning_rate": 4.498937899665228e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3813
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.1944465637207,
      "epoch": 28.671641791044777,
      "grad_norm": 0.0,
      "learning_rate": 4.4985467178654947e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3814
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.6944465637207,
      "epoch": 28.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.498155400447107e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3815
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.4444465637207,
      "epoch": 28.686567164179106,
      "grad_norm": 0.0,
      "learning_rate": 4.4977639474366194e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3816
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.66666793823242,
      "epoch": 28.69402985074627,
      "grad_norm": 0.0,
      "learning_rate": 4.497372358860594e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3817
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.38888931274414,
      "epoch": 28.701492537313435,
      "grad_norm": 0.0,
      "learning_rate": 4.496980634745604e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3818
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.91666793823242,
      "epoch": 28.708955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.4965887751182317e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3819
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.41666793823242,
      "epoch": 28.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 4.496196780005068e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3820
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.9444465637207,
      "epoch": 28.723880597014926,
      "grad_norm": 0.0,
      "learning_rate": 4.495804649432714e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3821
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.05555725097656,
      "epoch": 28.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.495412383427778e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3822
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.22222137451172,
      "epoch": 28.738805970149254,
      "grad_norm": 0.0,
      "learning_rate": 4.4950199820168785e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3823
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.47222137451172,
      "epoch": 28.746268656716417,
      "grad_norm": 0.0,
      "learning_rate": 4.4946274452266444e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3824
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.6944465637207,
      "epoch": 28.753731343283583,
      "grad_norm": 0.0,
      "learning_rate": 4.4942347730837105e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3825
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.5,
      "epoch": 28.761194029850746,
      "grad_norm": 0.0,
      "learning_rate": 4.4938419656147256e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3826
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.16666793823242,
      "epoch": 28.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.493449022846344e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3827
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.63888931274414,
      "epoch": 28.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 4.4930559448052306e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3828
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.0,
      "epoch": 28.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 4.4926627315180586e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3829
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.6944465637207,
      "epoch": 28.791044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.4922693830115115e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3830
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.86111068725586,
      "epoch": 28.798507462686565,
      "grad_norm": 0.0,
      "learning_rate": 4.491875899312281e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3831
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.1944465637207,
      "epoch": 28.80597014925373,
      "grad_norm": 0.0,
      "learning_rate": 4.4914822804470677e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3832
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.25,
      "epoch": 28.813432835820894,
      "grad_norm": 0.0,
      "learning_rate": 4.4910885264425834e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3833
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.83333206176758,
      "epoch": 28.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.4906946373255464e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3834
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.86111068725586,
      "epoch": 28.828358208955223,
      "grad_norm": 0.0,
      "learning_rate": 4.490300613122687e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3835
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.83333206176758,
      "epoch": 28.83582089552239,
      "grad_norm": 0.0,
      "learning_rate": 4.4899064538607424e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3836
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.88888931274414,
      "epoch": 28.84328358208955,
      "grad_norm": 0.0,
      "learning_rate": 4.4895121595664586e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3837
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.97222137451172,
      "epoch": 28.850746268656717,
      "grad_norm": 0.0,
      "learning_rate": 4.489117730266594e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3838
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.91666793823242,
      "epoch": 28.85820895522388,
      "grad_norm": 0.0,
      "learning_rate": 4.488723165987912e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3839
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.05555725097656,
      "epoch": 28.865671641791046,
      "grad_norm": 0.0,
      "learning_rate": 4.4883284667571887e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3840
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.13888931274414,
      "epoch": 28.87313432835821,
      "grad_norm": 0.0,
      "learning_rate": 4.4879336326012065e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3841
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.1944465637207,
      "epoch": 28.880597014925375,
      "grad_norm": 25.032524524484934,
      "learning_rate": 4.487538663546759e-07,
      "loss": 0.0293,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 3842
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.33333206176758,
      "epoch": 28.888059701492537,
      "grad_norm": 0.0,
      "learning_rate": 4.4871435596206497e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3843
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.52777862548828,
      "epoch": 28.895522388059703,
      "grad_norm": 0.0,
      "learning_rate": 4.486748320849687e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3844
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.5,
      "epoch": 28.902985074626866,
      "grad_norm": 0.0,
      "learning_rate": 4.486352947260694e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3845
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.97222137451172,
      "epoch": 28.91044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.4859574388804977e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3846
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.16666793823242,
      "epoch": 28.917910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.485561795735939e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3847
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.66666793823242,
      "epoch": 28.925373134328357,
      "grad_norm": 0.0,
      "learning_rate": 4.485166017853864e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3848
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.08333206176758,
      "epoch": 28.932835820895523,
      "grad_norm": 0.0,
      "learning_rate": 4.4847701052611303e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3849
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.55555725097656,
      "epoch": 28.940298507462686,
      "grad_norm": 0.0,
      "learning_rate": 4.4843740579846045e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3850
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.97222137451172,
      "epoch": 28.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 4.483977876051161e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3851
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.83333206176758,
      "epoch": 28.955223880597014,
      "grad_norm": 3.4678260795429092,
      "learning_rate": 4.483581559487685e-07,
      "loss": -0.0086,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 3852
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.38888931274414,
      "epoch": 28.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 4.483185108321069e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3853
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.91666793823242,
      "epoch": 28.970149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.482788522578216e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3854
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.83333206176758,
      "epoch": 28.97761194029851,
      "grad_norm": 0.0,
      "learning_rate": 4.482391802286038e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3855
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.80555725097656,
      "epoch": 28.98507462686567,
      "grad_norm": 0.0,
      "learning_rate": 4.481994947471456e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3856
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.0,
      "epoch": 28.992537313432837,
      "grad_norm": 8.182713666602003,
      "learning_rate": 4.481597958161399e-07,
      "loss": -0.0059,
      "reward": 1.9166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 3857
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.88888931274414,
      "epoch": 29.007462686567163,
      "grad_norm": 0.0,
      "learning_rate": 4.4812008343828084e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3858
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.52777862548828,
      "epoch": 29.01492537313433,
      "grad_norm": 0.0,
      "learning_rate": 4.4808035761626305e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3859
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.63888931274414,
      "epoch": 29.02238805970149,
      "grad_norm": 0.0,
      "learning_rate": 4.480406183527823e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3860
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.86111068725586,
      "epoch": 29.029850746268657,
      "grad_norm": 0.0,
      "learning_rate": 4.480008656505353e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3861
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.4444465637207,
      "epoch": 29.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 4.4796109951221963e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3862
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.9444465637207,
      "epoch": 29.044776119402986,
      "grad_norm": 0.0,
      "learning_rate": 4.479213199405336e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3863
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.22222137451172,
      "epoch": 29.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 4.478815269381768e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3864
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.5,
      "epoch": 29.059701492537314,
      "grad_norm": 0.0,
      "learning_rate": 4.478417205078494e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3865
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.25,
      "epoch": 29.067164179104477,
      "grad_norm": 0.0,
      "learning_rate": 4.4780190065225273e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3866
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.05555725097656,
      "epoch": 29.074626865671643,
      "grad_norm": 0.0,
      "learning_rate": 4.477620673740888e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3867
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.25,
      "epoch": 29.082089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.477222206760606e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3868
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.80555725097656,
      "epoch": 29.08955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.4768236056087227e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3869
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.66666793823242,
      "epoch": 29.097014925373134,
      "grad_norm": 0.0,
      "learning_rate": 4.476424870312285e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3870
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.9444465637207,
      "epoch": 29.104477611940297,
      "grad_norm": 0.0,
      "learning_rate": 4.4760260008983506e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3871
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.38888931274414,
      "epoch": 29.111940298507463,
      "grad_norm": 0.0,
      "learning_rate": 4.475626997393987e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3872
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.38888931274414,
      "epoch": 29.119402985074625,
      "grad_norm": 0.0,
      "learning_rate": 4.4752278598262695e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3873
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.36111068725586,
      "epoch": 29.12686567164179,
      "grad_norm": 0.0,
      "learning_rate": 4.4748285882222835e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3874
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.5,
      "epoch": 29.134328358208954,
      "grad_norm": 66.77984059988287,
      "learning_rate": 4.4744291826091223e-07,
      "loss": 0.0129,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 3875
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.02777862548828,
      "epoch": 29.14179104477612,
      "grad_norm": 0.0,
      "learning_rate": 4.474029643013889e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3876
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.5,
      "epoch": 29.149253731343283,
      "grad_norm": 0.0,
      "learning_rate": 4.473629969463697e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3877
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.72222137451172,
      "epoch": 29.15671641791045,
      "grad_norm": 0.0,
      "learning_rate": 4.473230161985667e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3878
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.4444465637207,
      "epoch": 29.16417910447761,
      "grad_norm": 0.0,
      "learning_rate": 4.472830220606929e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3879
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.63888931274414,
      "epoch": 29.171641791044777,
      "grad_norm": 0.0,
      "learning_rate": 4.472430145354622e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3880
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.58333206176758,
      "epoch": 29.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.472029936255896e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3881
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.5,
      "epoch": 29.186567164179106,
      "grad_norm": 0.0,
      "learning_rate": 4.471629593337908e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3882
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.4444465637207,
      "epoch": 29.19402985074627,
      "grad_norm": 3.413200154788373,
      "learning_rate": 4.4712291166278244e-07,
      "loss": -0.0125,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 3883
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.11111068725586,
      "epoch": 29.20149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.470828506152821e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3884
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.63888931274414,
      "epoch": 29.208955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.470427761940083e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3885
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.88888931274414,
      "epoch": 29.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 4.470026884016804e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3886
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.02777862548828,
      "epoch": 29.223880597014926,
      "grad_norm": 0.0,
      "learning_rate": 4.4696258724101887e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3887
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.77777862548828,
      "epoch": 29.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.4692247271474467e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3888
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.88888931274414,
      "epoch": 29.238805970149254,
      "grad_norm": 0.0,
      "learning_rate": 4.4688234482558006e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3889
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.52777862548828,
      "epoch": 29.246268656716417,
      "grad_norm": 0.0,
      "learning_rate": 4.4684220357624794e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3890
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.66666793823242,
      "epoch": 29.253731343283583,
      "grad_norm": 0.0,
      "learning_rate": 4.4680204896947243e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3891
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.88888931274414,
      "epoch": 29.261194029850746,
      "grad_norm": 0.0,
      "learning_rate": 4.4676188100797826e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3892
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.02777862548828,
      "epoch": 29.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.4672169969449114e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3893
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.41666793823242,
      "epoch": 29.276119402985074,
      "grad_norm": 0.0,
      "learning_rate": 4.466815050317378e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3894
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.88888931274414,
      "epoch": 29.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 4.4664129702244566e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3895
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.11111068725586,
      "epoch": 29.291044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.4660107566934346e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3896
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.55555725097656,
      "epoch": 29.298507462686565,
      "grad_norm": 0.0,
      "learning_rate": 4.465608409751602e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3897
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.13888931274414,
      "epoch": 29.30597014925373,
      "grad_norm": 0.0,
      "learning_rate": 4.4652059294262647e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3898
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.0,
      "epoch": 29.313432835820894,
      "grad_norm": 0.0,
      "learning_rate": 4.4648033157447325e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3899
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.83333206176758,
      "epoch": 29.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.4644005687343265e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3900
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.11111068725586,
      "epoch": 29.328358208955223,
      "grad_norm": 0.0,
      "learning_rate": 4.463997688422377e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3901
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.9444465637207,
      "epoch": 29.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 4.463594674836223e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3902
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.5,
      "epoch": 29.34328358208955,
      "grad_norm": 0.0,
      "learning_rate": 4.463191528003213e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3903
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.63888931274414,
      "epoch": 29.350746268656717,
      "grad_norm": 0.0,
      "learning_rate": 4.462788247950702e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3904
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.11111068725586,
      "epoch": 29.35820895522388,
      "grad_norm": 0.0,
      "learning_rate": 4.462384834706058e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3905
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.52777862548828,
      "epoch": 29.365671641791046,
      "grad_norm": 0.0,
      "learning_rate": 4.461981288296655e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3906
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.30555725097656,
      "epoch": 29.37313432835821,
      "grad_norm": 3.436397204266777,
      "learning_rate": 4.4615776087498773e-07,
      "loss": 0.0082,
      "reward": 1.6944444179534912,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 3907
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.22222137451172,
      "epoch": 29.380597014925375,
      "grad_norm": 0.0,
      "learning_rate": 4.461173796093118e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3908
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.63888931274414,
      "epoch": 29.388059701492537,
      "grad_norm": 0.0,
      "learning_rate": 4.4607698503537803e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3909
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.55555725097656,
      "epoch": 29.395522388059703,
      "grad_norm": 0.0,
      "learning_rate": 4.4603657715592745e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3910
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.1944465637207,
      "epoch": 29.402985074626866,
      "grad_norm": 0.0,
      "learning_rate": 4.459961559737021e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3911
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.61111068725586,
      "epoch": 29.41044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.4595572149144486e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3912
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.6944465637207,
      "epoch": 29.417910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.4591527371189955e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3913
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.41666793823242,
      "epoch": 29.425373134328357,
      "grad_norm": 0.0,
      "learning_rate": 4.4587481263781104e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3914
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.5,
      "epoch": 29.432835820895523,
      "grad_norm": 0.0,
      "learning_rate": 4.458343382719248e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3915
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.22222137451172,
      "epoch": 29.440298507462686,
      "grad_norm": 3.698165865582575,
      "learning_rate": 4.457938506169875e-07,
      "loss": 0.016,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 3916
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.83333206176758,
      "epoch": 29.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 4.457533496757465e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3917
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.9444465637207,
      "epoch": 29.455223880597014,
      "grad_norm": 0.0,
      "learning_rate": 4.4571283545095007e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3918
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.83333206176758,
      "epoch": 29.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 4.456723079453476e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3919
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.05555725097656,
      "epoch": 29.470149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.4563176716168917e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3920
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.6944465637207,
      "epoch": 29.47761194029851,
      "grad_norm": 0.0,
      "learning_rate": 4.455912131027258e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3921
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.4444465637207,
      "epoch": 29.48507462686567,
      "grad_norm": 0.0,
      "learning_rate": 4.455506457712095e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3922
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.27777862548828,
      "epoch": 29.492537313432837,
      "grad_norm": 0.0,
      "learning_rate": 4.45510065169893e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3923
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.22222137451172,
      "epoch": 29.5,
      "grad_norm": 2.7136586819207698,
      "learning_rate": 4.4546947130153014e-07,
      "loss": -0.0005,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 3924
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.13888931274414,
      "epoch": 29.507462686567163,
      "grad_norm": 0.0,
      "learning_rate": 4.454288641688755e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3925
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.66666793823242,
      "epoch": 29.51492537313433,
      "grad_norm": 0.0,
      "learning_rate": 4.4538824377468466e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3926
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.58333206176758,
      "epoch": 29.52238805970149,
      "grad_norm": 0.0,
      "learning_rate": 4.4534761012171404e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3927
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.58333206176758,
      "epoch": 29.529850746268657,
      "grad_norm": 0.0,
      "learning_rate": 4.4530696321272105e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3928
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.86111068725586,
      "epoch": 29.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 4.4526630305046384e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3929
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.86111068725586,
      "epoch": 29.544776119402986,
      "grad_norm": 0.0,
      "learning_rate": 4.4522562963770167e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3930
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.58333206176758,
      "epoch": 29.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 4.4518494297719444e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3931
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.97222137451172,
      "epoch": 29.559701492537314,
      "grad_norm": 0.0,
      "learning_rate": 4.451442430717032e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3932
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.0,
      "epoch": 29.567164179104477,
      "grad_norm": 0.0,
      "learning_rate": 4.4510352992398983e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 3933
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.58333206176758,
      "epoch": 29.574626865671643,
      "grad_norm": 0.0,
      "learning_rate": 4.450628035368169e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3934
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.52777862548828,
      "epoch": 29.582089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.4502206391294817e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3935
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.88888931274414,
      "epoch": 29.58955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.4498131105514814e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3936
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.66666793823242,
      "epoch": 29.597014925373134,
      "grad_norm": 0.0,
      "learning_rate": 4.449405449661823e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3937
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.1944465637207,
      "epoch": 29.604477611940297,
      "grad_norm": 0.0,
      "learning_rate": 4.448997656488168e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3938
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.61111068725586,
      "epoch": 29.611940298507463,
      "grad_norm": 0.0,
      "learning_rate": 4.4485897310581915e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3939
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.38888931274414,
      "epoch": 29.619402985074625,
      "grad_norm": 0.0,
      "learning_rate": 4.4481816733995726e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3940
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.25,
      "epoch": 29.62686567164179,
      "grad_norm": 0.0,
      "learning_rate": 4.447773483540002e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3941
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.41666793823242,
      "epoch": 29.634328358208954,
      "grad_norm": 0.0,
      "learning_rate": 4.4473651615071793e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3942
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.47222137451172,
      "epoch": 29.64179104477612,
      "grad_norm": 0.0,
      "learning_rate": 4.446956707328813e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3943
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.38888931274414,
      "epoch": 29.649253731343283,
      "grad_norm": 0.0,
      "learning_rate": 4.4465481210326193e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3944
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.38888931274414,
      "epoch": 29.65671641791045,
      "grad_norm": 0.0,
      "learning_rate": 4.4461394026463253e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3945
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.05555725097656,
      "epoch": 29.66417910447761,
      "grad_norm": 148.6094341897334,
      "learning_rate": 4.445730552197664e-07,
      "loss": -0.024,
      "reward": 1.9444444179534912,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.944444477558136,
      "rewards/format_reward": 1.0,
      "step": 3946
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.97222137451172,
      "epoch": 29.671641791044777,
      "grad_norm": 0.0,
      "learning_rate": 4.445321569714382e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3947
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.75,
      "epoch": 29.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.4449124552242313e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3948
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.6944465637207,
      "epoch": 29.686567164179106,
      "grad_norm": 0.0,
      "learning_rate": 4.4445032087549737e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3949
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.1944465637207,
      "epoch": 29.69402985074627,
      "grad_norm": 0.0,
      "learning_rate": 4.44409383033438e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3950
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.61111068725586,
      "epoch": 29.701492537313435,
      "grad_norm": 7.817276698540394,
      "learning_rate": 4.4436843199902303e-07,
      "loss": 0.0035,
      "reward": 1.9166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 3951
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.52777862548828,
      "epoch": 29.708955223880597,
      "grad_norm": 9.162375130433482,
      "learning_rate": 4.4432746777503137e-07,
      "loss": -0.0145,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 3952
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.05555725097656,
      "epoch": 29.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 4.442864903642427e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3953
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.30555725097656,
      "epoch": 29.723880597014926,
      "grad_norm": 0.0,
      "learning_rate": 4.442454997694378e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3954
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.16666793823242,
      "epoch": 29.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.4420449599339814e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3955
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.22222137451172,
      "epoch": 29.738805970149254,
      "grad_norm": 0.0,
      "learning_rate": 4.441634790389063e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3956
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.16666793823242,
      "epoch": 29.746268656716417,
      "grad_norm": 0.0,
      "learning_rate": 4.4412244890874557e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3957
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.9444465637207,
      "epoch": 29.753731343283583,
      "grad_norm": 0.0,
      "learning_rate": 4.440814056057002e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3958
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.4444465637207,
      "epoch": 29.761194029850746,
      "grad_norm": 0.0,
      "learning_rate": 4.4404034913255525e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3959
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.47222137451172,
      "epoch": 29.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.439992794920968e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3960
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.38888931274414,
      "epoch": 29.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 4.4395819668711194e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3961
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.52777862548828,
      "epoch": 29.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 4.439171007203883e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3962
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.80555725097656,
      "epoch": 29.791044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.438759915947147e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3963
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.75,
      "epoch": 29.798507462686565,
      "grad_norm": 0.0,
      "learning_rate": 4.438348693128807e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3964
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.08333206176758,
      "epoch": 29.80597014925373,
      "grad_norm": 0.0,
      "learning_rate": 4.4379373387767677e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3965
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.41666793823242,
      "epoch": 29.813432835820894,
      "grad_norm": 0.0,
      "learning_rate": 4.4375258529189443e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3966
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.05555725097656,
      "epoch": 29.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.437114235583258e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3967
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.6944465637207,
      "epoch": 29.828358208955223,
      "grad_norm": 0.0,
      "learning_rate": 4.4367024867976416e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 3968
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.80555725097656,
      "epoch": 29.83582089552239,
      "grad_norm": 0.0,
      "learning_rate": 4.436290606590036e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3969
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.97222137451172,
      "epoch": 29.84328358208955,
      "grad_norm": 0.0,
      "learning_rate": 4.4358785949883896e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3970
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.0,
      "epoch": 29.850746268656717,
      "grad_norm": 0.0,
      "learning_rate": 4.435466452020663e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3971
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.83333206176758,
      "epoch": 29.85820895522388,
      "grad_norm": 0.0,
      "learning_rate": 4.435054177714822e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3972
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.83333206176758,
      "epoch": 29.865671641791046,
      "grad_norm": 0.0,
      "learning_rate": 4.434641772098843e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3973
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.30555725097656,
      "epoch": 29.87313432835821,
      "grad_norm": 0.0,
      "learning_rate": 4.434229235200713e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3974
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.47222137451172,
      "epoch": 29.880597014925375,
      "grad_norm": 0.0,
      "learning_rate": 4.4338165670484234e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3975
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.83333206176758,
      "epoch": 29.888059701492537,
      "grad_norm": 0.0,
      "learning_rate": 4.43340376766998e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3976
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.13888931274414,
      "epoch": 29.895522388059703,
      "grad_norm": 0.0,
      "learning_rate": 4.4329908370933934e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3977
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.72222137451172,
      "epoch": 29.902985074626866,
      "grad_norm": 0.0,
      "learning_rate": 4.432577775346684e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3978
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.47222137451172,
      "epoch": 29.91044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.4321645824578835e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3979
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.33333206176758,
      "epoch": 29.917910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.4317512584550286e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3980
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.38888931274414,
      "epoch": 29.925373134328357,
      "grad_norm": 0.0,
      "learning_rate": 4.4313378033661674e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3981
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.25,
      "epoch": 29.932835820895523,
      "grad_norm": 0.0,
      "learning_rate": 4.4309242172193574e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3982
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.36111068725586,
      "epoch": 29.940298507462686,
      "grad_norm": 0.0,
      "learning_rate": 4.4305105000426633e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3983
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.02777862548828,
      "epoch": 29.94776119402985,
      "grad_norm": 3.033199285606893,
      "learning_rate": 4.430096651864159e-07,
      "loss": 0.0106,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 3984
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.83333206176758,
      "epoch": 29.955223880597014,
      "grad_norm": 0.0,
      "learning_rate": 4.429682672711929e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3985
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.97222137451172,
      "epoch": 29.96268656716418,
      "grad_norm": 15.500801853833678,
      "learning_rate": 4.429268562614064e-07,
      "loss": 0.0066,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 3986
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.27777862548828,
      "epoch": 29.970149253731343,
      "grad_norm": 14.140223305276937,
      "learning_rate": 4.4288543215986653e-07,
      "loss": 0.0244,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 3987
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.0,
      "epoch": 29.97761194029851,
      "grad_norm": 2.1529913834522945,
      "learning_rate": 4.428439949693843e-07,
      "loss": -0.0077,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 3988
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.52777862548828,
      "epoch": 29.98507462686567,
      "grad_norm": 0.0,
      "learning_rate": 4.4280254469277156e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3989
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.91666793823242,
      "epoch": 29.992537313432837,
      "grad_norm": 0.0,
      "learning_rate": 4.4276108133284105e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3990
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.61111068725586,
      "epoch": 30.007462686567163,
      "grad_norm": 0.0,
      "learning_rate": 4.4271960489240647e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3991
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.97222137451172,
      "epoch": 30.01492537313433,
      "grad_norm": 0.0,
      "learning_rate": 4.4267811537428235e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3992
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.11111068725586,
      "epoch": 30.02238805970149,
      "grad_norm": 0.0,
      "learning_rate": 4.4263661278128407e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3993
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.86111068725586,
      "epoch": 30.029850746268657,
      "grad_norm": 0.0,
      "learning_rate": 4.425950971162279e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3994
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.86111068725586,
      "epoch": 30.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 4.4255356838193115e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 3995
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.13888931274414,
      "epoch": 30.044776119402986,
      "grad_norm": 0.0,
      "learning_rate": 4.425120265812118e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 3996
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.88888931274414,
      "epoch": 30.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 4.424704717168889e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3997
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.83333206176758,
      "epoch": 30.059701492537314,
      "grad_norm": 21.665530385217327,
      "learning_rate": 4.4242890379178233e-07,
      "loss": -0.0227,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 3998
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.33333206176758,
      "epoch": 30.067164179104477,
      "grad_norm": 0.0,
      "learning_rate": 4.423873228087127e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 3999
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.5,
      "epoch": 30.074626865671643,
      "grad_norm": 0.0,
      "learning_rate": 4.4234572877050167e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4000
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.91666793823242,
      "epoch": 30.082089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.423041216799719e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4001
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.30555725097656,
      "epoch": 30.08955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.422625015399467e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4002
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.27777862548828,
      "epoch": 30.097014925373134,
      "grad_norm": 8.658620575759533,
      "learning_rate": 4.422208683532503e-07,
      "loss": -0.0002,
      "reward": 1.7777777910232544,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4003
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.1944465637207,
      "epoch": 30.104477611940297,
      "grad_norm": 0.0,
      "learning_rate": 4.4217922212270785e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4004
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.11111068725586,
      "epoch": 30.111940298507463,
      "grad_norm": 0.0,
      "learning_rate": 4.4213756285114557e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4005
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.80555725097656,
      "epoch": 30.119402985074625,
      "grad_norm": 0.0,
      "learning_rate": 4.420958905413903e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4006
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.5,
      "epoch": 30.12686567164179,
      "grad_norm": 0.0,
      "learning_rate": 4.4205420519626984e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4007
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.30555725097656,
      "epoch": 30.134328358208954,
      "grad_norm": 0.0,
      "learning_rate": 4.420125068186129e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4008
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.6944465637207,
      "epoch": 30.14179104477612,
      "grad_norm": 0.0,
      "learning_rate": 4.4197079541124917e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4009
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.30555725097656,
      "epoch": 30.149253731343283,
      "grad_norm": 0.0,
      "learning_rate": 4.4192907097700904e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4010
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.9444465637207,
      "epoch": 30.15671641791045,
      "grad_norm": 0.0,
      "learning_rate": 4.4188733351872394e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 4011
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.66666793823242,
      "epoch": 30.16417910447761,
      "grad_norm": 0.0,
      "learning_rate": 4.41845583039226e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4012
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.55555725097656,
      "epoch": 30.171641791044777,
      "grad_norm": 0.0,
      "learning_rate": 4.418038195413485e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4013
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.11111068725586,
      "epoch": 30.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.4176204302792536e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4014
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.1944465637207,
      "epoch": 30.186567164179106,
      "grad_norm": 0.0,
      "learning_rate": 4.417202535017915e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4015
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.52777862548828,
      "epoch": 30.19402985074627,
      "grad_norm": 0.0,
      "learning_rate": 4.4167845096578264e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4016
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.16666793823242,
      "epoch": 30.20149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.4163663542273556e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4017
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.11111068725586,
      "epoch": 30.208955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.415948068754878e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4018
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.61111068725586,
      "epoch": 30.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 4.4155296532687763e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4019
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.30555725097656,
      "epoch": 30.223880597014926,
      "grad_norm": 0.0,
      "learning_rate": 4.415111107797445e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4020
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.75,
      "epoch": 30.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.4146924323692856e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4021
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.16666793823242,
      "epoch": 30.238805970149254,
      "grad_norm": 28.263114830846735,
      "learning_rate": 4.414273627012709e-07,
      "loss": 0.0194,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 4022
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.27777862548828,
      "epoch": 30.246268656716417,
      "grad_norm": 0.0,
      "learning_rate": 4.413854691756135e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4023
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.75,
      "epoch": 30.253731343283583,
      "grad_norm": 0.0,
      "learning_rate": 4.4134356266279916e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4024
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.52777862548828,
      "epoch": 30.261194029850746,
      "grad_norm": 0.0,
      "learning_rate": 4.4130164316567154e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4025
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.5,
      "epoch": 30.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.4125971068707536e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4026
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.6944465637207,
      "epoch": 30.276119402985074,
      "grad_norm": 0.0,
      "learning_rate": 4.41217765229856e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4027
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.9444465637207,
      "epoch": 30.28358208955224,
      "grad_norm": 22.637206615743295,
      "learning_rate": 4.4117580679685997e-07,
      "loss": -0.0177,
      "reward": 1.7777777910232544,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4028
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.97222137451172,
      "epoch": 30.291044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.4113383539093437e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4029
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.6944465637207,
      "epoch": 30.298507462686565,
      "grad_norm": 0.0,
      "learning_rate": 4.410918510149273e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4030
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.5,
      "epoch": 30.30597014925373,
      "grad_norm": 15.036759438970547,
      "learning_rate": 4.4104985367168785e-07,
      "loss": -0.0048,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 4031
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.27777862548828,
      "epoch": 30.313432835820894,
      "grad_norm": 0.0,
      "learning_rate": 4.4100784336406594e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4032
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.1944465637207,
      "epoch": 30.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.409658200949122e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4033
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.83333206176758,
      "epoch": 30.328358208955223,
      "grad_norm": 0.0,
      "learning_rate": 4.4092378386707837e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4034
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.61111068725586,
      "epoch": 30.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 4.408817346834169e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4035
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.33333206176758,
      "epoch": 30.34328358208955,
      "grad_norm": 0.0,
      "learning_rate": 4.408396725467812e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4036
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.80555725097656,
      "epoch": 30.350746268656717,
      "grad_norm": 0.0,
      "learning_rate": 4.407975974600257e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4037
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.47222137451172,
      "epoch": 30.35820895522388,
      "grad_norm": 0.0,
      "learning_rate": 4.4075550942600537e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 4038
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.30555725097656,
      "epoch": 30.365671641791046,
      "grad_norm": 0.0,
      "learning_rate": 4.407134084475763e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4039
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.13888931274414,
      "epoch": 30.37313432835821,
      "grad_norm": 0.0,
      "learning_rate": 4.4067129452759546e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 4040
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.05555725097656,
      "epoch": 30.380597014925375,
      "grad_norm": 0.0,
      "learning_rate": 4.406291676689206e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4041
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.36111068725586,
      "epoch": 30.388059701492537,
      "grad_norm": 0.0,
      "learning_rate": 4.405870278744104e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4042
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.91666793823242,
      "epoch": 30.395522388059703,
      "grad_norm": 0.0,
      "learning_rate": 4.405448751469244e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4043
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.13888931274414,
      "epoch": 30.402985074626866,
      "grad_norm": 0.0,
      "learning_rate": 4.40502709489323e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4044
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.63888931274414,
      "epoch": 30.41044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.4046053090446753e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 4045
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.5,
      "epoch": 30.417910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.404183393952202e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4046
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.77777862548828,
      "epoch": 30.425373134328357,
      "grad_norm": 0.0,
      "learning_rate": 4.403761349644441e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4047
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.16666793823242,
      "epoch": 30.432835820895523,
      "grad_norm": 0.0,
      "learning_rate": 4.4033391761500304e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4048
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.61111068725586,
      "epoch": 30.440298507462686,
      "grad_norm": 0.0,
      "learning_rate": 4.4029168734976194e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4049
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.47222137451172,
      "epoch": 30.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 4.4024944417158636e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4050
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.11111068725586,
      "epoch": 30.455223880597014,
      "grad_norm": 0.0,
      "learning_rate": 4.4020718808334313e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4051
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.86111068725586,
      "epoch": 30.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 4.401649190878993e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4052
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.97222137451172,
      "epoch": 30.470149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.401226371881235e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4053
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.88888931274414,
      "epoch": 30.47761194029851,
      "grad_norm": 0.0,
      "learning_rate": 4.4008034238688487e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4054
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.33333206176758,
      "epoch": 30.48507462686567,
      "grad_norm": 0.0,
      "learning_rate": 4.4003803468705334e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4055
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.72222137451172,
      "epoch": 30.492537313432837,
      "grad_norm": 0.0,
      "learning_rate": 4.3999571409150003e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4056
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.30555725097656,
      "epoch": 30.5,
      "grad_norm": 0.0,
      "learning_rate": 4.3995338060309667e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4057
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.30555725097656,
      "epoch": 30.507462686567163,
      "grad_norm": 0.0,
      "learning_rate": 4.3991103422471585e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4058
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.55555725097656,
      "epoch": 30.51492537313433,
      "grad_norm": 1.8198303087839296,
      "learning_rate": 4.3986867495923134e-07,
      "loss": -0.0092,
      "reward": 1.9166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 4059
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.91666793823242,
      "epoch": 30.52238805970149,
      "grad_norm": 7.290593280357542,
      "learning_rate": 4.398263028095175e-07,
      "loss": 0.0006,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 4060
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.83333206176758,
      "epoch": 30.529850746268657,
      "grad_norm": 0.0,
      "learning_rate": 4.397839177784496e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4061
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.72222137451172,
      "epoch": 30.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 4.397415198689038e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4062
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.52777862548828,
      "epoch": 30.544776119402986,
      "grad_norm": 0.0,
      "learning_rate": 4.396991090837573e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4063
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.4444465637207,
      "epoch": 30.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 4.3965668542588785e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4064
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.33333206176758,
      "epoch": 30.559701492537314,
      "grad_norm": 0.0,
      "learning_rate": 4.396142488981745e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4065
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.47222137451172,
      "epoch": 30.567164179104477,
      "grad_norm": 0.0,
      "learning_rate": 4.395717995034968e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4066
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.36111068725586,
      "epoch": 30.574626865671643,
      "grad_norm": 0.0,
      "learning_rate": 4.3952933724473524e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4067
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.4444465637207,
      "epoch": 30.582089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.3948686212477137e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4068
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.36111068725586,
      "epoch": 30.58955223880597,
      "grad_norm": 45.52079716043877,
      "learning_rate": 4.394443741464874e-07,
      "loss": 0.0256,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 4069
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.33333206176758,
      "epoch": 30.597014925373134,
      "grad_norm": 9.398769245689957,
      "learning_rate": 4.3940187331276665e-07,
      "loss": -0.0124,
      "reward": 1.9444444179534912,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.944444477558136,
      "rewards/format_reward": 1.0,
      "step": 4070
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.9444465637207,
      "epoch": 30.604477611940297,
      "grad_norm": 0.0,
      "learning_rate": 4.3935935962649303e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4071
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.30555725097656,
      "epoch": 30.611940298507463,
      "grad_norm": 0.0,
      "learning_rate": 4.393168330905515e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4072
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.02777862548828,
      "epoch": 30.619402985074625,
      "grad_norm": 0.0,
      "learning_rate": 4.3927429370782784e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4073
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.11111068725586,
      "epoch": 30.62686567164179,
      "grad_norm": 0.0,
      "learning_rate": 4.392317414812088e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4074
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.80555725097656,
      "epoch": 30.634328358208954,
      "grad_norm": 0.0,
      "learning_rate": 4.3918917641358176e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4075
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.72222137451172,
      "epoch": 30.64179104477612,
      "grad_norm": 0.0,
      "learning_rate": 4.3914659850783533e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4076
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.13888931274414,
      "epoch": 30.649253731343283,
      "grad_norm": 0.0,
      "learning_rate": 4.391040077668586e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4077
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.5,
      "epoch": 30.65671641791045,
      "grad_norm": 0.0,
      "learning_rate": 4.390614041935418e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4078
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.05555725097656,
      "epoch": 30.66417910447761,
      "grad_norm": 0.0,
      "learning_rate": 4.3901878779077595e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4079
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.86111068725586,
      "epoch": 30.671641791044777,
      "grad_norm": 0.0,
      "learning_rate": 4.38976158561453e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4080
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.41666793823242,
      "epoch": 30.67910447761194,
      "grad_norm": 28.082360050629305,
      "learning_rate": 4.3893351650846554e-07,
      "loss": -0.0002,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 4081
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.9444465637207,
      "epoch": 30.686567164179106,
      "grad_norm": 0.0,
      "learning_rate": 4.388908616347074e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4082
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.91666793823242,
      "epoch": 30.69402985074627,
      "grad_norm": 0.0,
      "learning_rate": 4.3884819394307293e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4083
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.77777862548828,
      "epoch": 30.701492537313435,
      "grad_norm": 0.0,
      "learning_rate": 4.3880551343645763e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4084
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.1944465637207,
      "epoch": 30.708955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.3876282011775765e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4085
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.52777862548828,
      "epoch": 30.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 4.3872011398987006e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4086
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.25,
      "epoch": 30.723880597014926,
      "grad_norm": 0.0,
      "learning_rate": 4.3867739505569303e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4087
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.22222137451172,
      "epoch": 30.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.3863466331812517e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4088
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.11111068725586,
      "epoch": 30.738805970149254,
      "grad_norm": 0.0,
      "learning_rate": 4.3859191878006634e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4089
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.97222137451172,
      "epoch": 30.746268656716417,
      "grad_norm": 0.0,
      "learning_rate": 4.385491614444171e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4090
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.91666793823242,
      "epoch": 30.753731343283583,
      "grad_norm": 0.0,
      "learning_rate": 4.38506391314079e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4091
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.05555725097656,
      "epoch": 30.761194029850746,
      "grad_norm": 8.489584202586512,
      "learning_rate": 4.3846360839195405e-07,
      "loss": -0.0002,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 4092
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.08333206176758,
      "epoch": 30.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.384208126809458e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 4093
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.5,
      "epoch": 30.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 4.3837800418395814e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4094
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.33333206176758,
      "epoch": 30.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 4.3833518290389605e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4095
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.77777862548828,
      "epoch": 30.791044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.3829234884366523e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4096
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.61111068725586,
      "epoch": 30.798507462686565,
      "grad_norm": 6.53288606889794,
      "learning_rate": 4.382495020061724e-07,
      "loss": 0.0102,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 4097
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.86111068725586,
      "epoch": 30.80597014925373,
      "grad_norm": 0.0,
      "learning_rate": 4.382066423943251e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 4098
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.4444465637207,
      "epoch": 30.813432835820894,
      "grad_norm": 0.0,
      "learning_rate": 4.381637700110318e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4099
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.25,
      "epoch": 30.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.381208848592016e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4100
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.22222137451172,
      "epoch": 30.828358208955223,
      "grad_norm": 0.0,
      "learning_rate": 4.3807798694174475e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4101
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.52777862548828,
      "epoch": 30.83582089552239,
      "grad_norm": 0.0,
      "learning_rate": 4.380350762615722e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4102
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.4444465637207,
      "epoch": 30.84328358208955,
      "grad_norm": 7.486727285497146,
      "learning_rate": 4.3799215282159574e-07,
      "loss": -0.0056,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 4103
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.33333206176758,
      "epoch": 30.850746268656717,
      "grad_norm": 0.0,
      "learning_rate": 4.3794921662472824e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4104
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.58333206176758,
      "epoch": 30.85820895522388,
      "grad_norm": 0.0,
      "learning_rate": 4.3790626767388315e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4105
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.4444465637207,
      "epoch": 30.865671641791046,
      "grad_norm": 0.0,
      "learning_rate": 4.378633059719751e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4106
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.11111068725586,
      "epoch": 30.87313432835821,
      "grad_norm": 0.0,
      "learning_rate": 4.378203315219192e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4107
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.38888931274414,
      "epoch": 30.880597014925375,
      "grad_norm": 0.0,
      "learning_rate": 4.3777734432663183e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4108
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.63888931274414,
      "epoch": 30.888059701492537,
      "grad_norm": 0.0,
      "learning_rate": 4.377343443890299e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4109
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.33333206176758,
      "epoch": 30.895522388059703,
      "grad_norm": 0.0,
      "learning_rate": 4.3769133171203136e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4110
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.16666793823242,
      "epoch": 30.902985074626866,
      "grad_norm": 0.0,
      "learning_rate": 4.376483062985551e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4111
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.77777862548828,
      "epoch": 30.91044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.3760526815152064e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4112
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.22222137451172,
      "epoch": 30.917910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.3756221727384856e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4113
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.83333206176758,
      "epoch": 30.925373134328357,
      "grad_norm": 0.0,
      "learning_rate": 4.3751915366846015e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4114
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.61111068725586,
      "epoch": 30.932835820895523,
      "grad_norm": 0.0,
      "learning_rate": 4.3747607733827773e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4115
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.41666793823242,
      "epoch": 30.940298507462686,
      "grad_norm": 0.0,
      "learning_rate": 4.374329882862244e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4116
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.1944465637207,
      "epoch": 30.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 4.3738988651522403e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4117
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.38888931274414,
      "epoch": 30.955223880597014,
      "grad_norm": 0.0,
      "learning_rate": 4.3734677202820156e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4118
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.1944465637207,
      "epoch": 30.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 4.3730364482808266e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4119
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.16666793823242,
      "epoch": 30.970149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.372605049177939e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4120
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.41666793823242,
      "epoch": 30.97761194029851,
      "grad_norm": 3.206650630761484,
      "learning_rate": 4.3721735230026256e-07,
      "loss": 0.0121,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 4121
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.4444465637207,
      "epoch": 30.98507462686567,
      "grad_norm": 0.0,
      "learning_rate": 4.37174186978417e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4122
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.75,
      "epoch": 30.992537313432837,
      "grad_norm": 0.0,
      "learning_rate": 4.371310089551865e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4123
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.5,
      "epoch": 31.007462686567163,
      "grad_norm": 0.0,
      "learning_rate": 4.370878182335008e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4124
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.05555725097656,
      "epoch": 31.01492537313433,
      "grad_norm": 0.0,
      "learning_rate": 4.3704461481629095e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4125
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.6944465637207,
      "epoch": 31.02238805970149,
      "grad_norm": 0.0,
      "learning_rate": 4.370013987064887e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4126
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.80555725097656,
      "epoch": 31.029850746268657,
      "grad_norm": 0.0,
      "learning_rate": 4.3695816990702643e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4127
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.1944465637207,
      "epoch": 31.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 4.369149284208378e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4128
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.05555725097656,
      "epoch": 31.044776119402986,
      "grad_norm": 0.0,
      "learning_rate": 4.36871674250857e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4129
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.08333206176758,
      "epoch": 31.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 4.3682840740001927e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4130
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.16666793823242,
      "epoch": 31.059701492537314,
      "grad_norm": 0.0,
      "learning_rate": 4.3678512787126057e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4131
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.25,
      "epoch": 31.067164179104477,
      "grad_norm": 0.0,
      "learning_rate": 4.3674183566751783e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4132
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.41666793823242,
      "epoch": 31.074626865671643,
      "grad_norm": 0.0,
      "learning_rate": 4.366985307917288e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4133
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.9444465637207,
      "epoch": 31.082089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.3665521324683206e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4134
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.4444465637207,
      "epoch": 31.08955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.366118830357671e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4135
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.27777862548828,
      "epoch": 31.097014925373134,
      "grad_norm": 0.0,
      "learning_rate": 4.3656854016147433e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4136
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.75,
      "epoch": 31.104477611940297,
      "grad_norm": 0.0,
      "learning_rate": 4.365251846268948e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4137
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.08333206176758,
      "epoch": 31.111940298507463,
      "grad_norm": 0.0,
      "learning_rate": 4.364818164349706e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4138
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.25,
      "epoch": 31.119402985074625,
      "grad_norm": 0.0,
      "learning_rate": 4.364384355886447e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4139
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.66666793823242,
      "epoch": 31.12686567164179,
      "grad_norm": 0.0,
      "learning_rate": 4.363950420908608e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4140
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.11111068725586,
      "epoch": 31.134328358208954,
      "grad_norm": 0.0,
      "learning_rate": 4.3635163594456346e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4141
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.83333206176758,
      "epoch": 31.14179104477612,
      "grad_norm": 0.0,
      "learning_rate": 4.363082171526984e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4142
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.41666793823242,
      "epoch": 31.149253731343283,
      "grad_norm": 0.0,
      "learning_rate": 4.362647857182117e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4143
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.86111068725586,
      "epoch": 31.15671641791045,
      "grad_norm": 0.0,
      "learning_rate": 4.362213416440507e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4144
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.52777862548828,
      "epoch": 31.16417910447761,
      "grad_norm": 0.0,
      "learning_rate": 4.361778849331634e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4145
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.97222137451172,
      "epoch": 31.171641791044777,
      "grad_norm": 17.31362821837833,
      "learning_rate": 4.3613441558849875e-07,
      "loss": 0.0087,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 4146
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.5,
      "epoch": 31.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.3609093361300646e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4147
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.86111068725586,
      "epoch": 31.186567164179106,
      "grad_norm": 0.0,
      "learning_rate": 4.3604743900963724e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4148
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.1944465637207,
      "epoch": 31.19402985074627,
      "grad_norm": 0.0,
      "learning_rate": 4.3600393178134253e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4149
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.97222137451172,
      "epoch": 31.20149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.359604119310747e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4150
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.47222137451172,
      "epoch": 31.208955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.3591687946178686e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4151
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.61111068725586,
      "epoch": 31.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 4.3587333437643316e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4152
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.30555725097656,
      "epoch": 31.223880597014926,
      "grad_norm": 0.0,
      "learning_rate": 4.3582977667796844e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4153
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.6944465637207,
      "epoch": 31.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.357862063693485e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4154
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.1944465637207,
      "epoch": 31.238805970149254,
      "grad_norm": 0.0,
      "learning_rate": 4.357426234535301e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4155
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.11111068725586,
      "epoch": 31.246268656716417,
      "grad_norm": 0.0,
      "learning_rate": 4.356990279334704e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4156
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.22222137451172,
      "epoch": 31.253731343283583,
      "grad_norm": 0.0,
      "learning_rate": 4.3565541981212807e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4157
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.86111068725586,
      "epoch": 31.261194029850746,
      "grad_norm": 0.0,
      "learning_rate": 4.3561179909246205e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4158
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.77777862548828,
      "epoch": 31.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.3556816577743245e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4159
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.91666793823242,
      "epoch": 31.276119402985074,
      "grad_norm": 0.0,
      "learning_rate": 4.3552451987000025e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4160
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.1944465637207,
      "epoch": 31.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 4.354808613731271e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4161
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.5,
      "epoch": 31.291044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.3543719028977565e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4162
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.80555725097656,
      "epoch": 31.298507462686565,
      "grad_norm": 28.37343628967938,
      "learning_rate": 4.353935066229094e-07,
      "loss": 0.0082,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 4163
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.6944465637207,
      "epoch": 31.30597014925373,
      "grad_norm": 0.0,
      "learning_rate": 4.353498103754926e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4164
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.77777862548828,
      "epoch": 31.313432835820894,
      "grad_norm": 0.0,
      "learning_rate": 4.3530610155049046e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4165
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.88888931274414,
      "epoch": 31.32089552238806,
      "grad_norm": 6.761683203305838,
      "learning_rate": 4.3526238015086895e-07,
      "loss": -0.0085,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 4166
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.05555725097656,
      "epoch": 31.328358208955223,
      "grad_norm": 0.0,
      "learning_rate": 4.3521864617959503e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4167
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.6944465637207,
      "epoch": 31.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 4.3517489963963633e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4168
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.25,
      "epoch": 31.34328358208955,
      "grad_norm": 0.0,
      "learning_rate": 4.351311405339615e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4169
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.86111068725586,
      "epoch": 31.350746268656717,
      "grad_norm": 0.0,
      "learning_rate": 4.350873688655399e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4170
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.33333206176758,
      "epoch": 31.35820895522388,
      "grad_norm": 0.0,
      "learning_rate": 4.3504358463734193e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4171
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.72222137451172,
      "epoch": 31.365671641791046,
      "grad_norm": 0.0,
      "learning_rate": 4.3499978785233864e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4172
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.0,
      "epoch": 31.37313432835821,
      "grad_norm": 0.0,
      "learning_rate": 4.34955978513502e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4173
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.66666793823242,
      "epoch": 31.380597014925375,
      "grad_norm": 0.0,
      "learning_rate": 4.34912156623805e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4174
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.05555725097656,
      "epoch": 31.388059701492537,
      "grad_norm": 0.0,
      "learning_rate": 4.348683221862212e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4175
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.58333206176758,
      "epoch": 31.395522388059703,
      "grad_norm": 0.0,
      "learning_rate": 4.34824475203725e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4176
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.41666793823242,
      "epoch": 31.402985074626866,
      "grad_norm": 0.0,
      "learning_rate": 4.3478061567929214e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4177
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.16666793823242,
      "epoch": 31.41044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.3473674361589865e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4178
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.80555725097656,
      "epoch": 31.417910447761194,
      "grad_norm": 27.818532072105754,
      "learning_rate": 4.3469285901652173e-07,
      "loss": 0.0137,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 4179
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.11111068725586,
      "epoch": 31.425373134328357,
      "grad_norm": 0.0,
      "learning_rate": 4.346489618841392e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4180
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.58333206176758,
      "epoch": 31.432835820895523,
      "grad_norm": 0.0,
      "learning_rate": 4.3460505222172993e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4181
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.08333206176758,
      "epoch": 31.440298507462686,
      "grad_norm": 0.0,
      "learning_rate": 4.3456113003227367e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4182
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.1944465637207,
      "epoch": 31.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 4.3451719531875077e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4183
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.88888931274414,
      "epoch": 31.455223880597014,
      "grad_norm": 0.0,
      "learning_rate": 4.344732480841426e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4184
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.63888931274414,
      "epoch": 31.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 4.344292883314314e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 4185
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.63888931274414,
      "epoch": 31.470149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.3438531606360017e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4186
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.36111068725586,
      "epoch": 31.47761194029851,
      "grad_norm": 0.0,
      "learning_rate": 4.343413312836329e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4187
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.22222137451172,
      "epoch": 31.48507462686567,
      "grad_norm": 0.0,
      "learning_rate": 4.3429733399451433e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4188
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.05555725097656,
      "epoch": 31.492537313432837,
      "grad_norm": 0.0,
      "learning_rate": 4.3425332419923e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4189
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.61111068725586,
      "epoch": 31.5,
      "grad_norm": 0.0,
      "learning_rate": 4.342093019007663e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4190
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.1944465637207,
      "epoch": 31.507462686567163,
      "grad_norm": 0.0,
      "learning_rate": 4.341652671021107e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4191
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.88888931274414,
      "epoch": 31.51492537313433,
      "grad_norm": 0.0,
      "learning_rate": 4.3412121980625117e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4192
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.88888931274414,
      "epoch": 31.52238805970149,
      "grad_norm": 0.0,
      "learning_rate": 4.340771600161768e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4193
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.63888931274414,
      "epoch": 31.529850746268657,
      "grad_norm": 0.0,
      "learning_rate": 4.3403308773487727e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4194
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.1944465637207,
      "epoch": 31.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 4.3398900296534346e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4195
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.91666793823242,
      "epoch": 31.544776119402986,
      "grad_norm": 0.0,
      "learning_rate": 4.3394490571056687e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4196
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.38888931274414,
      "epoch": 31.55223880597015,
      "grad_norm": 4.563617490316505,
      "learning_rate": 4.3390079597353977e-07,
      "loss": -0.0038,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 4197
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.44444274902344,
      "epoch": 31.559701492537314,
      "grad_norm": 0.0,
      "learning_rate": 4.338566737572555e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4198
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.27777862548828,
      "epoch": 31.567164179104477,
      "grad_norm": 0.0,
      "learning_rate": 4.3381253906470807e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4199
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.02777862548828,
      "epoch": 31.574626865671643,
      "grad_norm": 0.0,
      "learning_rate": 4.3376839189889237e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4200
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.66666793823242,
      "epoch": 31.582089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.337242322628043e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4201
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.6944465637207,
      "epoch": 31.58955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.3368006015944036e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4202
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.83333206176758,
      "epoch": 31.597014925373134,
      "grad_norm": 0.0,
      "learning_rate": 4.3363587559179797e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4203
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.66666793823242,
      "epoch": 31.604477611940297,
      "grad_norm": 0.0,
      "learning_rate": 4.3359167856287553e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4204
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.05555725097656,
      "epoch": 31.611940298507463,
      "grad_norm": 0.0,
      "learning_rate": 4.3354746907567217e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4205
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.72222137451172,
      "epoch": 31.619402985074625,
      "grad_norm": 0.0,
      "learning_rate": 4.3350324713318787e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4206
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.41666793823242,
      "epoch": 31.62686567164179,
      "grad_norm": 0.0,
      "learning_rate": 4.334590127384235e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4207
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.66666793823242,
      "epoch": 31.634328358208954,
      "grad_norm": 0.0,
      "learning_rate": 4.334147658943807e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4208
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.66666793823242,
      "epoch": 31.64179104477612,
      "grad_norm": 10.510890785137654,
      "learning_rate": 4.33370506604062e-07,
      "loss": -0.0047,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 4209
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.30555725097656,
      "epoch": 31.649253731343283,
      "grad_norm": 0.0,
      "learning_rate": 4.333262348704708e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4210
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.55555725097656,
      "epoch": 31.65671641791045,
      "grad_norm": 0.0,
      "learning_rate": 4.3328195069661134e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4211
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.55555725097656,
      "epoch": 31.66417910447761,
      "grad_norm": 0.0,
      "learning_rate": 4.3323765408548865e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4212
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.5,
      "epoch": 31.671641791044777,
      "grad_norm": 0.0,
      "learning_rate": 4.331933450401087e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4213
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.30555725097656,
      "epoch": 31.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.3314902356347807e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4214
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.52777862548828,
      "epoch": 31.686567164179106,
      "grad_norm": 0.0,
      "learning_rate": 4.331046896586046e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4215
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.22222137451172,
      "epoch": 31.69402985074627,
      "grad_norm": 0.0,
      "learning_rate": 4.330603433284965e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4216
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.30555725097656,
      "epoch": 31.701492537313435,
      "grad_norm": 0.0,
      "learning_rate": 4.330159845761632e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4217
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.83333206176758,
      "epoch": 31.708955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.3297161340461474e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4218
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.11111068725586,
      "epoch": 31.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 4.329272298168621e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4219
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.1944465637207,
      "epoch": 31.723880597014926,
      "grad_norm": 0.0,
      "learning_rate": 4.3288283381591725e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 4220
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.55555725097656,
      "epoch": 31.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.328384254047926e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4221
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.83333206176758,
      "epoch": 31.738805970149254,
      "grad_norm": 0.0,
      "learning_rate": 4.327940045865018e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4222
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.05555725097656,
      "epoch": 31.746268656716417,
      "grad_norm": 0.0,
      "learning_rate": 4.327495713640591e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4223
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.11111068725586,
      "epoch": 31.753731343283583,
      "grad_norm": 0.0,
      "learning_rate": 4.3270512574047966e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4224
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.41666793823242,
      "epoch": 31.761194029850746,
      "grad_norm": 0.0,
      "learning_rate": 4.3266066771877966e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4225
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.05555725097656,
      "epoch": 31.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.3261619730197586e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4226
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.58333206176758,
      "epoch": 31.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 4.3257171449308587e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4227
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.16666793823242,
      "epoch": 31.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 4.3252721929512835e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4228
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.97222137451172,
      "epoch": 31.791044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.324827117111227e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4229
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.36111068725586,
      "epoch": 31.798507462686565,
      "grad_norm": 0.0,
      "learning_rate": 4.3243819174408904e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4230
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.30555725097656,
      "epoch": 31.80597014925373,
      "grad_norm": 0.0,
      "learning_rate": 4.323936593970485e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4231
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.97222137451172,
      "epoch": 31.813432835820894,
      "grad_norm": 0.0,
      "learning_rate": 4.32349114673023e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4232
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.30555725097656,
      "epoch": 31.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.3230455757503525e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4233
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.4444465637207,
      "epoch": 31.828358208955223,
      "grad_norm": 0.0,
      "learning_rate": 4.322599881061088e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4234
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.52777862548828,
      "epoch": 31.83582089552239,
      "grad_norm": 0.0,
      "learning_rate": 4.322154062692682e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4235
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.77777862548828,
      "epoch": 31.84328358208955,
      "grad_norm": 0.0,
      "learning_rate": 4.321708120675385e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4236
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.63888931274414,
      "epoch": 31.850746268656717,
      "grad_norm": 0.0,
      "learning_rate": 4.3212620550394605e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4237
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.91666793823242,
      "epoch": 31.85820895522388,
      "grad_norm": 0.0,
      "learning_rate": 4.3208158658151763e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4238
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.61111068725586,
      "epoch": 31.865671641791046,
      "grad_norm": 0.0,
      "learning_rate": 4.320369553032811e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4239
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.0,
      "epoch": 31.87313432835821,
      "grad_norm": 0.0,
      "learning_rate": 4.31992311672265e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4240
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.6944465637207,
      "epoch": 31.880597014925375,
      "grad_norm": 0.0,
      "learning_rate": 4.319476556914988e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4241
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.9444465637207,
      "epoch": 31.888059701492537,
      "grad_norm": 0.0,
      "learning_rate": 4.3190298736401286e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4242
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.16666793823242,
      "epoch": 31.895522388059703,
      "grad_norm": 0.0,
      "learning_rate": 4.318583066928383e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4243
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.27777862548828,
      "epoch": 31.902985074626866,
      "grad_norm": 0.0,
      "learning_rate": 4.31813613681007e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4244
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.13888931274414,
      "epoch": 31.91044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.3176890833155185e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4245
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.02777862548828,
      "epoch": 31.917910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.317241906475064e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4246
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.22222137451172,
      "epoch": 31.925373134328357,
      "grad_norm": 0.0,
      "learning_rate": 4.316794606319053e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4247
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.63888931274414,
      "epoch": 31.932835820895523,
      "grad_norm": 0.0,
      "learning_rate": 4.3163471828778375e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4248
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.02777862548828,
      "epoch": 31.940298507462686,
      "grad_norm": 0.0,
      "learning_rate": 4.315899636181779e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4249
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.41666793823242,
      "epoch": 31.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 4.3154519662612476e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 4250
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.77777862548828,
      "epoch": 31.955223880597014,
      "grad_norm": 0.0,
      "learning_rate": 4.315004173146622e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4251
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.88888931274414,
      "epoch": 31.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 4.3145562568682883e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4252
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.47222137451172,
      "epoch": 31.970149253731343,
      "grad_norm": 0.0,
      "learning_rate": 4.314108217456641e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4253
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.9444465637207,
      "epoch": 31.97761194029851,
      "grad_norm": 0.0,
      "learning_rate": 4.313660054942085e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4254
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.52777862548828,
      "epoch": 31.98507462686567,
      "grad_norm": 0.0,
      "learning_rate": 4.3132117693550306e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4255
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.333335876464844,
      "epoch": 31.992537313432837,
      "grad_norm": 0.0,
      "learning_rate": 4.3127633607258985e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4256
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.72222137451172,
      "epoch": 32.007462686567166,
      "grad_norm": 0.0,
      "learning_rate": 4.3123148290851166e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4257
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.16666793823242,
      "epoch": 32.014925373134325,
      "grad_norm": 0.0,
      "learning_rate": 4.3118661744631224e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4258
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.66666793823242,
      "epoch": 32.02238805970149,
      "grad_norm": 0.0,
      "learning_rate": 4.31141739689036e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4259
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.94444274902344,
      "epoch": 32.02985074626866,
      "grad_norm": 0.0,
      "learning_rate": 4.3109684963972835e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4260
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.0,
      "epoch": 32.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 4.310519473014356e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4261
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.0,
      "epoch": 32.04477611940298,
      "grad_norm": 106.48220562297189,
      "learning_rate": 4.3100703267720446e-07,
      "loss": -0.008,
      "reward": 1.6111111640930176,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 4262
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.86111068725586,
      "epoch": 32.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 4.3096210577008297e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4263
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.4444465637207,
      "epoch": 32.059701492537314,
      "grad_norm": 0.0,
      "learning_rate": 4.3091716658311976e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4264
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.52777862548828,
      "epoch": 32.06716417910448,
      "grad_norm": 6.158412855869706,
      "learning_rate": 4.3087221511936434e-07,
      "loss": -0.0137,
      "reward": 1.638888955116272,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 4265
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.72222137451172,
      "epoch": 32.07462686567164,
      "grad_norm": 0.0,
      "learning_rate": 4.3082725138186716e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4266
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.47222137451172,
      "epoch": 32.082089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.3078227537367916e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4267
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.0,
      "epoch": 32.08955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.3073728709785264e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4268
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.22222137451172,
      "epoch": 32.09701492537314,
      "grad_norm": 0.0,
      "learning_rate": 4.3069228655744025e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4269
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.0,
      "epoch": 32.1044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.306472737554957e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4270
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.47222137451172,
      "epoch": 32.11194029850746,
      "grad_norm": 0.0,
      "learning_rate": 4.3060224869507355e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4271
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.88888931274414,
      "epoch": 32.11940298507463,
      "grad_norm": 0.0,
      "learning_rate": 4.3055721137922904e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4272
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.4444465637207,
      "epoch": 32.12686567164179,
      "grad_norm": 0.0,
      "learning_rate": 4.3051216181101844e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4273
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.77777862548828,
      "epoch": 32.134328358208954,
      "grad_norm": 0.0,
      "learning_rate": 4.3046709999349874e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4274
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.11111068725586,
      "epoch": 32.14179104477612,
      "grad_norm": 0.0,
      "learning_rate": 4.304220259297277e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4275
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.0,
      "epoch": 32.149253731343286,
      "grad_norm": 0.0,
      "learning_rate": 4.3037693962276407e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4276
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.91666793823242,
      "epoch": 32.156716417910445,
      "grad_norm": 0.0,
      "learning_rate": 4.303318410756673e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4277
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.80555725097656,
      "epoch": 32.16417910447761,
      "grad_norm": 0.0,
      "learning_rate": 4.3028673029149773e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4278
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.38888931274414,
      "epoch": 32.17164179104478,
      "grad_norm": 0.0,
      "learning_rate": 4.302416072733165e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4279
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.75,
      "epoch": 32.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.3019647202418564e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4280
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.61111068725586,
      "epoch": 32.1865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.3015132454716783e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4281
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.83333206176758,
      "epoch": 32.19402985074627,
      "grad_norm": 0.0,
      "learning_rate": 4.301061648453269e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 4282
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.05555725097656,
      "epoch": 32.201492537313435,
      "grad_norm": 0.0,
      "learning_rate": 4.3006099292172725e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4283
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.27777862548828,
      "epoch": 32.208955223880594,
      "grad_norm": 0.0,
      "learning_rate": 4.300158087794342e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4284
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.9444465637207,
      "epoch": 32.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 4.299706124215138e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4285
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.05555725097656,
      "epoch": 32.223880597014926,
      "grad_norm": 0.0,
      "learning_rate": 4.2992540385103315e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4286
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.02777862548828,
      "epoch": 32.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.298801830710599e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4287
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.9444465637207,
      "epoch": 32.23880597014925,
      "grad_norm": 0.0,
      "learning_rate": 4.2983495008466273e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4288
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.5,
      "epoch": 32.24626865671642,
      "grad_norm": 0.0,
      "learning_rate": 4.297897048949112e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4289
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.05555725097656,
      "epoch": 32.25373134328358,
      "grad_norm": 0.0,
      "learning_rate": 4.2974444750487544e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4290
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.08333206176758,
      "epoch": 32.26119402985075,
      "grad_norm": 0.0,
      "learning_rate": 4.2969917791762655e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4291
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.86111068725586,
      "epoch": 32.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.296538961362366e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4292
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.1944465637207,
      "epoch": 32.276119402985074,
      "grad_norm": 0.0,
      "learning_rate": 4.296086021637782e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4293
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.80555725097656,
      "epoch": 32.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 4.2956329600332496e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4294
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.61111450195312,
      "epoch": 32.291044776119406,
      "grad_norm": 0.0,
      "learning_rate": 4.2951797765795144e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4295
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.27777862548828,
      "epoch": 32.298507462686565,
      "grad_norm": 0.0,
      "learning_rate": 4.294726471307327e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 4296
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.6944465637207,
      "epoch": 32.30597014925373,
      "grad_norm": 0.0,
      "learning_rate": 4.2942730442474495e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4297
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.72222137451172,
      "epoch": 32.3134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.2938194954306493e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4298
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.66666793823242,
      "epoch": 32.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.2933658248877056e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4299
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.08333206176758,
      "epoch": 32.32835820895522,
      "grad_norm": 0.0,
      "learning_rate": 4.2929120326494023e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4300
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.05555725097656,
      "epoch": 32.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 4.292458118746534e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4301
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.80555725097656,
      "epoch": 32.343283582089555,
      "grad_norm": 0.0,
      "learning_rate": 4.292004083209901e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4302
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.86111068725586,
      "epoch": 32.350746268656714,
      "grad_norm": 0.0,
      "learning_rate": 4.2915499260703157e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4303
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.4444465637207,
      "epoch": 32.35820895522388,
      "grad_norm": 0.0,
      "learning_rate": 4.291095647358595e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4304
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.13888931274414,
      "epoch": 32.365671641791046,
      "grad_norm": 0.0,
      "learning_rate": 4.290641247105567e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4305
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.33333206176758,
      "epoch": 32.37313432835821,
      "grad_norm": 31.89395552776442,
      "learning_rate": 4.2901867253420654e-07,
      "loss": 0.0213,
      "reward": 1.9444444179534912,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.944444477558136,
      "rewards/format_reward": 1.0,
      "step": 4306
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.08333206176758,
      "epoch": 32.38059701492537,
      "grad_norm": 0.0,
      "learning_rate": 4.289732082098935e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4307
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.55555725097656,
      "epoch": 32.38805970149254,
      "grad_norm": 0.0,
      "learning_rate": 4.289277317407025e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4308
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.9444465637207,
      "epoch": 32.3955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.288822431297197e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4309
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.0,
      "epoch": 32.40298507462686,
      "grad_norm": 0.0,
      "learning_rate": 4.288367423800319e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4310
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.63888931274414,
      "epoch": 32.41044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.2879122949472656e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4311
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.11111068725586,
      "epoch": 32.417910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.2874570447689226e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4312
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.61111068725586,
      "epoch": 32.42537313432836,
      "grad_norm": 13.968124532537196,
      "learning_rate": 4.2870016732961815e-07,
      "loss": -0.0215,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 4313
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.13888931274414,
      "epoch": 32.43283582089552,
      "grad_norm": 0.0,
      "learning_rate": 4.286546180559945e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4314
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.75,
      "epoch": 32.440298507462686,
      "grad_norm": 0.0,
      "learning_rate": 4.2860905665911206e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4315
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.41666793823242,
      "epoch": 32.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 4.2856348314206257e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4316
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.9444465637207,
      "epoch": 32.45522388059702,
      "grad_norm": 0.0,
      "learning_rate": 4.285178975079387e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4317
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.52777862548828,
      "epoch": 32.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 4.284722997598337e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4318
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.22222137451172,
      "epoch": 32.47014925373134,
      "grad_norm": 0.0,
      "learning_rate": 4.2842668990084187e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4319
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.77777862548828,
      "epoch": 32.47761194029851,
      "grad_norm": 5.434135214219433,
      "learning_rate": 4.283810679340582e-07,
      "loss": -0.0181,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 4320
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.11111068725586,
      "epoch": 32.485074626865675,
      "grad_norm": 0.0,
      "learning_rate": 4.2833543386257853e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4321
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.77777862548828,
      "epoch": 32.492537313432834,
      "grad_norm": 0.0,
      "learning_rate": 4.2828978768949954e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4322
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.41666793823242,
      "epoch": 32.5,
      "grad_norm": 0.0,
      "learning_rate": 4.2824412941791867e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4323
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.66666793823242,
      "epoch": 32.507462686567166,
      "grad_norm": 0.0,
      "learning_rate": 4.281984590509343e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4324
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.16666793823242,
      "epoch": 32.514925373134325,
      "grad_norm": 0.0,
      "learning_rate": 4.2815277659164546e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4325
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.05555725097656,
      "epoch": 32.52238805970149,
      "grad_norm": 0.0,
      "learning_rate": 4.2810708204315214e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4326
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.1944465637207,
      "epoch": 32.52985074626866,
      "grad_norm": 0.0,
      "learning_rate": 4.2806137540855527e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4327
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.69444274902344,
      "epoch": 32.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 4.280156566909562e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4328
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.86111068725586,
      "epoch": 32.54477611940298,
      "grad_norm": 0.0,
      "learning_rate": 4.279699258934574e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4329
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.63888931274414,
      "epoch": 32.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 4.2792418301916223e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4330
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.55555725097656,
      "epoch": 32.559701492537314,
      "grad_norm": 0.0,
      "learning_rate": 4.278784280711746e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4331
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.38888931274414,
      "epoch": 32.56716417910448,
      "grad_norm": 0.0,
      "learning_rate": 4.2783266105259943e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4332
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.16666793823242,
      "epoch": 32.57462686567164,
      "grad_norm": 0.0,
      "learning_rate": 4.277868819665423e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4333
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.72222137451172,
      "epoch": 32.582089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.2774109081610997e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4334
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.80555725097656,
      "epoch": 32.58955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.276952876044095e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4335
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.33333587646484,
      "epoch": 32.59701492537313,
      "grad_norm": 0.0,
      "learning_rate": 4.276494723345493e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4336
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.52777862548828,
      "epoch": 32.6044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.276036450096381e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4337
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.55555725097656,
      "epoch": 32.61194029850746,
      "grad_norm": 0.0,
      "learning_rate": 4.275578056327857e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4338
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.94444274902344,
      "epoch": 32.61940298507463,
      "grad_norm": 0.0,
      "learning_rate": 4.2751195420710283e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4339
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.47222137451172,
      "epoch": 32.62686567164179,
      "grad_norm": 0.0,
      "learning_rate": 4.2746609073570085e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4340
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.30555725097656,
      "epoch": 32.634328358208954,
      "grad_norm": 0.0,
      "learning_rate": 4.274202152216919e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4341
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.25,
      "epoch": 32.64179104477612,
      "grad_norm": 0.0,
      "learning_rate": 4.273743276681891e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4342
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.0,
      "epoch": 32.649253731343286,
      "grad_norm": 0.0,
      "learning_rate": 4.2732842807830636e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4343
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.52777862548828,
      "epoch": 32.656716417910445,
      "grad_norm": 0.0,
      "learning_rate": 4.2728251645515836e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4344
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.08333587646484,
      "epoch": 32.66417910447761,
      "grad_norm": 0.0,
      "learning_rate": 4.2723659280186055e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4345
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.5,
      "epoch": 32.67164179104478,
      "grad_norm": 0.0,
      "learning_rate": 4.2719065712152917e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4346
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.66666412353516,
      "epoch": 32.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.2714470941728155e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4347
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.77777862548828,
      "epoch": 32.6865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.270987496922355e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 4348
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.4444465637207,
      "epoch": 32.69402985074627,
      "grad_norm": 0.0,
      "learning_rate": 4.2705277794950976e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4349
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.08333587646484,
      "epoch": 32.701492537313435,
      "grad_norm": 0.0,
      "learning_rate": 4.270067941922241e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4350
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.91666793823242,
      "epoch": 32.708955223880594,
      "grad_norm": 0.0,
      "learning_rate": 4.269607984234986e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4351
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.83333587646484,
      "epoch": 32.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 4.2691479064645477e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4352
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.61111068725586,
      "epoch": 32.723880597014926,
      "grad_norm": 0.0,
      "learning_rate": 4.268687708642145e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4353
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.80555725097656,
      "epoch": 32.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.268227390799006e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4354
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.05555725097656,
      "epoch": 32.73880597014925,
      "grad_norm": 0.0,
      "learning_rate": 4.2677669529663686e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4355
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.5,
      "epoch": 32.74626865671642,
      "grad_norm": 0.0,
      "learning_rate": 4.267306395175476e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4356
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.72222137451172,
      "epoch": 32.75373134328358,
      "grad_norm": 0.0,
      "learning_rate": 4.266845717457582e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4357
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.72222137451172,
      "epoch": 32.76119402985075,
      "grad_norm": 0.0,
      "learning_rate": 4.266384919843947e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4358
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.88888931274414,
      "epoch": 32.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.26592400236584e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4359
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.05555725097656,
      "epoch": 32.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 4.265462965054538e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4360
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.27777862548828,
      "epoch": 32.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 4.2650018079413286e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4361
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.6944465637207,
      "epoch": 32.791044776119406,
      "grad_norm": 0.0,
      "learning_rate": 4.264540531057502e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4362
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.13888931274414,
      "epoch": 32.798507462686565,
      "grad_norm": 0.0,
      "learning_rate": 4.2640791344343617e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4363
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.9444465637207,
      "epoch": 32.80597014925373,
      "grad_norm": 0.0,
      "learning_rate": 4.263617618103218e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4364
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.0,
      "epoch": 32.8134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.263155982095387e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4365
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.30555725097656,
      "epoch": 32.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.262694226442196e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4366
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.36111450195312,
      "epoch": 32.82835820895522,
      "grad_norm": 0.0,
      "learning_rate": 4.262232351174978e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4367
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.77777862548828,
      "epoch": 32.83582089552239,
      "grad_norm": 0.0,
      "learning_rate": 4.261770356325077e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4368
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.55555725097656,
      "epoch": 32.843283582089555,
      "grad_norm": 0.0,
      "learning_rate": 4.261308241923841e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4369
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.38888931274414,
      "epoch": 32.850746268656714,
      "grad_norm": 0.0,
      "learning_rate": 4.2608460080026304e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4370
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.77777862548828,
      "epoch": 32.85820895522388,
      "grad_norm": 0.0,
      "learning_rate": 4.2603836545928114e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4371
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.66666793823242,
      "epoch": 32.865671641791046,
      "grad_norm": 0.0,
      "learning_rate": 4.2599211817257574e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4372
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.1944465637207,
      "epoch": 32.87313432835821,
      "grad_norm": 0.0,
      "learning_rate": 4.2594585894328525e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4373
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.75,
      "epoch": 32.88059701492537,
      "grad_norm": 0.0,
      "learning_rate": 4.258995877745488e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4374
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.77777862548828,
      "epoch": 32.88805970149254,
      "grad_norm": 0.0,
      "learning_rate": 4.2585330466950616e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4375
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.91666412353516,
      "epoch": 32.8955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.258070096312981e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4376
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.0,
      "epoch": 32.90298507462687,
      "grad_norm": 0.0,
      "learning_rate": 4.2576070266306605e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4377
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.02777862548828,
      "epoch": 32.91044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.2571438376795256e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4378
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.63888931274414,
      "epoch": 32.917910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.2566805294910047e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 4379
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.0,
      "epoch": 32.92537313432836,
      "grad_norm": 0.0,
      "learning_rate": 4.256217102096539e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4380
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.83333587646484,
      "epoch": 32.93283582089552,
      "grad_norm": 0.0,
      "learning_rate": 4.255753555527576e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4381
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.61111450195312,
      "epoch": 32.940298507462686,
      "grad_norm": 0.0,
      "learning_rate": 4.255289889815572e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4382
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.4444465637207,
      "epoch": 32.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 4.254826104991989e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4383
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.58333587646484,
      "epoch": 32.95522388059702,
      "grad_norm": 0.0,
      "learning_rate": 4.2543622010883e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4384
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.63888931274414,
      "epoch": 32.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 4.2538981781359844e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4385
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.08333206176758,
      "epoch": 32.97014925373134,
      "grad_norm": 0.0,
      "learning_rate": 4.25343403616653e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4386
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.30555725097656,
      "epoch": 32.97761194029851,
      "grad_norm": 0.0,
      "learning_rate": 4.2529697752114334e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4387
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.0,
      "epoch": 32.985074626865675,
      "grad_norm": 0.0,
      "learning_rate": 4.2525053953021994e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4388
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.75,
      "epoch": 32.992537313432834,
      "grad_norm": 0.0,
      "learning_rate": 4.252040896470338e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4389
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.58333206176758,
      "epoch": 33.007462686567166,
      "grad_norm": 0.0,
      "learning_rate": 4.251576278747371e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4390
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.22222137451172,
      "epoch": 33.014925373134325,
      "grad_norm": 0.0,
      "learning_rate": 4.251111542164827e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4391
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.91666793823242,
      "epoch": 33.02238805970149,
      "grad_norm": 0.0,
      "learning_rate": 4.250646686754242e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4392
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.02777862548828,
      "epoch": 33.02985074626866,
      "grad_norm": 0.0,
      "learning_rate": 4.2501817125471595e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4393
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.36111068725586,
      "epoch": 33.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 4.249716619575133e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4394
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.9444465637207,
      "epoch": 33.04477611940298,
      "grad_norm": 0.0,
      "learning_rate": 4.249251407869724e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4395
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.75,
      "epoch": 33.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 4.2487860774624985e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4396
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.58333206176758,
      "epoch": 33.059701492537314,
      "grad_norm": 0.0,
      "learning_rate": 4.248320628385035e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4397
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.6388931274414,
      "epoch": 33.06716417910448,
      "grad_norm": 0.0,
      "learning_rate": 4.2478550606689187e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4398
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.1944465637207,
      "epoch": 33.07462686567164,
      "grad_norm": 0.0,
      "learning_rate": 4.247389374345741e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4399
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.69444274902344,
      "epoch": 33.082089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.246923569447104e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4400
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.5,
      "epoch": 33.08955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.246457646004615e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4401
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.05555725097656,
      "epoch": 33.09701492537314,
      "grad_norm": 0.0,
      "learning_rate": 4.245991604049893e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4402
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.22222137451172,
      "epoch": 33.1044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.2455254436145616e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4403
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.83333587646484,
      "epoch": 33.11194029850746,
      "grad_norm": 0.0,
      "learning_rate": 4.245059164730254e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4404
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.08333587646484,
      "epoch": 33.11940298507463,
      "grad_norm": 0.0,
      "learning_rate": 4.244592767428611e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4405
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.72222137451172,
      "epoch": 33.12686567164179,
      "grad_norm": 0.0,
      "learning_rate": 4.2441262517412824e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4406
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.0,
      "epoch": 33.134328358208954,
      "grad_norm": 0.0,
      "learning_rate": 4.243659617699924e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4407
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.25,
      "epoch": 33.14179104477612,
      "grad_norm": 0.0,
      "learning_rate": 4.243192865336203e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4408
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.9444465637207,
      "epoch": 33.149253731343286,
      "grad_norm": 0.0,
      "learning_rate": 4.242725994681791e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4409
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.1944465637207,
      "epoch": 33.156716417910445,
      "grad_norm": 0.0,
      "learning_rate": 4.2422590057683694e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4410
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.08333587646484,
      "epoch": 33.16417910447761,
      "grad_norm": 0.0,
      "learning_rate": 4.2417918986276277e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4411
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.19444274902344,
      "epoch": 33.17164179104478,
      "grad_norm": 0.0,
      "learning_rate": 4.2413246732912643e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4412
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.30555725097656,
      "epoch": 33.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.240857329790982e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4413
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.08333206176758,
      "epoch": 33.1865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.240389868158496e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4414
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.4444465637207,
      "epoch": 33.19402985074627,
      "grad_norm": 16.630382663921157,
      "learning_rate": 4.239922288425527e-07,
      "loss": 0.003,
      "reward": 1.9166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 4415
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.58333206176758,
      "epoch": 33.201492537313435,
      "grad_norm": 0.0,
      "learning_rate": 4.2394545906238046e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4416
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.86111450195312,
      "epoch": 33.208955223880594,
      "grad_norm": 0.0,
      "learning_rate": 4.2389867747850654e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4417
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.9444465637207,
      "epoch": 33.21641791044776,
      "grad_norm": 11.83558612222348,
      "learning_rate": 4.2385188409410555e-07,
      "loss": -0.0085,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 4418
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.83333587646484,
      "epoch": 33.223880597014926,
      "grad_norm": 0.0,
      "learning_rate": 4.238050789123528e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4419
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.83333206176758,
      "epoch": 33.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.237582619364244e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4420
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.77777862548828,
      "epoch": 33.23880597014925,
      "grad_norm": 0.0,
      "learning_rate": 4.237114331694973e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4421
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.97222137451172,
      "epoch": 33.24626865671642,
      "grad_norm": 0.0,
      "learning_rate": 4.236645926147493e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4422
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.5,
      "epoch": 33.25373134328358,
      "grad_norm": 0.0,
      "learning_rate": 4.236177402753589e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4423
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.72222137451172,
      "epoch": 33.26119402985075,
      "grad_norm": 0.0,
      "learning_rate": 4.2357087615450535e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4424
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.63888931274414,
      "epoch": 33.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.2352400025536887e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4425
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.1944465637207,
      "epoch": 33.276119402985074,
      "grad_norm": 0.0,
      "learning_rate": 4.234771125811304e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4426
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.75,
      "epoch": 33.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 4.2343021313497164e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4427
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.91666793823242,
      "epoch": 33.291044776119406,
      "grad_norm": 0.0,
      "learning_rate": 4.233833019200751e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4428
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.5,
      "epoch": 33.298507462686565,
      "grad_norm": 0.0,
      "learning_rate": 4.233363789396242e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4429
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.63888931274414,
      "epoch": 33.30597014925373,
      "grad_norm": 0.0,
      "learning_rate": 4.2328944419680294e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4430
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.77777862548828,
      "epoch": 33.3134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.232424976947964e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4431
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.02777862548828,
      "epoch": 33.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.231955394367902e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4432
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.75,
      "epoch": 33.32835820895522,
      "grad_norm": 0.0,
      "learning_rate": 4.231485694259709e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4433
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.61111068725586,
      "epoch": 33.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 4.231015876655258e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4434
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.33333206176758,
      "epoch": 33.343283582089555,
      "grad_norm": 0.0,
      "learning_rate": 4.2305459415864303e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4435
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.52777862548828,
      "epoch": 33.350746268656714,
      "grad_norm": 0.0,
      "learning_rate": 4.230075889085115e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4436
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.1944465637207,
      "epoch": 33.35820895522388,
      "grad_norm": 0.0,
      "learning_rate": 4.2296057191832096e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 4437
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.80555725097656,
      "epoch": 33.365671641791046,
      "grad_norm": 0.0,
      "learning_rate": 4.229135431912619e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4438
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.77777862548828,
      "epoch": 33.37313432835821,
      "grad_norm": 0.0,
      "learning_rate": 4.228665027305256e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4439
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.9444465637207,
      "epoch": 33.38059701492537,
      "grad_norm": 0.0,
      "learning_rate": 4.228194505393041e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4440
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.41666793823242,
      "epoch": 33.38805970149254,
      "grad_norm": 0.0,
      "learning_rate": 4.2277238662079044e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4441
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.16666793823242,
      "epoch": 33.3955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.2272531097817827e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4442
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.33333206176758,
      "epoch": 33.40298507462686,
      "grad_norm": 0.0,
      "learning_rate": 4.22678223614662e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4443
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.16666793823242,
      "epoch": 33.41044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.2263112453343697e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4444
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.16666412353516,
      "epoch": 33.417910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.2258401373769927e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4445
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.63888931274414,
      "epoch": 33.42537313432836,
      "grad_norm": 0.0,
      "learning_rate": 4.225368912306457e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4446
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.77777862548828,
      "epoch": 33.43283582089552,
      "grad_norm": 0.0,
      "learning_rate": 4.2248975701547406e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4447
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.1944465637207,
      "epoch": 33.440298507462686,
      "grad_norm": 0.0,
      "learning_rate": 4.2244261109538275e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4448
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.22222137451172,
      "epoch": 33.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 4.223954534735711e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4449
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.6388931274414,
      "epoch": 33.45522388059702,
      "grad_norm": 0.0,
      "learning_rate": 4.22348284153239e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4450
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.91666793823242,
      "epoch": 33.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 4.2230110313758726e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4451
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.9444465637207,
      "epoch": 33.47014925373134,
      "grad_norm": 0.0,
      "learning_rate": 4.2225391042981777e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4452
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.47222137451172,
      "epoch": 33.47761194029851,
      "grad_norm": 0.0,
      "learning_rate": 4.2220670603313284e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4453
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.52777862548828,
      "epoch": 33.485074626865675,
      "grad_norm": 0.0,
      "learning_rate": 4.221594899507357e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4454
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.58333206176758,
      "epoch": 33.492537313432834,
      "grad_norm": 0.0,
      "learning_rate": 4.221122621858303e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4455
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.69444274902344,
      "epoch": 33.5,
      "grad_norm": 0.0,
      "learning_rate": 4.220650227416215e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4456
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.6944465637207,
      "epoch": 33.507462686567166,
      "grad_norm": 0.0,
      "learning_rate": 4.2201777162131495e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4457
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.8888931274414,
      "epoch": 33.514925373134325,
      "grad_norm": 0.0,
      "learning_rate": 4.21970508828117e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4458
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.13888931274414,
      "epoch": 33.52238805970149,
      "grad_norm": 0.0,
      "learning_rate": 4.219232343652348e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 4459
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.97222137451172,
      "epoch": 33.52985074626866,
      "grad_norm": 0.0,
      "learning_rate": 4.218759482358765e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4460
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.97222137451172,
      "epoch": 33.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 4.218286504432507e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4461
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.5,
      "epoch": 33.54477611940298,
      "grad_norm": 0.0,
      "learning_rate": 4.2178134099056697e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4462
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.52777862548828,
      "epoch": 33.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 4.217340198810357e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4463
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.5,
      "epoch": 33.559701492537314,
      "grad_norm": 0.0,
      "learning_rate": 4.2168668711786803e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4464
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.77777862548828,
      "epoch": 33.56716417910448,
      "grad_norm": 0.0,
      "learning_rate": 4.21639342704276e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4465
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.30555725097656,
      "epoch": 33.57462686567164,
      "grad_norm": 0.0,
      "learning_rate": 4.2159198664347225e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4466
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.02777862548828,
      "epoch": 33.582089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.2154461893867024e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 4467
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.3888931274414,
      "epoch": 33.58955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.214972395930843e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4468
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.61111068725586,
      "epoch": 33.59701492537313,
      "grad_norm": 0.0,
      "learning_rate": 4.214498486099296e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4469
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.97222137451172,
      "epoch": 33.6044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.2140244599242205e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4470
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.52777862548828,
      "epoch": 33.61194029850746,
      "grad_norm": 0.0,
      "learning_rate": 4.213550317437782e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4471
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.27777862548828,
      "epoch": 33.61940298507463,
      "grad_norm": 0.0,
      "learning_rate": 4.2130760586721557e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4472
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.25,
      "epoch": 33.62686567164179,
      "grad_norm": 0.0,
      "learning_rate": 4.212601683659525e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4473
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.63888931274414,
      "epoch": 33.634328358208954,
      "grad_norm": 0.0,
      "learning_rate": 4.2121271924320795e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4474
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.36111450195312,
      "epoch": 33.64179104477612,
      "grad_norm": 0.0,
      "learning_rate": 4.211652585022017e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4475
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.61111450195312,
      "epoch": 33.649253731343286,
      "grad_norm": 0.0,
      "learning_rate": 4.2111778614615444e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4476
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.86111068725586,
      "epoch": 33.656716417910445,
      "grad_norm": 0.0,
      "learning_rate": 4.2107030217828766e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4477
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.11111068725586,
      "epoch": 33.66417910447761,
      "grad_norm": 0.0,
      "learning_rate": 4.2102280660182343e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4478
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.66666412353516,
      "epoch": 33.67164179104478,
      "grad_norm": 20.679765178229406,
      "learning_rate": 4.2097529941998477e-07,
      "loss": 0.0073,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 4479
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.0,
      "epoch": 33.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.209277806359955e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4480
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.47222137451172,
      "epoch": 33.6865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.208802502530801e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4481
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.6944465637207,
      "epoch": 33.69402985074627,
      "grad_norm": 0.0,
      "learning_rate": 4.2083270827446395e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4482
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.08333206176758,
      "epoch": 33.701492537313435,
      "grad_norm": 0.0,
      "learning_rate": 4.207851547033733e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4483
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.83333206176758,
      "epoch": 33.708955223880594,
      "grad_norm": 0.0,
      "learning_rate": 4.207375895430348e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4484
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.6944465637207,
      "epoch": 33.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 4.206900127966764e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4485
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.33333206176758,
      "epoch": 33.723880597014926,
      "grad_norm": 0.0,
      "learning_rate": 4.206424244675265e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4486
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.97222137451172,
      "epoch": 33.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.205948245588144e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4487
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.25,
      "epoch": 33.73880597014925,
      "grad_norm": 0.0,
      "learning_rate": 4.2054721307377016e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4488
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.08333587646484,
      "epoch": 33.74626865671642,
      "grad_norm": 0.0,
      "learning_rate": 4.204995900156246e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4489
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.5,
      "epoch": 33.75373134328358,
      "grad_norm": 0.0,
      "learning_rate": 4.2045195538760946e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4490
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.72222137451172,
      "epoch": 33.76119402985075,
      "grad_norm": 0.0,
      "learning_rate": 4.20404309192957e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4491
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.05555725097656,
      "epoch": 33.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.203566514349005e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4492
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.13888931274414,
      "epoch": 33.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 4.2030898211667397e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4493
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.6944465637207,
      "epoch": 33.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 4.2026130124151227e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4494
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.30555725097656,
      "epoch": 33.791044776119406,
      "grad_norm": 0.0,
      "learning_rate": 4.2021360881265076e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4495
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.63888931274414,
      "epoch": 33.798507462686565,
      "grad_norm": 0.0,
      "learning_rate": 4.2016590483332594e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4496
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.25,
      "epoch": 33.80597014925373,
      "grad_norm": 0.0,
      "learning_rate": 4.2011818930677487e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 4497
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.77777862548828,
      "epoch": 33.8134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.2007046223623543e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4498
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.33333206176758,
      "epoch": 33.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.200227236249464e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4499
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.30555725097656,
      "epoch": 33.82835820895522,
      "grad_norm": 0.0,
      "learning_rate": 4.199749734761473e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4500
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.86111068725586,
      "epoch": 33.83582089552239,
      "grad_norm": 0.0,
      "learning_rate": 4.1992721179307814e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4501
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.5,
      "epoch": 33.843283582089555,
      "grad_norm": 0.0,
      "learning_rate": 4.198794385789802e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4502
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.30555725097656,
      "epoch": 33.850746268656714,
      "grad_norm": 32.374385083268365,
      "learning_rate": 4.198316538370953e-07,
      "loss": -0.0022,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 4503
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.41666793823242,
      "epoch": 33.85820895522388,
      "grad_norm": 9.798541655850864,
      "learning_rate": 4.1978385757066593e-07,
      "loss": -0.0044,
      "reward": 1.6111111640930176,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 4504
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.77777862548828,
      "epoch": 33.865671641791046,
      "grad_norm": 0.0,
      "learning_rate": 4.1973604978293546e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4505
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.63888931274414,
      "epoch": 33.87313432835821,
      "grad_norm": 0.0,
      "learning_rate": 4.1968823047714817e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4506
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.86111068725586,
      "epoch": 33.88059701492537,
      "grad_norm": 0.0,
      "learning_rate": 4.196403996565491e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4507
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.63888931274414,
      "epoch": 33.88805970149254,
      "grad_norm": 0.0,
      "learning_rate": 4.195925573243837e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 4508
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.27777862548828,
      "epoch": 33.8955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.195447034838987e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4509
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.72222137451172,
      "epoch": 33.90298507462687,
      "grad_norm": 0.0,
      "learning_rate": 4.194968381383414e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4510
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.1388931274414,
      "epoch": 33.91044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.1944896129095974e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4511
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.58333206176758,
      "epoch": 33.917910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.1940107294500266e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4512
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.6944465637207,
      "epoch": 33.92537313432836,
      "grad_norm": 0.0,
      "learning_rate": 4.1935317310371974e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4513
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.1944465637207,
      "epoch": 33.93283582089552,
      "grad_norm": 0.0,
      "learning_rate": 4.1930526177036157e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4514
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.58333206176758,
      "epoch": 33.940298507462686,
      "grad_norm": 0.0,
      "learning_rate": 4.1925733894817915e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4515
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.9444465637207,
      "epoch": 33.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 4.192094046404246e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4516
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.13888931274414,
      "epoch": 33.95522388059702,
      "grad_norm": 0.0,
      "learning_rate": 4.191614588503506e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4517
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.13888931274414,
      "epoch": 33.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 4.1911350158121066e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4518
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.52777862548828,
      "epoch": 33.97014925373134,
      "grad_norm": 0.0,
      "learning_rate": 4.190655328362591e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4519
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.0,
      "epoch": 33.97761194029851,
      "grad_norm": 0.0,
      "learning_rate": 4.190175526187511e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4520
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.33333206176758,
      "epoch": 33.985074626865675,
      "grad_norm": 0.0,
      "learning_rate": 4.1896956093194254e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4521
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.25,
      "epoch": 33.992537313432834,
      "grad_norm": 0.0,
      "learning_rate": 4.1892155777908987e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4522
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.0,
      "epoch": 34.007462686567166,
      "grad_norm": 0.0,
      "learning_rate": 4.188735431634508e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4523
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.22222137451172,
      "epoch": 34.014925373134325,
      "grad_norm": 0.0,
      "learning_rate": 4.1882551708828327e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4524
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.36111068725586,
      "epoch": 34.02238805970149,
      "grad_norm": 0.0,
      "learning_rate": 4.187774795568465e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4525
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.05555725097656,
      "epoch": 34.02985074626866,
      "grad_norm": 0.0,
      "learning_rate": 4.187294305724001e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4526
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.33333206176758,
      "epoch": 34.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 4.186813701382046e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4527
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.75,
      "epoch": 34.04477611940298,
      "grad_norm": 0.0,
      "learning_rate": 4.186332982575214e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4528
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.5,
      "epoch": 34.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 4.185852149336125e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4529
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.75,
      "epoch": 34.059701492537314,
      "grad_norm": 0.0,
      "learning_rate": 4.18537120169741e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4530
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.02777862548828,
      "epoch": 34.06716417910448,
      "grad_norm": 0.0,
      "learning_rate": 4.184890139691702e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4531
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.27777862548828,
      "epoch": 34.07462686567164,
      "grad_norm": 0.0,
      "learning_rate": 4.184408963351648e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4532
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.4444465637207,
      "epoch": 34.082089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.183927672709898e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4533
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.86111068725586,
      "epoch": 34.08955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.183446267799112e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4534
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.33333206176758,
      "epoch": 34.09701492537314,
      "grad_norm": 0.0,
      "learning_rate": 4.1829647486519593e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4535
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.13888931274414,
      "epoch": 34.1044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.182483115301114e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4536
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.6944465637207,
      "epoch": 34.11194029850746,
      "grad_norm": 0.0,
      "learning_rate": 4.1820013677792585e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4537
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.75,
      "epoch": 34.11940298507463,
      "grad_norm": 0.0,
      "learning_rate": 4.1815195061190846e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4538
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.36111068725586,
      "epoch": 34.12686567164179,
      "grad_norm": 0.0,
      "learning_rate": 4.18103753035329e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4539
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.72222137451172,
      "epoch": 34.134328358208954,
      "grad_norm": 0.0,
      "learning_rate": 4.1805554405145805e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4540
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.86111068725586,
      "epoch": 34.14179104477612,
      "grad_norm": 0.0,
      "learning_rate": 4.1800732366356704e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4541
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.77777862548828,
      "epoch": 34.149253731343286,
      "grad_norm": 0.0,
      "learning_rate": 4.179590918749283e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4542
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.86111068725586,
      "epoch": 34.156716417910445,
      "grad_norm": 0.0,
      "learning_rate": 4.179108486888145e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4543
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.58333206176758,
      "epoch": 34.16417910447761,
      "grad_norm": 3.625340665581786,
      "learning_rate": 4.178625941084996e-07,
      "loss": -0.0124,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 4544
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.88888931274414,
      "epoch": 34.17164179104478,
      "grad_norm": 0.0,
      "learning_rate": 4.17814328137258e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4545
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.11111068725586,
      "epoch": 34.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.177660507783649e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4546
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.55555725097656,
      "epoch": 34.1865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.1771776203509643e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4547
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.30555725097656,
      "epoch": 34.19402985074627,
      "grad_norm": 0.0,
      "learning_rate": 4.1766946191072936e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4548
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.66666793823242,
      "epoch": 34.201492537313435,
      "grad_norm": 0.0,
      "learning_rate": 4.176211504085412e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4549
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.52777862548828,
      "epoch": 34.208955223880594,
      "grad_norm": 0.0,
      "learning_rate": 4.1757282753181047e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4550
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.97222137451172,
      "epoch": 34.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 4.1752449328381606e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4551
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.55555725097656,
      "epoch": 34.223880597014926,
      "grad_norm": 0.0,
      "learning_rate": 4.174761476678381e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4552
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.86111450195312,
      "epoch": 34.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.174277906871571e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4553
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.61111068725586,
      "epoch": 34.23880597014925,
      "grad_norm": 0.0,
      "learning_rate": 4.1737942234505456e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4554
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.27777862548828,
      "epoch": 34.24626865671642,
      "grad_norm": 0.0,
      "learning_rate": 4.173310426448128e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4555
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.36111450195312,
      "epoch": 34.25373134328358,
      "grad_norm": 0.0,
      "learning_rate": 4.172826515897145e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4556
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.63888931274414,
      "epoch": 34.26119402985075,
      "grad_norm": 0.0,
      "learning_rate": 4.172342491830437e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4557
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.47222137451172,
      "epoch": 34.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.171858354280848e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4558
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.19444274902344,
      "epoch": 34.276119402985074,
      "grad_norm": 0.0,
      "learning_rate": 4.1713741032812316e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4559
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.77777862548828,
      "epoch": 34.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 4.1708897388644477e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4560
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.36111068725586,
      "epoch": 34.291044776119406,
      "grad_norm": 0.0,
      "learning_rate": 4.1704052610633645e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4561
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.66666793823242,
      "epoch": 34.298507462686565,
      "grad_norm": 0.0,
      "learning_rate": 4.1699206699108584e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4562
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.11111450195312,
      "epoch": 34.30597014925373,
      "grad_norm": 0.0,
      "learning_rate": 4.1694359654398134e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4563
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.1388931274414,
      "epoch": 34.3134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.1689511476831197e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4564
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.9444465637207,
      "epoch": 34.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.1684662166736784e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4565
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.86111068725586,
      "epoch": 34.32835820895522,
      "grad_norm": 0.0,
      "learning_rate": 4.167981172444394e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4566
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.94444274902344,
      "epoch": 34.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 4.167496015028182e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4567
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.16666412353516,
      "epoch": 34.343283582089555,
      "grad_norm": 0.0,
      "learning_rate": 4.167010744457965e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4568
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.52777862548828,
      "epoch": 34.350746268656714,
      "grad_norm": 0.0,
      "learning_rate": 4.166525360766672e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4569
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.52777862548828,
      "epoch": 34.35820895522388,
      "grad_norm": 0.0,
      "learning_rate": 4.1660398639872405e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4570
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.72222137451172,
      "epoch": 34.365671641791046,
      "grad_norm": 0.0,
      "learning_rate": 4.165554254152616e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4571
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.83333587646484,
      "epoch": 34.37313432835821,
      "grad_norm": 0.0,
      "learning_rate": 4.1650685312957516e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4572
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.4444465637207,
      "epoch": 34.38059701492537,
      "grad_norm": 0.0,
      "learning_rate": 4.1645826954496075e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4573
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.02777862548828,
      "epoch": 34.38805970149254,
      "grad_norm": 0.0,
      "learning_rate": 4.1640967466471513e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4574
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.30555725097656,
      "epoch": 34.3955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.16361068492136e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4575
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.25,
      "epoch": 34.40298507462686,
      "grad_norm": 0.0,
      "learning_rate": 4.163124510305216e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 4576
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.30555725097656,
      "epoch": 34.41044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.1626382228317105e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4577
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.6944465637207,
      "epoch": 34.417910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.1621518225338424e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4578
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.11111068725586,
      "epoch": 34.42537313432836,
      "grad_norm": 0.0,
      "learning_rate": 4.1616653094446197e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4579
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.97222137451172,
      "epoch": 34.43283582089552,
      "grad_norm": 0.0,
      "learning_rate": 4.161178683597054e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4580
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.0,
      "epoch": 34.440298507462686,
      "grad_norm": 0.0,
      "learning_rate": 4.1606919450241683e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4581
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.11111068725586,
      "epoch": 34.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 4.1602050937589933e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4582
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.61111450195312,
      "epoch": 34.45522388059702,
      "grad_norm": 0.0,
      "learning_rate": 4.159718129834564e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4583
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.6944465637207,
      "epoch": 34.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 4.159231053283926e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4584
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.72222137451172,
      "epoch": 34.47014925373134,
      "grad_norm": 0.0,
      "learning_rate": 4.158743864140131e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4585
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.63888931274414,
      "epoch": 34.47761194029851,
      "grad_norm": 0.0,
      "learning_rate": 4.15825656243624e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4586
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.72222137451172,
      "epoch": 34.485074626865675,
      "grad_norm": 0.0,
      "learning_rate": 4.1577691482053194e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4587
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.94444274902344,
      "epoch": 34.492537313432834,
      "grad_norm": 0.0,
      "learning_rate": 4.157281621480446e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4588
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.25,
      "epoch": 34.5,
      "grad_norm": 0.0,
      "learning_rate": 4.156793982294702e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4589
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.55555725097656,
      "epoch": 34.507462686567166,
      "grad_norm": 0.0,
      "learning_rate": 4.1563062306811776e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4590
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.9444465637207,
      "epoch": 34.514925373134325,
      "grad_norm": 0.0,
      "learning_rate": 4.1558183666729706e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4591
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.83333587646484,
      "epoch": 34.52238805970149,
      "grad_norm": 26.978519180021063,
      "learning_rate": 4.155330390303188e-07,
      "loss": -0.0008,
      "reward": 1.9166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 4592
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.27777862548828,
      "epoch": 34.52985074626866,
      "grad_norm": 0.0,
      "learning_rate": 4.1548423016049427e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4593
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.1388931274414,
      "epoch": 34.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 4.1543541006113555e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4594
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.6944465637207,
      "epoch": 34.54477611940298,
      "grad_norm": 0.0,
      "learning_rate": 4.153865787355555e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4595
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.19444274902344,
      "epoch": 34.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 4.153377361870678e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4596
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.9444465637207,
      "epoch": 34.559701492537314,
      "grad_norm": 0.0,
      "learning_rate": 4.1528888241898673e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4597
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.80555725097656,
      "epoch": 34.56716417910448,
      "grad_norm": 0.0,
      "learning_rate": 4.1524001743462755e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4598
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.08333206176758,
      "epoch": 34.57462686567164,
      "grad_norm": 0.0,
      "learning_rate": 4.151911412373062e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4599
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.33333206176758,
      "epoch": 34.582089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.151422538303392e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4600
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.86111068725586,
      "epoch": 34.58955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.1509335521704413e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4601
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.3888931274414,
      "epoch": 34.59701492537313,
      "grad_norm": 0.0,
      "learning_rate": 4.1504444540073914e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4602
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.47222137451172,
      "epoch": 34.6044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.149955243847431e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4603
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.83333206176758,
      "epoch": 34.61194029850746,
      "grad_norm": 0.0,
      "learning_rate": 4.1494659217237583e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4604
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.61111068725586,
      "epoch": 34.61940298507463,
      "grad_norm": 0.0,
      "learning_rate": 4.148976487669577e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4605
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.55555725097656,
      "epoch": 34.62686567164179,
      "grad_norm": 0.0,
      "learning_rate": 4.148486941718101e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4606
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.69444274902344,
      "epoch": 34.634328358208954,
      "grad_norm": 0.0,
      "learning_rate": 4.147997283902549e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4607
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.08333587646484,
      "epoch": 34.64179104477612,
      "grad_norm": 0.0,
      "learning_rate": 4.1475075142561484e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4608
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.69444274902344,
      "epoch": 34.649253731343286,
      "grad_norm": 0.0,
      "learning_rate": 4.147017632812134e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4609
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.02777862548828,
      "epoch": 34.656716417910445,
      "grad_norm": 0.0,
      "learning_rate": 4.1465276396037505e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4610
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.36111450195312,
      "epoch": 34.66417910447761,
      "grad_norm": 0.0,
      "learning_rate": 4.1460375346642476e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4611
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.13888931274414,
      "epoch": 34.67164179104478,
      "grad_norm": 0.0,
      "learning_rate": 4.145547318026881e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4612
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.08333587646484,
      "epoch": 34.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.1450569897249174e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4613
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.97222137451172,
      "epoch": 34.6865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.1445665497916305e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4614
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.0,
      "epoch": 34.69402985074627,
      "grad_norm": 0.0,
      "learning_rate": 4.1440759982603e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4615
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.16666412353516,
      "epoch": 34.701492537313435,
      "grad_norm": 0.0,
      "learning_rate": 4.1435853351642147e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4616
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.63888931274414,
      "epoch": 34.708955223880594,
      "grad_norm": 0.0,
      "learning_rate": 4.1430945605366694e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4617
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.25,
      "epoch": 34.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 4.142603674410969e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4618
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.88888931274414,
      "epoch": 34.723880597014926,
      "grad_norm": 0.0,
      "learning_rate": 4.142112676820423e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4619
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.30555725097656,
      "epoch": 34.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.14162156779835e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4620
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.05555725097656,
      "epoch": 34.73880597014925,
      "grad_norm": 0.0,
      "learning_rate": 4.141130347378076e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4621
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.02777862548828,
      "epoch": 34.74626865671642,
      "grad_norm": 0.0,
      "learning_rate": 4.140639015592935e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4622
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.22222137451172,
      "epoch": 34.75373134328358,
      "grad_norm": 0.0,
      "learning_rate": 4.140147572476268e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4623
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.66666793823242,
      "epoch": 34.76119402985075,
      "grad_norm": 0.0,
      "learning_rate": 4.1396560180614235e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 4624
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.97222137451172,
      "epoch": 34.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.1391643523817574e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4625
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.5,
      "epoch": 34.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 4.138672575470634e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4626
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.97222137451172,
      "epoch": 34.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 4.1381806873614243e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4627
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.41666793823242,
      "epoch": 34.791044776119406,
      "grad_norm": 0.0,
      "learning_rate": 4.137688688087507e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4628
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.66666793823242,
      "epoch": 34.798507462686565,
      "grad_norm": 0.0,
      "learning_rate": 4.137196577682269e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 4629
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.13888931274414,
      "epoch": 34.80597014925373,
      "grad_norm": 0.0,
      "learning_rate": 4.136704356179105e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4630
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.58333587646484,
      "epoch": 34.8134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.136212023611414e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4631
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.6388931274414,
      "epoch": 34.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.1357195800126073e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4632
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.25,
      "epoch": 34.82835820895522,
      "grad_norm": 0.0,
      "learning_rate": 4.1352270254161004e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4633
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.16666412353516,
      "epoch": 34.83582089552239,
      "grad_norm": 0.0,
      "learning_rate": 4.1347343598553176e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4634
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.66666793823242,
      "epoch": 34.843283582089555,
      "grad_norm": 0.0,
      "learning_rate": 4.13424158336369e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4635
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.77777862548828,
      "epoch": 34.850746268656714,
      "grad_norm": 24.27676116247041,
      "learning_rate": 4.133748695974658e-07,
      "loss": -0.0049,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 4636
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.83333206176758,
      "epoch": 34.85820895522388,
      "grad_norm": 0.0,
      "learning_rate": 4.133255697721667e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4637
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.25,
      "epoch": 34.865671641791046,
      "grad_norm": 0.0,
      "learning_rate": 4.132762588638172e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4638
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.88888931274414,
      "epoch": 34.87313432835821,
      "grad_norm": 0.0,
      "learning_rate": 4.1322693687576346e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4639
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.05555725097656,
      "epoch": 34.88059701492537,
      "grad_norm": 0.0,
      "learning_rate": 4.1317760381135236e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4640
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.91666412353516,
      "epoch": 34.88805970149254,
      "grad_norm": 0.0,
      "learning_rate": 4.1312825967393163e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4641
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.8888931274414,
      "epoch": 34.8955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.1307890446684966e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4642
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.61111450195312,
      "epoch": 34.90298507462687,
      "grad_norm": 0.0,
      "learning_rate": 4.1302953819345566e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 4643
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.94444274902344,
      "epoch": 34.91044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.129801608570995e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4644
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.86111068725586,
      "epoch": 34.917910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.1293077246113186e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4645
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.1388931274414,
      "epoch": 34.92537313432836,
      "grad_norm": 0.0,
      "learning_rate": 4.1288137300890425e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4646
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.80555725097656,
      "epoch": 34.93283582089552,
      "grad_norm": 0.0,
      "learning_rate": 4.128319625037687e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4647
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.05555725097656,
      "epoch": 34.940298507462686,
      "grad_norm": 0.0,
      "learning_rate": 4.1278254094907836e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4648
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.72222137451172,
      "epoch": 34.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 4.127331083481868e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4649
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.91666412353516,
      "epoch": 34.95522388059702,
      "grad_norm": 0.0,
      "learning_rate": 4.126836647044483e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4650
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.08333206176758,
      "epoch": 34.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 4.1263421002121837e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4651
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.75,
      "epoch": 34.97014925373134,
      "grad_norm": 0.0,
      "learning_rate": 4.1258474430185254e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4652
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.1388931274414,
      "epoch": 34.97761194029851,
      "grad_norm": 0.0,
      "learning_rate": 4.125352675497078e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4653
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.9444465637207,
      "epoch": 34.985074626865675,
      "grad_norm": 0.0,
      "learning_rate": 4.1248577976814146e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4654
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.5,
      "epoch": 34.992537313432834,
      "grad_norm": 12.222695293535756,
      "learning_rate": 4.1243628096051166e-07,
      "loss": -0.0125,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 4655
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.02777862548828,
      "epoch": 35.007462686567166,
      "grad_norm": 0.0,
      "learning_rate": 4.123867711301774e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4656
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.1944465637207,
      "epoch": 35.014925373134325,
      "grad_norm": 0.0,
      "learning_rate": 4.1233725028049827e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4657
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.72222137451172,
      "epoch": 35.02238805970149,
      "grad_norm": 0.0,
      "learning_rate": 4.1228771841483473e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4658
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.19444274902344,
      "epoch": 35.02985074626866,
      "grad_norm": 0.0,
      "learning_rate": 4.122381755365479e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4659
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.19444274902344,
      "epoch": 35.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 4.1218862164899983e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4660
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.97222137451172,
      "epoch": 35.04477611940298,
      "grad_norm": 0.0,
      "learning_rate": 4.1213905675555307e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4661
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.80555725097656,
      "epoch": 35.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 4.1208948085957094e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4662
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.6944465637207,
      "epoch": 35.059701492537314,
      "grad_norm": 0.0,
      "learning_rate": 4.1203989396441775e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4663
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.05555725097656,
      "epoch": 35.06716417910448,
      "grad_norm": 0.0,
      "learning_rate": 4.119902960734584e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4664
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.55555725097656,
      "epoch": 35.07462686567164,
      "grad_norm": 0.0,
      "learning_rate": 4.119406871900584e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4665
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.11111450195312,
      "epoch": 35.082089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.1189106731758423e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4666
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.61111450195312,
      "epoch": 35.08955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.11841436459403e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4667
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.86111450195312,
      "epoch": 35.09701492537314,
      "grad_norm": 0.0,
      "learning_rate": 4.1179179461888267e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4668
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.27777862548828,
      "epoch": 35.1044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.1174214179939173e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4669
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.77777862548828,
      "epoch": 35.11194029850746,
      "grad_norm": 0.0,
      "learning_rate": 4.1169247800429964e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4670
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.47222137451172,
      "epoch": 35.11940298507463,
      "grad_norm": 0.0,
      "learning_rate": 4.1164280323697653e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4671
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.58333587646484,
      "epoch": 35.12686567164179,
      "grad_norm": 0.0,
      "learning_rate": 4.115931175007932e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 4672
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.72222137451172,
      "epoch": 35.134328358208954,
      "grad_norm": 0.0,
      "learning_rate": 4.115434207991213e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4673
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.16666412353516,
      "epoch": 35.14179104477612,
      "grad_norm": 0.0,
      "learning_rate": 4.114937131353332e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4674
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.25,
      "epoch": 35.149253731343286,
      "grad_norm": 0.0,
      "learning_rate": 4.1144399451280197e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4675
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.05555725097656,
      "epoch": 35.156716417910445,
      "grad_norm": 0.0,
      "learning_rate": 4.1139426493490143e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4676
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.30555725097656,
      "epoch": 35.16417910447761,
      "grad_norm": 0.0,
      "learning_rate": 4.1134452440500613e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4677
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.47222137451172,
      "epoch": 35.17164179104478,
      "grad_norm": 0.0,
      "learning_rate": 4.112947729264915e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4678
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.77777862548828,
      "epoch": 35.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.112450105027335e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4679
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.08333587646484,
      "epoch": 35.1865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.11195237137109e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4680
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.11111450195312,
      "epoch": 35.19402985074627,
      "grad_norm": 0.0,
      "learning_rate": 4.1114545283299564e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4681
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.63888931274414,
      "epoch": 35.201492537313435,
      "grad_norm": 0.0,
      "learning_rate": 4.110956575937715e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4682
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.02777862548828,
      "epoch": 35.208955223880594,
      "grad_norm": 0.0,
      "learning_rate": 4.1104585142281577e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4683
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.55555725097656,
      "epoch": 35.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 4.1099603432350817e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4684
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.72222137451172,
      "epoch": 35.223880597014926,
      "grad_norm": 0.0,
      "learning_rate": 4.109462062992293e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4685
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.66666412353516,
      "epoch": 35.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.1089636735336024e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4686
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.97222137451172,
      "epoch": 35.23880597014925,
      "grad_norm": 0.0,
      "learning_rate": 4.108465174892832e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4687
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.80555725097656,
      "epoch": 35.24626865671642,
      "grad_norm": 0.0,
      "learning_rate": 4.107966567103809e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4688
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.38888931274414,
      "epoch": 35.25373134328358,
      "grad_norm": 0.0,
      "learning_rate": 4.107467850200367e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4689
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.69444274902344,
      "epoch": 35.26119402985075,
      "grad_norm": 0.0,
      "learning_rate": 4.106969024216348e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4690
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.77777862548828,
      "epoch": 35.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.1064700891856037e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4691
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.86111068725586,
      "epoch": 35.276119402985074,
      "grad_norm": 0.0,
      "learning_rate": 4.1059710451419893e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4692
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.3888931274414,
      "epoch": 35.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 4.10547189211937e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4693
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.02777862548828,
      "epoch": 35.291044776119406,
      "grad_norm": 0.0,
      "learning_rate": 4.1049726301516184e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4694
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.80555725097656,
      "epoch": 35.298507462686565,
      "grad_norm": 0.0,
      "learning_rate": 4.1044732592726127e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4695
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.52777862548828,
      "epoch": 35.30597014925373,
      "grad_norm": 0.0,
      "learning_rate": 4.103973779516239e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4696
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.5,
      "epoch": 35.3134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.103474190916393e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4697
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.55555725097656,
      "epoch": 35.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.1029744935069745e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 4698
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.1388931274414,
      "epoch": 35.32835820895522,
      "grad_norm": 0.0,
      "learning_rate": 4.102474687321893e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 4699
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.1388931274414,
      "epoch": 35.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 4.1019747723950647e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4700
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.72222137451172,
      "epoch": 35.343283582089555,
      "grad_norm": 0.0,
      "learning_rate": 4.1014747487604134e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 4701
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.11111068725586,
      "epoch": 35.350746268656714,
      "grad_norm": 0.0,
      "learning_rate": 4.1009746164518696e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4702
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.25,
      "epoch": 35.35820895522388,
      "grad_norm": 0.0,
      "learning_rate": 4.100474375503371e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4703
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.1388931274414,
      "epoch": 35.365671641791046,
      "grad_norm": 0.0,
      "learning_rate": 4.099974025948865e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4704
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.6388931274414,
      "epoch": 35.37313432835821,
      "grad_norm": 0.0,
      "learning_rate": 4.099473567822303e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4705
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.61111068725586,
      "epoch": 35.38059701492537,
      "grad_norm": 14.744164954819267,
      "learning_rate": 4.098973001157646e-07,
      "loss": 0.0058,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 4706
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.36111068725586,
      "epoch": 35.38805970149254,
      "grad_norm": 0.0,
      "learning_rate": 4.098472325988862e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4707
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.52777862548828,
      "epoch": 35.3955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.097971542349925e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4708
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.1388931274414,
      "epoch": 35.40298507462686,
      "grad_norm": 0.0,
      "learning_rate": 4.097470650274819e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4709
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 73.77777862548828,
      "epoch": 35.41044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.0969696497975334e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4710
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.58333206176758,
      "epoch": 35.417910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.0964685409520654e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4711
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.11111450195312,
      "epoch": 35.42537313432836,
      "grad_norm": 0.0,
      "learning_rate": 4.0959673237724197e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4712
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.0,
      "epoch": 35.43283582089552,
      "grad_norm": 0.0,
      "learning_rate": 4.095465998292607e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4713
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.58333206176758,
      "epoch": 35.440298507462686,
      "grad_norm": 0.0,
      "learning_rate": 4.094964564546648e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4714
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.22222137451172,
      "epoch": 35.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 4.094463022568569e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4715
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.72222137451172,
      "epoch": 35.45522388059702,
      "grad_norm": 0.0,
      "learning_rate": 4.0939613723924034e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4716
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.9444465637207,
      "epoch": 35.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 4.0934596140521925e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4717
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.5,
      "epoch": 35.47014925373134,
      "grad_norm": 0.0,
      "learning_rate": 4.0929577475819853e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4718
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.83333206176758,
      "epoch": 35.47761194029851,
      "grad_norm": 0.0,
      "learning_rate": 4.092455773015839e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4719
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.66666793823242,
      "epoch": 35.485074626865675,
      "grad_norm": 13.431158611174581,
      "learning_rate": 4.091953690387815e-07,
      "loss": -0.0038,
      "reward": 1.9166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 4720
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.61111068725586,
      "epoch": 35.492537313432834,
      "grad_norm": 0.0,
      "learning_rate": 4.0914514997319836e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4721
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.30555725097656,
      "epoch": 35.5,
      "grad_norm": 0.0,
      "learning_rate": 4.090949201082425e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4722
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.86111068725586,
      "epoch": 35.507462686567166,
      "grad_norm": 0.0,
      "learning_rate": 4.0904467944732233e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4723
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.52777862548828,
      "epoch": 35.514925373134325,
      "grad_norm": 0.0,
      "learning_rate": 4.089944279938471e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4724
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.27777862548828,
      "epoch": 35.52238805970149,
      "grad_norm": 0.0,
      "learning_rate": 4.0894416575122677e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4725
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.3888931274414,
      "epoch": 35.52985074626866,
      "grad_norm": 0.0,
      "learning_rate": 4.088938927228721e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 4726
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.27777862548828,
      "epoch": 35.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 4.088436089121947e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4727
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.47222137451172,
      "epoch": 35.54477611940298,
      "grad_norm": 0.0,
      "learning_rate": 4.087933143226064e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4728
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.41666793823242,
      "epoch": 35.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 4.0874300895752056e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4729
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.80555725097656,
      "epoch": 35.559701492537314,
      "grad_norm": 0.0,
      "learning_rate": 4.086926928203505e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4730
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.86111068725586,
      "epoch": 35.56716417910448,
      "grad_norm": 0.0,
      "learning_rate": 4.086423659145108e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4731
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.33333206176758,
      "epoch": 35.57462686567164,
      "grad_norm": 0.0,
      "learning_rate": 4.0859202824341644e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4732
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.47222137451172,
      "epoch": 35.582089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.0854167981048335e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4733
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.5,
      "epoch": 35.58955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.0849132061912804e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4734
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.25,
      "epoch": 35.59701492537313,
      "grad_norm": 0.0,
      "learning_rate": 4.0844095067276796e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4735
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.75,
      "epoch": 35.6044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.0839056997482096e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4736
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.16666793823242,
      "epoch": 35.61194029850746,
      "grad_norm": 0.0,
      "learning_rate": 4.0834017852870587e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4737
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.0,
      "epoch": 35.61940298507463,
      "grad_norm": 0.0,
      "learning_rate": 4.082897763378422e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4738
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.27777862548828,
      "epoch": 35.62686567164179,
      "grad_norm": 0.0,
      "learning_rate": 4.0823936340565035e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4739
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.91666793823242,
      "epoch": 35.634328358208954,
      "grad_norm": 0.0,
      "learning_rate": 4.081889397355509e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4740
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.11111450195312,
      "epoch": 35.64179104477612,
      "grad_norm": 0.0,
      "learning_rate": 4.081385053309658e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4741
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.80555725097656,
      "epoch": 35.649253731343286,
      "grad_norm": 0.0,
      "learning_rate": 4.080880601953174e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4742
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.86111068725586,
      "epoch": 35.656716417910445,
      "grad_norm": 0.0,
      "learning_rate": 4.0803760433202885e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 4743
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.08333587646484,
      "epoch": 35.66417910447761,
      "grad_norm": 0.0,
      "learning_rate": 4.07987137744524e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4744
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.91666412353516,
      "epoch": 35.67164179104478,
      "grad_norm": 0.0,
      "learning_rate": 4.079366604362273e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4745
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.86111068725586,
      "epoch": 35.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.078861724105644e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4746
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.86111068725586,
      "epoch": 35.6865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.0783567367096106e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4747
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.72222137451172,
      "epoch": 35.69402985074627,
      "grad_norm": 0.0,
      "learning_rate": 4.077851642208442e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4748
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.0,
      "epoch": 35.701492537313435,
      "grad_norm": 0.0,
      "learning_rate": 4.077346440636412e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4749
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.27777862548828,
      "epoch": 35.708955223880594,
      "grad_norm": 0.0,
      "learning_rate": 4.076841132027805e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4750
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.08333206176758,
      "epoch": 35.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 4.0763357164169076e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4751
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.25,
      "epoch": 35.723880597014926,
      "grad_norm": 0.0,
      "learning_rate": 4.075830193838019e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4752
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.94444274902344,
      "epoch": 35.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.075324564325443e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4753
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.72222137451172,
      "epoch": 35.73880597014925,
      "grad_norm": 0.0,
      "learning_rate": 4.07481882791349e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4754
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.41666412353516,
      "epoch": 35.74626865671642,
      "grad_norm": 0.0,
      "learning_rate": 4.074312984636479e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4755
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.55555725097656,
      "epoch": 35.75373134328358,
      "grad_norm": 0.0,
      "learning_rate": 4.0738070345287357e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4756
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.8888931274414,
      "epoch": 35.76119402985075,
      "grad_norm": 0.0,
      "learning_rate": 4.0733009776245937e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4757
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.47222137451172,
      "epoch": 35.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.0727948139583925e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4758
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.94444274902344,
      "epoch": 35.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 4.0722885435644803e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4759
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.9444465637207,
      "epoch": 35.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 4.0717821664772124e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 4760
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.97222137451172,
      "epoch": 35.791044776119406,
      "grad_norm": 0.0,
      "learning_rate": 4.071275682730949e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4761
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.94444274902344,
      "epoch": 35.798507462686565,
      "grad_norm": 0.0,
      "learning_rate": 4.070769092360061e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4762
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.5,
      "epoch": 35.80597014925373,
      "grad_norm": 0.0,
      "learning_rate": 4.070262395398926e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4763
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.80555725097656,
      "epoch": 35.8134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.069755591881925e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4764
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.27777862548828,
      "epoch": 35.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.06924868184345e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4765
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.27777862548828,
      "epoch": 35.82835820895522,
      "grad_norm": 0.0,
      "learning_rate": 4.0687416653179006e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4766
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.11111068725586,
      "epoch": 35.83582089552239,
      "grad_norm": 0.0,
      "learning_rate": 4.0682345423396804e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4767
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.08333206176758,
      "epoch": 35.843283582089555,
      "grad_norm": 0.0,
      "learning_rate": 4.0677273129432033e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4768
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.1944465637207,
      "epoch": 35.850746268656714,
      "grad_norm": 0.0,
      "learning_rate": 4.067219977162888e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4769
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.02777862548828,
      "epoch": 35.85820895522388,
      "grad_norm": 0.0,
      "learning_rate": 4.066712535033163e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4770
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.55555725097656,
      "epoch": 35.865671641791046,
      "grad_norm": 0.0,
      "learning_rate": 4.066204986588462e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4771
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.16666793823242,
      "epoch": 35.87313432835821,
      "grad_norm": 0.0,
      "learning_rate": 4.065697331863226e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4772
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 72.30555725097656,
      "epoch": 35.88059701492537,
      "grad_norm": 0.0,
      "learning_rate": 4.0651895708919055e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4773
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.97222137451172,
      "epoch": 35.88805970149254,
      "grad_norm": 0.0,
      "learning_rate": 4.0646817037089544e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4774
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.91666412353516,
      "epoch": 35.8955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.064173730348837e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4775
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.30555725097656,
      "epoch": 35.90298507462687,
      "grad_norm": 0.0,
      "learning_rate": 4.0636656508460227e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4776
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.52777862548828,
      "epoch": 35.91044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.063157465234991e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4777
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.61111068725586,
      "epoch": 35.917910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.0626491735502246e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4778
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.05555725097656,
      "epoch": 35.92537313432836,
      "grad_norm": 0.0,
      "learning_rate": 4.062140775826216e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4779
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.80555725097656,
      "epoch": 35.93283582089552,
      "grad_norm": 0.0,
      "learning_rate": 4.061632272097466e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4780
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.61111450195312,
      "epoch": 35.940298507462686,
      "grad_norm": 0.0,
      "learning_rate": 4.061123662398479e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4781
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.22222137451172,
      "epoch": 35.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 4.060614946763769e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4782
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.47222137451172,
      "epoch": 35.95522388059702,
      "grad_norm": 0.0,
      "learning_rate": 4.0601061252278573e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4783
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.97222137451172,
      "epoch": 35.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 4.059597197825272e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4784
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.83333206176758,
      "epoch": 35.97014925373134,
      "grad_norm": 0.0,
      "learning_rate": 4.059088164590547e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4785
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.86111068725586,
      "epoch": 35.97761194029851,
      "grad_norm": 0.0,
      "learning_rate": 4.058579025558226e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4786
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.44444274902344,
      "epoch": 35.985074626865675,
      "grad_norm": 0.0,
      "learning_rate": 4.058069780762858e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4787
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.91666793823242,
      "epoch": 35.992537313432834,
      "grad_norm": 0.0,
      "learning_rate": 4.057560430238999e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4788
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.36111450195312,
      "epoch": 36.007462686567166,
      "grad_norm": 0.0,
      "learning_rate": 4.057050974021213e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4789
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.0,
      "epoch": 36.014925373134325,
      "grad_norm": 0.0,
      "learning_rate": 4.056541412144072e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4790
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.61111068725586,
      "epoch": 36.02238805970149,
      "grad_norm": 0.0,
      "learning_rate": 4.056031744642153e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4791
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.02777862548828,
      "epoch": 36.02985074626866,
      "grad_norm": 0.0,
      "learning_rate": 4.055521971550043e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4792
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.63888931274414,
      "epoch": 36.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 4.0550120929023326e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4793
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.02777862548828,
      "epoch": 36.04477611940298,
      "grad_norm": 0.0,
      "learning_rate": 4.054502108733622e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4794
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.72222137451172,
      "epoch": 36.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 4.0539920190785195e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4795
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.36111068725586,
      "epoch": 36.059701492537314,
      "grad_norm": 0.0,
      "learning_rate": 4.053481823971636e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4796
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.25,
      "epoch": 36.06716417910448,
      "grad_norm": 0.0,
      "learning_rate": 4.0529715234475956e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4797
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.33333587646484,
      "epoch": 36.07462686567164,
      "grad_norm": 0.0,
      "learning_rate": 4.052461117541025e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4798
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.25,
      "epoch": 36.082089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.05195060628656e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4799
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.47222137451172,
      "epoch": 36.08955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.051439989718844e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4800
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.0,
      "epoch": 36.09701492537314,
      "grad_norm": 0.0,
      "learning_rate": 4.050929267872527e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4801
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 71.3888931274414,
      "epoch": 36.1044776119403,
      "grad_norm": 10.047956277871688,
      "learning_rate": 4.050418440782264e-07,
      "loss": -0.0106,
      "reward": 1.9444444179534912,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.944444477558136,
      "rewards/format_reward": 1.0,
      "step": 4802
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.9444465637207,
      "epoch": 36.11194029850746,
      "grad_norm": 8.117041096855178,
      "learning_rate": 4.0499075084827194e-07,
      "loss": -0.0131,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 4803
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.69444274902344,
      "epoch": 36.11940298507463,
      "grad_norm": 0.0,
      "learning_rate": 4.049396471008566e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4804
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.25,
      "epoch": 36.12686567164179,
      "grad_norm": 0.0,
      "learning_rate": 4.04888532839448e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4805
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.02777862548828,
      "epoch": 36.134328358208954,
      "grad_norm": 0.0,
      "learning_rate": 4.0483740806751486e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4806
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.4444465637207,
      "epoch": 36.14179104477612,
      "grad_norm": 0.0,
      "learning_rate": 4.047862727885264e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 4807
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.02777862548828,
      "epoch": 36.149253731343286,
      "grad_norm": 0.0,
      "learning_rate": 4.047351270059525e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4808
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.66666412353516,
      "epoch": 36.156716417910445,
      "grad_norm": 0.0,
      "learning_rate": 4.0468397072326396e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4809
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.0,
      "epoch": 36.16417910447761,
      "grad_norm": 0.0,
      "learning_rate": 4.046328039439321e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4810
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.86111450195312,
      "epoch": 36.17164179104478,
      "grad_norm": 0.0,
      "learning_rate": 4.0458162667142905e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4811
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.08333587646484,
      "epoch": 36.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.0453043890922754e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4812
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.41666793823242,
      "epoch": 36.1865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.044792406608013e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4813
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.0,
      "epoch": 36.19402985074627,
      "grad_norm": 0.0,
      "learning_rate": 4.0442803192962436e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4814
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.77777862548828,
      "epoch": 36.201492537313435,
      "grad_norm": 0.0,
      "learning_rate": 4.043768127191719e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4815
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.66666412353516,
      "epoch": 36.208955223880594,
      "grad_norm": 0.0,
      "learning_rate": 4.0432558303291934e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4816
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.36111068725586,
      "epoch": 36.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 4.0427434287434323e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4817
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.05555725097656,
      "epoch": 36.223880597014926,
      "grad_norm": 0.0,
      "learning_rate": 4.042230922469207e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4818
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.47222137451172,
      "epoch": 36.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.041718311541293e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4819
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.27777862548828,
      "epoch": 36.23880597014925,
      "grad_norm": 0.0,
      "learning_rate": 4.041205595994478e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4820
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.44444274902344,
      "epoch": 36.24626865671642,
      "grad_norm": 0.0,
      "learning_rate": 4.040692775863553e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4821
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.16666793823242,
      "epoch": 36.25373134328358,
      "grad_norm": 0.0,
      "learning_rate": 4.040179851183317e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4822
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.0,
      "epoch": 36.26119402985075,
      "grad_norm": 0.0,
      "learning_rate": 4.039666821988577e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4823
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.27777862548828,
      "epoch": 36.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.039153688314145e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4824
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.25,
      "epoch": 36.276119402985074,
      "grad_norm": 0.0,
      "learning_rate": 4.0386404501948443e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4825
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.33333587646484,
      "epoch": 36.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 4.0381271076655004e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4826
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.80555725097656,
      "epoch": 36.291044776119406,
      "grad_norm": 0.0,
      "learning_rate": 4.037613660760949e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4827
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.9444465637207,
      "epoch": 36.298507462686565,
      "grad_norm": 0.0,
      "learning_rate": 4.037100109516031e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4828
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.30555725097656,
      "epoch": 36.30597014925373,
      "grad_norm": 0.0,
      "learning_rate": 4.036586453965596e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4829
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.11111450195312,
      "epoch": 36.3134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.0360726941445e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4830
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.19444274902344,
      "epoch": 36.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.0355588300876053e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4831
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.0,
      "epoch": 36.32835820895522,
      "grad_norm": 0.0,
      "learning_rate": 4.035044861829783e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4832
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.3888931274414,
      "epoch": 36.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 4.03453078940591e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4833
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.83333206176758,
      "epoch": 36.343283582089555,
      "grad_norm": 0.0,
      "learning_rate": 4.0340166128508695e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4834
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.41666793823242,
      "epoch": 36.350746268656714,
      "grad_norm": 0.0,
      "learning_rate": 4.033502332199554e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 4835
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.1944465637207,
      "epoch": 36.35820895522388,
      "grad_norm": 0.0,
      "learning_rate": 4.032987947486862e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4836
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.08333587646484,
      "epoch": 36.365671641791046,
      "grad_norm": 0.0,
      "learning_rate": 4.0324734587476985e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4837
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.61111450195312,
      "epoch": 36.37313432835821,
      "grad_norm": 0.0,
      "learning_rate": 4.0319588660169755e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4838
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.30555725097656,
      "epoch": 36.38059701492537,
      "grad_norm": 0.0,
      "learning_rate": 4.0314441693296134e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4839
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.58333587646484,
      "epoch": 36.38805970149254,
      "grad_norm": 0.0,
      "learning_rate": 4.030929368720539e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4840
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.77777862548828,
      "epoch": 36.3955223880597,
      "grad_norm": 0.0,
      "learning_rate": 4.030414464224685e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4841
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.3888931274414,
      "epoch": 36.40298507462686,
      "grad_norm": 0.0,
      "learning_rate": 4.029899455876992e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4842
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.02777862548828,
      "epoch": 36.41044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.029384343712409e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4843
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.91666412353516,
      "epoch": 36.417910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.0288691277658903e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4844
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.77777862548828,
      "epoch": 36.42537313432836,
      "grad_norm": 0.0,
      "learning_rate": 4.0283538080723976e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4845
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.75,
      "epoch": 36.43283582089552,
      "grad_norm": 0.0,
      "learning_rate": 4.0278383846668996e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4846
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.77777862548828,
      "epoch": 36.440298507462686,
      "grad_norm": 0.0,
      "learning_rate": 4.027322857584372e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4847
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.66666412353516,
      "epoch": 36.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 4.026807226859799e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4848
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.80555725097656,
      "epoch": 36.45522388059702,
      "grad_norm": 0.0,
      "learning_rate": 4.0262914925281687e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 4849
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.75,
      "epoch": 36.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 4.02577565462448e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4850
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.41666412353516,
      "epoch": 36.47014925373134,
      "grad_norm": 0.0,
      "learning_rate": 4.0252597131837363e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4851
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.16666412353516,
      "epoch": 36.47761194029851,
      "grad_norm": 0.0,
      "learning_rate": 4.0247436682409486e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4852
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.97222137451172,
      "epoch": 36.485074626865675,
      "grad_norm": 0.0,
      "learning_rate": 4.0242275198311345e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4853
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 73.72222137451172,
      "epoch": 36.492537313432834,
      "grad_norm": 0.0,
      "learning_rate": 4.0237112679893194e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4854
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.33333587646484,
      "epoch": 36.5,
      "grad_norm": 0.0,
      "learning_rate": 4.023194912750536e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 4855
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.11111068725586,
      "epoch": 36.507462686567166,
      "grad_norm": 0.0,
      "learning_rate": 4.0226784541498233e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4856
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.86111450195312,
      "epoch": 36.514925373134325,
      "grad_norm": 0.0,
      "learning_rate": 4.0221618922222264e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4857
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.25,
      "epoch": 36.52238805970149,
      "grad_norm": 0.0,
      "learning_rate": 4.021645227002801e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4858
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.5,
      "epoch": 36.52985074626866,
      "grad_norm": 0.0,
      "learning_rate": 4.0211284585266046e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4859
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.25,
      "epoch": 36.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 4.020611586828705e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4860
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.75,
      "epoch": 36.54477611940298,
      "grad_norm": 0.0,
      "learning_rate": 4.0200946119441777e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4861
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.80555725097656,
      "epoch": 36.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 4.019577533908103e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4862
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.36111450195312,
      "epoch": 36.559701492537314,
      "grad_norm": 0.0,
      "learning_rate": 4.019060352755569e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4863
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.88888931274414,
      "epoch": 36.56716417910448,
      "grad_norm": 0.0,
      "learning_rate": 4.018543068521671e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4864
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.11111450195312,
      "epoch": 36.57462686567164,
      "grad_norm": 0.0,
      "learning_rate": 4.0180256812415116e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4865
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.97222137451172,
      "epoch": 36.582089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.0175081909501996e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4866
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.58333587646484,
      "epoch": 36.58955223880597,
      "grad_norm": 16.99667657238444,
      "learning_rate": 4.016990597682851e-07,
      "loss": -0.0174,
      "reward": 1.9166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 4867
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.08333587646484,
      "epoch": 36.59701492537313,
      "grad_norm": 0.0,
      "learning_rate": 4.016472901474589e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4868
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.86111450195312,
      "epoch": 36.6044776119403,
      "grad_norm": 0.0,
      "learning_rate": 4.015955102360545e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 4869
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.30555725097656,
      "epoch": 36.61194029850746,
      "grad_norm": 0.0,
      "learning_rate": 4.015437200375854e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4870
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.08333587646484,
      "epoch": 36.61940298507463,
      "grad_norm": 0.0,
      "learning_rate": 4.014919195555662e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4871
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.77777862548828,
      "epoch": 36.62686567164179,
      "grad_norm": 0.0,
      "learning_rate": 4.01440108793512e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4872
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.3888931274414,
      "epoch": 36.634328358208954,
      "grad_norm": 0.0,
      "learning_rate": 4.013882877549385e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4873
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.72222137451172,
      "epoch": 36.64179104477612,
      "grad_norm": 0.0,
      "learning_rate": 4.0133645644336217e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4874
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.44444274902344,
      "epoch": 36.649253731343286,
      "grad_norm": 0.0,
      "learning_rate": 4.0128461486230036e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4875
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.97222137451172,
      "epoch": 36.656716417910445,
      "grad_norm": 0.0,
      "learning_rate": 4.0123276301527086e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4876
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.91666793823242,
      "epoch": 36.66417910447761,
      "grad_norm": 0.0,
      "learning_rate": 4.011809009057924e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4877
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.25,
      "epoch": 36.67164179104478,
      "grad_norm": 0.0,
      "learning_rate": 4.011290285373841e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4878
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.77777862548828,
      "epoch": 36.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 4.01077145913566e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4879
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.80555725097656,
      "epoch": 36.6865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.010252530378589e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4880
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.58333587646484,
      "epoch": 36.69402985074627,
      "grad_norm": 0.0,
      "learning_rate": 4.00973349913784e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4881
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.66666412353516,
      "epoch": 36.701492537313435,
      "grad_norm": 0.0,
      "learning_rate": 4.0092143654486357e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4882
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.77777862548828,
      "epoch": 36.708955223880594,
      "grad_norm": 0.0,
      "learning_rate": 4.008695129346202e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4883
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.44444274902344,
      "epoch": 36.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 4.008175790865774e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4884
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.6388931274414,
      "epoch": 36.723880597014926,
      "grad_norm": 0.0,
      "learning_rate": 4.0076563500425947e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4885
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.4444465637207,
      "epoch": 36.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.0071368069119117e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4886
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.25,
      "epoch": 36.73880597014925,
      "grad_norm": 0.0,
      "learning_rate": 4.0066171615089793e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4887
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.66666412353516,
      "epoch": 36.74626865671642,
      "grad_norm": 0.0,
      "learning_rate": 4.006097413869061e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4888
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.6944465637207,
      "epoch": 36.75373134328358,
      "grad_norm": 0.0,
      "learning_rate": 4.005577564027427e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4889
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.6388931274414,
      "epoch": 36.76119402985075,
      "grad_norm": 0.0,
      "learning_rate": 4.0050576120193525e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4890
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 73.16666412353516,
      "epoch": 36.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 4.004537557880121e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4891
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.38888931274414,
      "epoch": 36.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 4.004017401645022e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4892
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.61111450195312,
      "epoch": 36.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 4.003497143349354e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4893
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.11111450195312,
      "epoch": 36.791044776119406,
      "grad_norm": 0.0,
      "learning_rate": 4.00297678302842e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4894
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.1388931274414,
      "epoch": 36.798507462686565,
      "grad_norm": 0.0,
      "learning_rate": 4.002456320717531e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4895
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.69444274902344,
      "epoch": 36.80597014925373,
      "grad_norm": 0.0,
      "learning_rate": 4.001935756452005e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4896
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.13888931274414,
      "epoch": 36.8134328358209,
      "grad_norm": 0.0,
      "learning_rate": 4.0014150902671675e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4897
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.55555725097656,
      "epoch": 36.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 4.0008943221983494e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4898
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.86111068725586,
      "epoch": 36.82835820895522,
      "grad_norm": 0.0,
      "learning_rate": 4.000373452280889e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4899
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 72.30555725097656,
      "epoch": 36.83582089552239,
      "grad_norm": 0.0,
      "learning_rate": 3.9998524805501325e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4900
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.27777862548828,
      "epoch": 36.843283582089555,
      "grad_norm": 0.0,
      "learning_rate": 3.9993314070414316e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4901
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.05555725097656,
      "epoch": 36.850746268656714,
      "grad_norm": 0.0,
      "learning_rate": 3.998810231790147e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4902
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.61111450195312,
      "epoch": 36.85820895522388,
      "grad_norm": 0.0,
      "learning_rate": 3.998288954831644e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4903
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.25,
      "epoch": 36.865671641791046,
      "grad_norm": 0.0,
      "learning_rate": 3.9977675762012954e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4904
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 72.52777862548828,
      "epoch": 36.87313432835821,
      "grad_norm": 0.0,
      "learning_rate": 3.9972460959344825e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4905
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 73.05555725097656,
      "epoch": 36.88059701492537,
      "grad_norm": 0.0,
      "learning_rate": 3.9967245140665906e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4906
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.66666412353516,
      "epoch": 36.88805970149254,
      "grad_norm": 0.0,
      "learning_rate": 3.996202830633014e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4907
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.02777862548828,
      "epoch": 36.8955223880597,
      "grad_norm": 0.0,
      "learning_rate": 3.995681045669155e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4908
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.19444274902344,
      "epoch": 36.90298507462687,
      "grad_norm": 0.0,
      "learning_rate": 3.995159159210419e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4909
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.3888931274414,
      "epoch": 36.91044776119403,
      "grad_norm": 0.0,
      "learning_rate": 3.994637171292222e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4910
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.94444274902344,
      "epoch": 36.917910447761194,
      "grad_norm": 0.0,
      "learning_rate": 3.994115081949985e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 4911
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.77777862548828,
      "epoch": 36.92537313432836,
      "grad_norm": 0.0,
      "learning_rate": 3.993592891219135e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4912
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.36111068725586,
      "epoch": 36.93283582089552,
      "grad_norm": 0.0,
      "learning_rate": 3.9930705991351097e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4913
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.61111068725586,
      "epoch": 36.940298507462686,
      "grad_norm": 0.0,
      "learning_rate": 3.9925482057333494e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4914
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.69444274902344,
      "epoch": 36.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 3.9920257110493027e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4915
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.3888931274414,
      "epoch": 36.95522388059702,
      "grad_norm": 0.0,
      "learning_rate": 3.991503115118426e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4916
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.27777862548828,
      "epoch": 36.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 3.990980417976184e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4917
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.5,
      "epoch": 36.97014925373134,
      "grad_norm": 0.0,
      "learning_rate": 3.990457619658042e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4918
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.16666412353516,
      "epoch": 36.97761194029851,
      "grad_norm": 0.0,
      "learning_rate": 3.9899347201994794e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4919
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.52777862548828,
      "epoch": 36.985074626865675,
      "grad_norm": 0.0,
      "learning_rate": 3.989411719635978e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4920
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.0,
      "epoch": 36.992537313432834,
      "grad_norm": 0.0,
      "learning_rate": 3.988888618003029e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4921
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.72222137451172,
      "epoch": 37.007462686567166,
      "grad_norm": 0.0,
      "learning_rate": 3.988365415336129e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4922
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.94444274902344,
      "epoch": 37.014925373134325,
      "grad_norm": 0.0,
      "learning_rate": 3.9878421116707815e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4923
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.44444274902344,
      "epoch": 37.02238805970149,
      "grad_norm": 0.0,
      "learning_rate": 3.9873187070424975e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4924
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.27777862548828,
      "epoch": 37.02985074626866,
      "grad_norm": 0.0,
      "learning_rate": 3.9867952014867945e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4925
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.8888931274414,
      "epoch": 37.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 3.986271595039196e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4926
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.77777862548828,
      "epoch": 37.04477611940298,
      "grad_norm": 0.0,
      "learning_rate": 3.9857478877352346e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4927
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.19444274902344,
      "epoch": 37.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 3.9852240796104474e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4928
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.02777862548828,
      "epoch": 37.059701492537314,
      "grad_norm": 0.0,
      "learning_rate": 3.9847001707003803e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4929
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.8888931274414,
      "epoch": 37.06716417910448,
      "grad_norm": 0.0,
      "learning_rate": 3.9841761610405845e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4930
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.97222137451172,
      "epoch": 37.07462686567164,
      "grad_norm": 0.0,
      "learning_rate": 3.983652050666617e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4931
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.33333206176758,
      "epoch": 37.082089552238806,
      "grad_norm": 0.0,
      "learning_rate": 3.983127839614046e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4932
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 71.1388931274414,
      "epoch": 37.08955223880597,
      "grad_norm": 0.0,
      "learning_rate": 3.982603527918442e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4933
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.41666412353516,
      "epoch": 37.09701492537314,
      "grad_norm": 0.0,
      "learning_rate": 3.9820791156153854e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4934
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.72222137451172,
      "epoch": 37.1044776119403,
      "grad_norm": 0.0,
      "learning_rate": 3.9815546027404603e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4935
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.25,
      "epoch": 37.11194029850746,
      "grad_norm": 0.0,
      "learning_rate": 3.9810299893292597e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4936
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.66666412353516,
      "epoch": 37.11940298507463,
      "grad_norm": 0.0,
      "learning_rate": 3.980505275417385e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4937
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.33333587646484,
      "epoch": 37.12686567164179,
      "grad_norm": 0.0,
      "learning_rate": 3.9799804610404407e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4938
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.72222137451172,
      "epoch": 37.134328358208954,
      "grad_norm": 0.0,
      "learning_rate": 3.9794555462340413e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4939
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.72222137451172,
      "epoch": 37.14179104477612,
      "grad_norm": 0.0,
      "learning_rate": 3.978930531033806e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4940
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.08333587646484,
      "epoch": 37.149253731343286,
      "grad_norm": 0.0,
      "learning_rate": 3.978405415475361e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4941
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.97222137451172,
      "epoch": 37.156716417910445,
      "grad_norm": 0.0,
      "learning_rate": 3.9778801995943414e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4942
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.30555725097656,
      "epoch": 37.16417910447761,
      "grad_norm": 0.0,
      "learning_rate": 3.977354883426387e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4943
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.1388931274414,
      "epoch": 37.17164179104478,
      "grad_norm": 0.0,
      "learning_rate": 3.976829467007145e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4944
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.69444274902344,
      "epoch": 37.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 3.9763039503722694e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4945
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.1388931274414,
      "epoch": 37.1865671641791,
      "grad_norm": 0.0,
      "learning_rate": 3.97577833355742e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4946
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.36111450195312,
      "epoch": 37.19402985074627,
      "grad_norm": 0.0,
      "learning_rate": 3.975252616598267e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4947
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.11111450195312,
      "epoch": 37.201492537313435,
      "grad_norm": 0.0,
      "learning_rate": 3.9747267995304823e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4948
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.5,
      "epoch": 37.208955223880594,
      "grad_norm": 0.0,
      "learning_rate": 3.9742008823897486e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4949
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 71.75,
      "epoch": 37.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 3.9736748652117535e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4950
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.11111450195312,
      "epoch": 37.223880597014926,
      "grad_norm": 0.0,
      "learning_rate": 3.973148748032192e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4951
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.80555725097656,
      "epoch": 37.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 3.972622530886765e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4952
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.30555725097656,
      "epoch": 37.23880597014925,
      "grad_norm": 0.0,
      "learning_rate": 3.9720962138111813e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4953
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.6944465637207,
      "epoch": 37.24626865671642,
      "grad_norm": 0.0,
      "learning_rate": 3.971569796841157e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4954
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.6944465637207,
      "epoch": 37.25373134328358,
      "grad_norm": 0.0,
      "learning_rate": 3.971043280012413e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4955
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.30555725097656,
      "epoch": 37.26119402985075,
      "grad_norm": 0.0,
      "learning_rate": 3.9705166633606766e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4956
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.47222137451172,
      "epoch": 37.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 3.9699899469216867e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4957
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.52777862548828,
      "epoch": 37.276119402985074,
      "grad_norm": 0.0,
      "learning_rate": 3.9694631307311825e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4958
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.69444274902344,
      "epoch": 37.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 3.968936214824915e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4959
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.72222137451172,
      "epoch": 37.291044776119406,
      "grad_norm": 0.0,
      "learning_rate": 3.9684091992386386e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4960
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.16666412353516,
      "epoch": 37.298507462686565,
      "grad_norm": 0.0,
      "learning_rate": 3.967882084008117e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4961
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.25,
      "epoch": 37.30597014925373,
      "grad_norm": 0.0,
      "learning_rate": 3.967354869169119e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4962
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.13888931274414,
      "epoch": 37.3134328358209,
      "grad_norm": 0.0,
      "learning_rate": 3.966827554757421e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4963
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.91666412353516,
      "epoch": 37.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 3.966300140808805e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4964
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.38888931274414,
      "epoch": 37.32835820895522,
      "grad_norm": 0.0,
      "learning_rate": 3.9657726273590613e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4965
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.33333206176758,
      "epoch": 37.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 3.965245014443986e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4966
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.47222137451172,
      "epoch": 37.343283582089555,
      "grad_norm": 0.0,
      "learning_rate": 3.9647173020993826e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4967
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.63888931274414,
      "epoch": 37.350746268656714,
      "grad_norm": 0.0,
      "learning_rate": 3.96418949036106e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4968
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.83333587646484,
      "epoch": 37.35820895522388,
      "grad_norm": 0.0,
      "learning_rate": 3.963661579264836e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4969
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.33333587646484,
      "epoch": 37.365671641791046,
      "grad_norm": 0.0,
      "learning_rate": 3.9631335688465326e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4970
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.9444465637207,
      "epoch": 37.37313432835821,
      "grad_norm": 0.0,
      "learning_rate": 3.9626054591419815e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4971
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.91666412353516,
      "epoch": 37.38059701492537,
      "grad_norm": 0.0,
      "learning_rate": 3.9620772501870183e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 4972
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.08333587646484,
      "epoch": 37.38805970149254,
      "grad_norm": 0.0,
      "learning_rate": 3.961548942017486e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4973
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.36111450195312,
      "epoch": 37.3955223880597,
      "grad_norm": 0.0,
      "learning_rate": 3.961020534669237e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4974
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.86111068725586,
      "epoch": 37.40298507462686,
      "grad_norm": 0.0,
      "learning_rate": 3.960492028178126e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4975
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.38888931274414,
      "epoch": 37.41044776119403,
      "grad_norm": 0.0,
      "learning_rate": 3.959963422580018e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4976
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.80555725097656,
      "epoch": 37.417910447761194,
      "grad_norm": 0.0,
      "learning_rate": 3.9594347179107835e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4977
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.44444274902344,
      "epoch": 37.42537313432836,
      "grad_norm": 0.0,
      "learning_rate": 3.9589059142062995e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4978
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 72.1388931274414,
      "epoch": 37.43283582089552,
      "grad_norm": 0.0,
      "learning_rate": 3.9583770115024496e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4979
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.02777862548828,
      "epoch": 37.440298507462686,
      "grad_norm": 0.0,
      "learning_rate": 3.957848009835124e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4980
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.3888931274414,
      "epoch": 37.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 3.9573189092402214e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4981
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.8888931274414,
      "epoch": 37.45522388059702,
      "grad_norm": 0.0,
      "learning_rate": 3.9567897097536445e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4982
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.19444274902344,
      "epoch": 37.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 3.9562604114113045e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4983
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 71.77777862548828,
      "epoch": 37.47014925373134,
      "grad_norm": 0.0,
      "learning_rate": 3.95573101424912e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4984
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.69444274902344,
      "epoch": 37.47761194029851,
      "grad_norm": 0.0,
      "learning_rate": 3.955201518303013e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 4985
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.66666412353516,
      "epoch": 37.485074626865675,
      "grad_norm": 0.0,
      "learning_rate": 3.9546719236089153e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4986
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.61111450195312,
      "epoch": 37.492537313432834,
      "grad_norm": 0.0,
      "learning_rate": 3.9541422302027663e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4987
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.88888931274414,
      "epoch": 37.5,
      "grad_norm": 0.0,
      "learning_rate": 3.953612438120507e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4988
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.16666412353516,
      "epoch": 37.507462686567166,
      "grad_norm": 0.0,
      "learning_rate": 3.953082547398091e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 4989
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.58333587646484,
      "epoch": 37.514925373134325,
      "grad_norm": 0.0,
      "learning_rate": 3.952552558071475e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4990
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.61111068725586,
      "epoch": 37.52238805970149,
      "grad_norm": 0.0,
      "learning_rate": 3.9520224701766227e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4991
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.97222137451172,
      "epoch": 37.52985074626866,
      "grad_norm": 0.0,
      "learning_rate": 3.9514922837495067e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4992
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.22222137451172,
      "epoch": 37.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 3.950961998826103e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 4993
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.83333587646484,
      "epoch": 37.54477611940298,
      "grad_norm": 0.0,
      "learning_rate": 3.950431615442397e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 4994
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.11111068725586,
      "epoch": 37.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 3.94990113363438e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 4995
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.30555725097656,
      "epoch": 37.559701492537314,
      "grad_norm": 0.0,
      "learning_rate": 3.9493705534380493e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4996
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.41666412353516,
      "epoch": 37.56716417910448,
      "grad_norm": 0.0,
      "learning_rate": 3.9488398748894094e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 4997
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 71.72222137451172,
      "epoch": 37.57462686567164,
      "grad_norm": 0.0,
      "learning_rate": 3.948309098024471e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 4998
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.0,
      "epoch": 37.582089552238806,
      "grad_norm": 0.0,
      "learning_rate": 3.9477782228792527e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 4999
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 71.41666412353516,
      "epoch": 37.58955223880597,
      "grad_norm": 0.0,
      "learning_rate": 3.947247249489779e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5000
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.47222137451172,
      "epoch": 37.59701492537313,
      "grad_norm": 0.0,
      "learning_rate": 3.94671617789208e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5001
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.83333587646484,
      "epoch": 37.6044776119403,
      "grad_norm": 0.0,
      "learning_rate": 3.946185008122194e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5002
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.72222137451172,
      "epoch": 37.61194029850746,
      "grad_norm": 0.0,
      "learning_rate": 3.945653740216166e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5003
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.75,
      "epoch": 37.61940298507463,
      "grad_norm": 0.0,
      "learning_rate": 3.945122374210047e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5004
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.66666412353516,
      "epoch": 37.62686567164179,
      "grad_norm": 0.0,
      "learning_rate": 3.944590910139894e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5005
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.75,
      "epoch": 37.634328358208954,
      "grad_norm": 0.0,
      "learning_rate": 3.944059348041773e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5006
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.5,
      "epoch": 37.64179104477612,
      "grad_norm": 230.93246506295745,
      "learning_rate": 3.943527687951753e-07,
      "loss": -0.0119,
      "reward": 1.9166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 5007
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.77777862548828,
      "epoch": 37.649253731343286,
      "grad_norm": 0.0,
      "learning_rate": 3.9429959299059125e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5008
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.22222137451172,
      "epoch": 37.656716417910445,
      "grad_norm": 0.0,
      "learning_rate": 3.9424640739403365e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5009
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.3888931274414,
      "epoch": 37.66417910447761,
      "grad_norm": 0.0,
      "learning_rate": 3.9419321200911155e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5010
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.94444274902344,
      "epoch": 37.67164179104478,
      "grad_norm": 0.0,
      "learning_rate": 3.941400068394347e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5011
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.4444465637207,
      "epoch": 37.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 3.9408679188861365e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 5012
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.22222137451172,
      "epoch": 37.6865671641791,
      "grad_norm": 0.0,
      "learning_rate": 3.940335671602594e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5013
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.86111450195312,
      "epoch": 37.69402985074627,
      "grad_norm": 0.0,
      "learning_rate": 3.939803326579836e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5014
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.11111068725586,
      "epoch": 37.701492537313435,
      "grad_norm": 0.0,
      "learning_rate": 3.939270883853989e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5015
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.22222137451172,
      "epoch": 37.708955223880594,
      "grad_norm": 0.0,
      "learning_rate": 3.938738343461182e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5016
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.38888931274414,
      "epoch": 37.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 3.938205705437553e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5017
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.0,
      "epoch": 37.723880597014926,
      "grad_norm": 0.0,
      "learning_rate": 3.937672969819246e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5018
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.36111450195312,
      "epoch": 37.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 3.937140136642413e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5019
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 72.11111450195312,
      "epoch": 37.73880597014925,
      "grad_norm": 0.0,
      "learning_rate": 3.936607205943209e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5020
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.8888931274414,
      "epoch": 37.74626865671642,
      "grad_norm": 0.0,
      "learning_rate": 3.9360741777578e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5021
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.8888931274414,
      "epoch": 37.75373134328358,
      "grad_norm": 0.0,
      "learning_rate": 3.9355410521223553e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5022
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.6388931274414,
      "epoch": 37.76119402985075,
      "grad_norm": 0.0,
      "learning_rate": 3.9350078290730527e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5023
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.25,
      "epoch": 37.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 3.9344745086460764e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5024
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 71.08333587646484,
      "epoch": 37.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 3.933941090877615e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5025
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.55555725097656,
      "epoch": 37.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 3.9334075758038676e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5026
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.0,
      "epoch": 37.791044776119406,
      "grad_norm": 0.0,
      "learning_rate": 3.932873963461036e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5027
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.47222137451172,
      "epoch": 37.798507462686565,
      "grad_norm": 0.0,
      "learning_rate": 3.932340253885333e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5028
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.3888931274414,
      "epoch": 37.80597014925373,
      "grad_norm": 0.0,
      "learning_rate": 3.931806447112973e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5029
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.58333587646484,
      "epoch": 37.8134328358209,
      "grad_norm": 0.0,
      "learning_rate": 3.9312725431801796e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5030
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.02777862548828,
      "epoch": 37.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 3.9307385421231835e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5031
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.0,
      "epoch": 37.82835820895522,
      "grad_norm": 0.0,
      "learning_rate": 3.9302044439782213e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5032
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.41666412353516,
      "epoch": 37.83582089552239,
      "grad_norm": 0.0,
      "learning_rate": 3.929670248781537e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5033
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 73.11111450195312,
      "epoch": 37.843283582089555,
      "grad_norm": 0.0,
      "learning_rate": 3.9291359565693785e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5034
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.55555725097656,
      "epoch": 37.850746268656714,
      "grad_norm": 0.0,
      "learning_rate": 3.928601567378003e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5035
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.41666412353516,
      "epoch": 37.85820895522388,
      "grad_norm": 0.0,
      "learning_rate": 3.928067081243672e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5036
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.25,
      "epoch": 37.865671641791046,
      "grad_norm": 0.0,
      "learning_rate": 3.927532498202658e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5037
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.94444274902344,
      "epoch": 37.87313432835821,
      "grad_norm": 0.0,
      "learning_rate": 3.9269978182912356e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5038
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.61111450195312,
      "epoch": 37.88059701492537,
      "grad_norm": 0.0,
      "learning_rate": 3.926463041545687e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5039
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.19444274902344,
      "epoch": 37.88805970149254,
      "grad_norm": 0.0,
      "learning_rate": 3.9259281680023014e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5040
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.36111450195312,
      "epoch": 37.8955223880597,
      "grad_norm": 0.0,
      "learning_rate": 3.9253931976973755e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5041
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.22222137451172,
      "epoch": 37.90298507462687,
      "grad_norm": 0.0,
      "learning_rate": 3.92485813066721e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5042
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.25,
      "epoch": 37.91044776119403,
      "grad_norm": 0.0,
      "learning_rate": 3.924322966948117e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5043
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.02777862548828,
      "epoch": 37.917910447761194,
      "grad_norm": 0.0,
      "learning_rate": 3.923787706576408e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5044
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.33333587646484,
      "epoch": 37.92537313432836,
      "grad_norm": 0.0,
      "learning_rate": 3.923252349588408e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5045
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.77777862548828,
      "epoch": 37.93283582089552,
      "grad_norm": 0.0,
      "learning_rate": 3.922716896020444e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5046
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.33333587646484,
      "epoch": 37.940298507462686,
      "grad_norm": 0.0,
      "learning_rate": 3.9221813459088516e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5047
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.6388931274414,
      "epoch": 37.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 3.9216456992899724e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5048
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.77777862548828,
      "epoch": 37.95522388059702,
      "grad_norm": 0.0,
      "learning_rate": 3.921109956200156e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5049
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.97222137451172,
      "epoch": 37.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 3.920574116675756e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5050
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.80555725097656,
      "epoch": 37.97014925373134,
      "grad_norm": 0.0,
      "learning_rate": 3.9200381807531324e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5051
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.4444465637207,
      "epoch": 37.97761194029851,
      "grad_norm": 0.0,
      "learning_rate": 3.9195021484686555e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5052
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.16666412353516,
      "epoch": 37.985074626865675,
      "grad_norm": 0.0,
      "learning_rate": 3.918966019858698e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5053
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.5,
      "epoch": 37.992537313432834,
      "grad_norm": 0.0,
      "learning_rate": 3.9184297949596415e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5054
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.30555725097656,
      "epoch": 38.007462686567166,
      "grad_norm": 0.0,
      "learning_rate": 3.9178934738078737e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5055
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.19444274902344,
      "epoch": 38.014925373134325,
      "grad_norm": 0.0,
      "learning_rate": 3.9173570564397895e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5056
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.91666412353516,
      "epoch": 38.02238805970149,
      "grad_norm": 0.0,
      "learning_rate": 3.9168205428917865e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5057
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.72222137451172,
      "epoch": 38.02985074626866,
      "grad_norm": 0.0,
      "learning_rate": 3.916283933200275e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5058
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.05555725097656,
      "epoch": 38.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 3.915747227401667e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5059
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.47222137451172,
      "epoch": 38.04477611940298,
      "grad_norm": 0.0,
      "learning_rate": 3.9152104255323827e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5060
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.16666412353516,
      "epoch": 38.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 3.914673527628849e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5061
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.69444274902344,
      "epoch": 38.059701492537314,
      "grad_norm": 0.0,
      "learning_rate": 3.914136533727499e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5062
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.30555725097656,
      "epoch": 38.06716417910448,
      "grad_norm": 0.0,
      "learning_rate": 3.9135994438647725e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5063
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.08333587646484,
      "epoch": 38.07462686567164,
      "grad_norm": 0.0,
      "learning_rate": 3.9130622580771155e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5064
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.8888931274414,
      "epoch": 38.082089552238806,
      "grad_norm": 0.0,
      "learning_rate": 3.9125249764009805e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5065
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.08333587646484,
      "epoch": 38.08955223880597,
      "grad_norm": 0.0,
      "learning_rate": 3.911987598872827e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5066
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.13888931274414,
      "epoch": 38.09701492537314,
      "grad_norm": 0.0,
      "learning_rate": 3.911450125529121e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5067
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 71.58333587646484,
      "epoch": 38.1044776119403,
      "grad_norm": 0.0,
      "learning_rate": 3.9109125564063345e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5068
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.02777862548828,
      "epoch": 38.11194029850746,
      "grad_norm": 0.0,
      "learning_rate": 3.9103748915409455e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5069
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.69444274902344,
      "epoch": 38.11940298507463,
      "grad_norm": 0.0,
      "learning_rate": 3.90983713096944e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5070
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.55555725097656,
      "epoch": 38.12686567164179,
      "grad_norm": 0.0,
      "learning_rate": 3.909299274728309e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5071
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.25,
      "epoch": 38.134328358208954,
      "grad_norm": 0.0,
      "learning_rate": 3.908761322854052e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5072
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.30555725097656,
      "epoch": 38.14179104477612,
      "grad_norm": 0.0,
      "learning_rate": 3.908223275383173e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5073
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.83333587646484,
      "epoch": 38.149253731343286,
      "grad_norm": 0.0,
      "learning_rate": 3.9076851323521825e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5074
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.97222137451172,
      "epoch": 38.156716417910445,
      "grad_norm": 0.0,
      "learning_rate": 3.907146893797598e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5075
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.69444274902344,
      "epoch": 38.16417910447761,
      "grad_norm": 0.0,
      "learning_rate": 3.9066085597559456e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5076
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.19444274902344,
      "epoch": 38.17164179104478,
      "grad_norm": 0.0,
      "learning_rate": 3.9060701302637543e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5077
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.11111450195312,
      "epoch": 38.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 3.9055316053575616e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5078
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.86111450195312,
      "epoch": 38.1865671641791,
      "grad_norm": 0.0,
      "learning_rate": 3.90499298507391e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5079
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 72.11111450195312,
      "epoch": 38.19402985074627,
      "grad_norm": 0.0,
      "learning_rate": 3.904454269449351e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5080
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.02777862548828,
      "epoch": 38.201492537313435,
      "grad_norm": 0.0,
      "learning_rate": 3.903915458520441e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5081
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.77777862548828,
      "epoch": 38.208955223880594,
      "grad_norm": 0.0,
      "learning_rate": 3.9033765523237423e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5082
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.16666412353516,
      "epoch": 38.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 3.9028375508958246e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5083
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.77777862548828,
      "epoch": 38.223880597014926,
      "grad_norm": 0.0,
      "learning_rate": 3.902298454273264e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5084
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.5,
      "epoch": 38.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 3.901759262492643e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5085
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.36111450195312,
      "epoch": 38.23880597014925,
      "grad_norm": 0.0,
      "learning_rate": 3.9012199755905497e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5086
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.27777862548828,
      "epoch": 38.24626865671642,
      "grad_norm": 0.0,
      "learning_rate": 3.90068059360358e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5087
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.88888931274414,
      "epoch": 38.25373134328358,
      "grad_norm": 0.0,
      "learning_rate": 3.900141116568335e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5088
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.02777862548828,
      "epoch": 38.26119402985075,
      "grad_norm": 0.0,
      "learning_rate": 3.8996015445214233e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5089
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.41666793823242,
      "epoch": 38.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 3.89906187749946e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5090
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.36111450195312,
      "epoch": 38.276119402985074,
      "grad_norm": 0.0,
      "learning_rate": 3.8985221155390654e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5091
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.36111450195312,
      "epoch": 38.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 3.8979822586768666e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5092
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.86111068725586,
      "epoch": 38.291044776119406,
      "grad_norm": 0.0,
      "learning_rate": 3.8974423069494986e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5093
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.83333587646484,
      "epoch": 38.298507462686565,
      "grad_norm": 0.0,
      "learning_rate": 3.896902260393603e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5094
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.25,
      "epoch": 38.30597014925373,
      "grad_norm": 0.0,
      "learning_rate": 3.8963621190458233e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5095
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.25,
      "epoch": 38.3134328358209,
      "grad_norm": 0.0,
      "learning_rate": 3.895821882942815e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5096
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.69444274902344,
      "epoch": 38.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 3.895281552121238e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5097
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.25,
      "epoch": 38.32835820895522,
      "grad_norm": 0.0,
      "learning_rate": 3.8947411266177566e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5098
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.47222137451172,
      "epoch": 38.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 3.894200606469045e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5099
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.05555725097656,
      "epoch": 38.343283582089555,
      "grad_norm": 0.0,
      "learning_rate": 3.8936599917117815e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 5100
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.3888931274414,
      "epoch": 38.350746268656714,
      "grad_norm": 0.0,
      "learning_rate": 3.893119282382652e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5101
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.75,
      "epoch": 38.35820895522388,
      "grad_norm": 0.0,
      "learning_rate": 3.892578478518347e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5102
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.61111450195312,
      "epoch": 38.365671641791046,
      "grad_norm": 0.0,
      "learning_rate": 3.892037580155566e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5103
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.33333587646484,
      "epoch": 38.37313432835821,
      "grad_norm": 0.0,
      "learning_rate": 3.8914965873310134e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5104
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.44444274902344,
      "epoch": 38.38059701492537,
      "grad_norm": 0.0,
      "learning_rate": 3.8909555000814e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5105
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.69444274902344,
      "epoch": 38.38805970149254,
      "grad_norm": 0.0,
      "learning_rate": 3.890414318443443e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5106
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.94444274902344,
      "epoch": 38.3955223880597,
      "grad_norm": 0.0,
      "learning_rate": 3.8898730424538667e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5107
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 71.22222137451172,
      "epoch": 38.40298507462686,
      "grad_norm": 0.0,
      "learning_rate": 3.889331672149402e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5108
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.22222137451172,
      "epoch": 38.41044776119403,
      "grad_norm": 0.0,
      "learning_rate": 3.888790207566783e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5109
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.0,
      "epoch": 38.417910447761194,
      "grad_norm": 0.0,
      "learning_rate": 3.8882486487427556e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5110
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.08333587646484,
      "epoch": 38.42537313432836,
      "grad_norm": 0.0,
      "learning_rate": 3.8877069957140684e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5111
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.41666412353516,
      "epoch": 38.43283582089552,
      "grad_norm": 0.0,
      "learning_rate": 3.887165248517477e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5112
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.25,
      "epoch": 38.440298507462686,
      "grad_norm": 0.0,
      "learning_rate": 3.886623407189743e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5113
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.80555725097656,
      "epoch": 38.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 3.886081471767636e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5114
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.02777862548828,
      "epoch": 38.45522388059702,
      "grad_norm": 0.0,
      "learning_rate": 3.8855394422879306e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5115
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.11111068725586,
      "epoch": 38.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 3.884997318787407e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5116
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.58333587646484,
      "epoch": 38.47014925373134,
      "grad_norm": 0.0,
      "learning_rate": 3.884455101302856e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5117
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.25,
      "epoch": 38.47761194029851,
      "grad_norm": 0.0,
      "learning_rate": 3.8839127898710687e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5118
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.80555725097656,
      "epoch": 38.485074626865675,
      "grad_norm": 0.0,
      "learning_rate": 3.883370384528848e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5119
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.75,
      "epoch": 38.492537313432834,
      "grad_norm": 0.0,
      "learning_rate": 3.882827885312998e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5120
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.5,
      "epoch": 38.5,
      "grad_norm": 0.0,
      "learning_rate": 3.882285292260335e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5121
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.1388931274414,
      "epoch": 38.507462686567166,
      "grad_norm": 0.0,
      "learning_rate": 3.8817426054076765e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5122
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.41666412353516,
      "epoch": 38.514925373134325,
      "grad_norm": 0.0,
      "learning_rate": 3.881199824791849e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5123
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.1388931274414,
      "epoch": 38.52238805970149,
      "grad_norm": 0.0,
      "learning_rate": 3.8806569504496856e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5124
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.83333587646484,
      "epoch": 38.52985074626866,
      "grad_norm": 0.0,
      "learning_rate": 3.880113982418024e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5125
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.19444274902344,
      "epoch": 38.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 3.87957092073371e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5126
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.1388931274414,
      "epoch": 38.54477611940298,
      "grad_norm": 0.0,
      "learning_rate": 3.879027765433594e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 5127
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.02777862548828,
      "epoch": 38.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 3.8784845165545354e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5128
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 71.69444274902344,
      "epoch": 38.559701492537314,
      "grad_norm": 0.0,
      "learning_rate": 3.8779411741333965e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5129
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.80555725097656,
      "epoch": 38.56716417910448,
      "grad_norm": 0.0,
      "learning_rate": 3.87739773820705e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5130
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 71.69444274902344,
      "epoch": 38.57462686567164,
      "grad_norm": 0.0,
      "learning_rate": 3.87685420881237e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5131
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.94444274902344,
      "epoch": 38.582089552238806,
      "grad_norm": 0.0,
      "learning_rate": 3.8763105859862424e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5132
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.69444274902344,
      "epoch": 38.58955223880597,
      "grad_norm": 0.0,
      "learning_rate": 3.8757668697655543e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5133
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.11111450195312,
      "epoch": 38.59701492537313,
      "grad_norm": 0.0,
      "learning_rate": 3.8752230601872035e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5134
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.61111450195312,
      "epoch": 38.6044776119403,
      "grad_norm": 0.0,
      "learning_rate": 3.874679157288091e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5135
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 71.22222137451172,
      "epoch": 38.61194029850746,
      "grad_norm": 0.0,
      "learning_rate": 3.8741351611051254e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5136
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.5,
      "epoch": 38.61940298507463,
      "grad_norm": 0.0,
      "learning_rate": 3.873591071675222e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5137
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.47222137451172,
      "epoch": 38.62686567164179,
      "grad_norm": 0.0,
      "learning_rate": 3.873046889035302e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5138
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.77777862548828,
      "epoch": 38.634328358208954,
      "grad_norm": 0.0,
      "learning_rate": 3.8725026132222914e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5139
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.47222137451172,
      "epoch": 38.64179104477612,
      "grad_norm": 0.0,
      "learning_rate": 3.871958244273127e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5140
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.72222137451172,
      "epoch": 38.649253731343286,
      "grad_norm": 0.0,
      "learning_rate": 3.871413782224746e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5141
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 71.47222137451172,
      "epoch": 38.656716417910445,
      "grad_norm": 0.0,
      "learning_rate": 3.8708692271140964e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5142
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.97222137451172,
      "epoch": 38.66417910447761,
      "grad_norm": 0.0,
      "learning_rate": 3.87032457897813e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5143
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.75,
      "epoch": 38.67164179104478,
      "grad_norm": 0.0,
      "learning_rate": 3.8697798378538073e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5144
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.44444274902344,
      "epoch": 38.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 3.869235003778093e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5145
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.91666412353516,
      "epoch": 38.6865671641791,
      "grad_norm": 0.0,
      "learning_rate": 3.8686900767879576e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5146
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.44444274902344,
      "epoch": 38.69402985074627,
      "grad_norm": 0.0,
      "learning_rate": 3.8681450569203803e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5147
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.58333587646484,
      "epoch": 38.701492537313435,
      "grad_norm": 0.0,
      "learning_rate": 3.8675999442123465e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5148
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.1388931274414,
      "epoch": 38.708955223880594,
      "grad_norm": 0.0,
      "learning_rate": 3.8670547387008446e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5149
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.91666793823242,
      "epoch": 38.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 3.8665094404228724e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5150
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.27777862548828,
      "epoch": 38.723880597014926,
      "grad_norm": 0.0,
      "learning_rate": 3.865964049415433e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5151
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.30555725097656,
      "epoch": 38.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 3.8654185657155367e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5152
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.30555725097656,
      "epoch": 38.73880597014925,
      "grad_norm": 0.0,
      "learning_rate": 3.8648729893601985e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5153
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.5,
      "epoch": 38.74626865671642,
      "grad_norm": 0.0,
      "learning_rate": 3.864327320386441e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5154
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.22222137451172,
      "epoch": 38.75373134328358,
      "grad_norm": 0.0,
      "learning_rate": 3.863781558831292e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5155
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.66666412353516,
      "epoch": 38.76119402985075,
      "grad_norm": 0.0,
      "learning_rate": 3.8632357047317856e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5156
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.33333587646484,
      "epoch": 38.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 3.862689758124964e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5157
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.97222137451172,
      "epoch": 38.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 3.8621437190478735e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5158
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.91666412353516,
      "epoch": 38.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 3.8615975875375676e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5159
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.22222137451172,
      "epoch": 38.791044776119406,
      "grad_norm": 0.0,
      "learning_rate": 3.861051363631107e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5160
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.66666412353516,
      "epoch": 38.798507462686565,
      "grad_norm": 0.0,
      "learning_rate": 3.860505047365556e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5161
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.1388931274414,
      "epoch": 38.80597014925373,
      "grad_norm": 0.0,
      "learning_rate": 3.8599586387779895e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5162
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.72222137451172,
      "epoch": 38.8134328358209,
      "grad_norm": 0.0,
      "learning_rate": 3.8594121379054827e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5163
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.94444274902344,
      "epoch": 38.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 3.858865544785123e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5164
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.05555725097656,
      "epoch": 38.82835820895522,
      "grad_norm": 0.0,
      "learning_rate": 3.8583188594540006e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5165
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.61111450195312,
      "epoch": 38.83582089552239,
      "grad_norm": 0.0,
      "learning_rate": 3.8577720819492133e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5166
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.80555725097656,
      "epoch": 38.843283582089555,
      "grad_norm": 0.0,
      "learning_rate": 3.857225212307863e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5167
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.61111450195312,
      "epoch": 38.850746268656714,
      "grad_norm": 0.0,
      "learning_rate": 3.8566782505670614e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5168
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.36111450195312,
      "epoch": 38.85820895522388,
      "grad_norm": 0.0,
      "learning_rate": 3.8561311967639245e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5169
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.86111450195312,
      "epoch": 38.865671641791046,
      "grad_norm": 0.0,
      "learning_rate": 3.855584050935573e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5170
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.3888931274414,
      "epoch": 38.87313432835821,
      "grad_norm": 0.0,
      "learning_rate": 3.855036813119137e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5171
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.83333587646484,
      "epoch": 38.88059701492537,
      "grad_norm": 0.0,
      "learning_rate": 3.854489483351751e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 5172
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.13888931274414,
      "epoch": 38.88805970149254,
      "grad_norm": 0.0,
      "learning_rate": 3.8539420616705554e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5173
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.41666793823242,
      "epoch": 38.8955223880597,
      "grad_norm": 0.0,
      "learning_rate": 3.8533945481126985e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5174
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.72222137451172,
      "epoch": 38.90298507462687,
      "grad_norm": 0.0,
      "learning_rate": 3.8528469427153325e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5175
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.83333587646484,
      "epoch": 38.91044776119403,
      "grad_norm": 0.0,
      "learning_rate": 3.8522992455156187e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5176
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.41666793823242,
      "epoch": 38.917910447761194,
      "grad_norm": 0.0,
      "learning_rate": 3.851751456550721e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5177
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.47222137451172,
      "epoch": 38.92537313432836,
      "grad_norm": 0.0,
      "learning_rate": 3.8512035758578143e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5178
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.36111450195312,
      "epoch": 38.93283582089552,
      "grad_norm": 0.0,
      "learning_rate": 3.850655603474076e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5179
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.11111450195312,
      "epoch": 38.940298507462686,
      "grad_norm": 0.0,
      "learning_rate": 3.850107539436689e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5180
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.3888931274414,
      "epoch": 38.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 3.8495593837828466e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5181
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.72222137451172,
      "epoch": 38.95522388059702,
      "grad_norm": 0.0,
      "learning_rate": 3.8490111365497445e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5182
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.16666793823242,
      "epoch": 38.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 3.848462797774586e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5183
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.3888931274414,
      "epoch": 38.97014925373134,
      "grad_norm": 0.0,
      "learning_rate": 3.8479143674945826e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5184
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 71.30555725097656,
      "epoch": 38.97761194029851,
      "grad_norm": 0.0,
      "learning_rate": 3.8473658457469464e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5185
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.72222137451172,
      "epoch": 38.985074626865675,
      "grad_norm": 0.0,
      "learning_rate": 3.846817232568903e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5186
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 73.66667175292969,
      "epoch": 38.992537313432834,
      "grad_norm": 0.0,
      "learning_rate": 3.846268527997678e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5187
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 71.83333587646484,
      "epoch": 39.007462686567166,
      "grad_norm": 0.0,
      "learning_rate": 3.845719732070507e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5188
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.75,
      "epoch": 39.014925373134325,
      "grad_norm": 0.0,
      "learning_rate": 3.8451708448246305e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 5189
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.1944465637207,
      "epoch": 39.02238805970149,
      "grad_norm": 0.0,
      "learning_rate": 3.844621866297295e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5190
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.80555725097656,
      "epoch": 39.02985074626866,
      "grad_norm": 0.0,
      "learning_rate": 3.8440727965257527e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5191
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.83333206176758,
      "epoch": 39.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 3.8435236355472634e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5192
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.0,
      "epoch": 39.04477611940298,
      "grad_norm": 0.0,
      "learning_rate": 3.8429743833990934e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5193
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.27777862548828,
      "epoch": 39.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 3.8424250401185124e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5194
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.4444465637207,
      "epoch": 39.059701492537314,
      "grad_norm": 0.0,
      "learning_rate": 3.841875605742799e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5195
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.75,
      "epoch": 39.06716417910448,
      "grad_norm": 0.0,
      "learning_rate": 3.8413260803092377e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5196
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.55555725097656,
      "epoch": 39.07462686567164,
      "grad_norm": 0.0,
      "learning_rate": 3.8407764638551177e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5197
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.33333587646484,
      "epoch": 39.082089552238806,
      "grad_norm": 0.0,
      "learning_rate": 3.840226756417735e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 5198
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.94444274902344,
      "epoch": 39.08955223880597,
      "grad_norm": 0.0,
      "learning_rate": 3.839676958034392e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5199
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.08333206176758,
      "epoch": 39.09701492537314,
      "grad_norm": 0.0,
      "learning_rate": 3.8391270687423983e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5200
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.77777862548828,
      "epoch": 39.1044776119403,
      "grad_norm": 0.0,
      "learning_rate": 3.8385770885790673e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5201
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.86111068725586,
      "epoch": 39.11194029850746,
      "grad_norm": 0.0,
      "learning_rate": 3.838027017581721e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5202
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.5,
      "epoch": 39.11940298507463,
      "grad_norm": 0.0,
      "learning_rate": 3.8374768557876866e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5203
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.08333587646484,
      "epoch": 39.12686567164179,
      "grad_norm": 0.0,
      "learning_rate": 3.836926603234296e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5204
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.77777862548828,
      "epoch": 39.134328358208954,
      "grad_norm": 0.0,
      "learning_rate": 3.8363762599588896e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5205
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.5,
      "epoch": 39.14179104477612,
      "grad_norm": 0.0,
      "learning_rate": 3.8358258259988127e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5206
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.47222137451172,
      "epoch": 39.149253731343286,
      "grad_norm": 0.0,
      "learning_rate": 3.835275301391416e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5207
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.9444465637207,
      "epoch": 39.156716417910445,
      "grad_norm": 0.0,
      "learning_rate": 3.83472468617406e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5208
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.97222137451172,
      "epoch": 39.16417910447761,
      "grad_norm": 0.0,
      "learning_rate": 3.8341739803841063e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5209
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.72222137451172,
      "epoch": 39.17164179104478,
      "grad_norm": 0.0,
      "learning_rate": 3.833623184058926e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5210
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 71.30555725097656,
      "epoch": 39.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 3.8330722972358945e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5211
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.72222137451172,
      "epoch": 39.1865671641791,
      "grad_norm": 0.0,
      "learning_rate": 3.832521319952395e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5212
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.47222137451172,
      "epoch": 39.19402985074627,
      "grad_norm": 0.0,
      "learning_rate": 3.8319702522458173e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5213
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.25,
      "epoch": 39.201492537313435,
      "grad_norm": 0.0,
      "learning_rate": 3.8314190941535533e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5214
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.77777862548828,
      "epoch": 39.208955223880594,
      "grad_norm": 0.0,
      "learning_rate": 3.830867845713006e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5215
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.75,
      "epoch": 39.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 3.830316506961582e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5216
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 71.3888931274414,
      "epoch": 39.223880597014926,
      "grad_norm": 0.0,
      "learning_rate": 3.829765077936693e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5217
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.91666412353516,
      "epoch": 39.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 3.82921355867576e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5218
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.22222137451172,
      "epoch": 39.23880597014925,
      "grad_norm": 0.0,
      "learning_rate": 3.8286619492162076e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5219
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.33333587646484,
      "epoch": 39.24626865671642,
      "grad_norm": 0.0,
      "learning_rate": 3.8281102495954675e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5220
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.02777862548828,
      "epoch": 39.25373134328358,
      "grad_norm": 0.0,
      "learning_rate": 3.827558459850977e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5221
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.61111450195312,
      "epoch": 39.26119402985075,
      "grad_norm": 0.0,
      "learning_rate": 3.827006580020179e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 5222
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 72.66666412353516,
      "epoch": 39.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 3.8264546101405254e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5223
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.66666793823242,
      "epoch": 39.276119402985074,
      "grad_norm": 0.0,
      "learning_rate": 3.8259025502494704e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5224
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.83333206176758,
      "epoch": 39.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 3.825350400384477e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5225
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.83333587646484,
      "epoch": 39.291044776119406,
      "grad_norm": 0.0,
      "learning_rate": 3.824798160583012e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5226
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 72.52777862548828,
      "epoch": 39.298507462686565,
      "grad_norm": 0.0,
      "learning_rate": 3.8242458308825507e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5227
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.27777862548828,
      "epoch": 39.30597014925373,
      "grad_norm": 0.0,
      "learning_rate": 3.823693411320574e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5228
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.6388931274414,
      "epoch": 39.3134328358209,
      "grad_norm": 0.0,
      "learning_rate": 3.823140901934567e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5229
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.02777862548828,
      "epoch": 39.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 3.8225883027620244e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5230
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.36111450195312,
      "epoch": 39.32835820895522,
      "grad_norm": 0.0,
      "learning_rate": 3.8220356138404407e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5231
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.72222137451172,
      "epoch": 39.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 3.821482835207325e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5232
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.80555725097656,
      "epoch": 39.343283582089555,
      "grad_norm": 0.0,
      "learning_rate": 3.820929966900185e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5233
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.4444465637207,
      "epoch": 39.350746268656714,
      "grad_norm": 0.0,
      "learning_rate": 3.8203770089565403e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5234
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.66666412353516,
      "epoch": 39.35820895522388,
      "grad_norm": 0.0,
      "learning_rate": 3.819823961413912e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5235
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.3888931274414,
      "epoch": 39.365671641791046,
      "grad_norm": 0.0,
      "learning_rate": 3.8192708243098295e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5236
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.83333206176758,
      "epoch": 39.37313432835821,
      "grad_norm": 0.0,
      "learning_rate": 3.8187175976818275e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5237
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.94444274902344,
      "epoch": 39.38059701492537,
      "grad_norm": 0.0,
      "learning_rate": 3.8181642815674485e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5238
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.41666412353516,
      "epoch": 39.38805970149254,
      "grad_norm": 0.0,
      "learning_rate": 3.8176108760042383e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5239
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.58333587646484,
      "epoch": 39.3955223880597,
      "grad_norm": 0.0,
      "learning_rate": 3.817057381029751e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5240
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.33333206176758,
      "epoch": 39.40298507462686,
      "grad_norm": 0.0,
      "learning_rate": 3.816503796681547e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5241
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.97222137451172,
      "epoch": 39.41044776119403,
      "grad_norm": 0.0,
      "learning_rate": 3.81595012299719e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5242
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.55555725097656,
      "epoch": 39.417910447761194,
      "grad_norm": 0.0,
      "learning_rate": 3.8153963600142526e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5243
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.77777862548828,
      "epoch": 39.42537313432836,
      "grad_norm": 0.0,
      "learning_rate": 3.814842507770312e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5244
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.72222137451172,
      "epoch": 39.43283582089552,
      "grad_norm": 0.0,
      "learning_rate": 3.814288566302952e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5245
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.3888931274414,
      "epoch": 39.440298507462686,
      "grad_norm": 0.0,
      "learning_rate": 3.813734535649761e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5246
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 72.5,
      "epoch": 39.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 3.813180415848338e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5247
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.91666412353516,
      "epoch": 39.45522388059702,
      "grad_norm": 0.0,
      "learning_rate": 3.812626206936282e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5248
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.8888931274414,
      "epoch": 39.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 3.8120719089512015e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5249
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.1388931274414,
      "epoch": 39.47014925373134,
      "grad_norm": 0.0,
      "learning_rate": 3.8115175219307105e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5250
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.9444465637207,
      "epoch": 39.47761194029851,
      "grad_norm": 0.0,
      "learning_rate": 3.81096304591243e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5251
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.02777862548828,
      "epoch": 39.485074626865675,
      "grad_norm": 0.0,
      "learning_rate": 3.8104084809339844e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5252
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.22222137451172,
      "epoch": 39.492537313432834,
      "grad_norm": 0.0,
      "learning_rate": 3.809853827033006e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5253
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.27777862548828,
      "epoch": 39.5,
      "grad_norm": 0.0,
      "learning_rate": 3.809299084247134e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5254
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.55555725097656,
      "epoch": 39.507462686567166,
      "grad_norm": 0.0,
      "learning_rate": 3.808744252614011e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5255
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.08333587646484,
      "epoch": 39.514925373134325,
      "grad_norm": 0.0,
      "learning_rate": 3.808189332171288e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5256
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.55555725097656,
      "epoch": 39.52238805970149,
      "grad_norm": 0.0,
      "learning_rate": 3.807634322956621e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5257
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 71.08333587646484,
      "epoch": 39.52985074626866,
      "grad_norm": 0.0,
      "learning_rate": 3.8070792250076726e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5258
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.47222137451172,
      "epoch": 39.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 3.8065240383621103e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 5259
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.30555725097656,
      "epoch": 39.54477611940298,
      "grad_norm": 0.0,
      "learning_rate": 3.805968763057609e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 5260
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.16666412353516,
      "epoch": 39.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 3.8054133991318477e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 5261
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.91666793823242,
      "epoch": 39.559701492537314,
      "grad_norm": 0.0,
      "learning_rate": 3.804857946622514e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5262
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.08333587646484,
      "epoch": 39.56716417910448,
      "grad_norm": 0.0,
      "learning_rate": 3.804302405567299e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5263
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.58333587646484,
      "epoch": 39.57462686567164,
      "grad_norm": 0.0,
      "learning_rate": 3.803746776003902e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5264
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.33333587646484,
      "epoch": 39.582089552238806,
      "grad_norm": 0.0,
      "learning_rate": 3.8031910579700267e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5265
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.97222137451172,
      "epoch": 39.58955223880597,
      "grad_norm": 0.0,
      "learning_rate": 3.802635251503382e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 5266
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 72.27777862548828,
      "epoch": 39.59701492537313,
      "grad_norm": 0.0,
      "learning_rate": 3.8020793566416877e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5267
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.27777862548828,
      "epoch": 39.6044776119403,
      "grad_norm": 0.0,
      "learning_rate": 3.801523373422663e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5268
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.08333587646484,
      "epoch": 39.61194029850746,
      "grad_norm": 0.0,
      "learning_rate": 3.8009673018840376e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5269
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.66666412353516,
      "epoch": 39.61940298507463,
      "grad_norm": 0.0,
      "learning_rate": 3.800411142063545e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5270
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.13888931274414,
      "epoch": 39.62686567164179,
      "grad_norm": 0.0,
      "learning_rate": 3.799854893998926e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5271
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.72222137451172,
      "epoch": 39.634328358208954,
      "grad_norm": 0.0,
      "learning_rate": 3.799298557727926e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5272
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.77777862548828,
      "epoch": 39.64179104477612,
      "grad_norm": 0.0,
      "learning_rate": 3.7987421332882985e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5273
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.97222137451172,
      "epoch": 39.649253731343286,
      "grad_norm": 0.0,
      "learning_rate": 3.7981856207178005e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5274
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 71.83333587646484,
      "epoch": 39.656716417910445,
      "grad_norm": 0.0,
      "learning_rate": 3.7976290200541974e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5275
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.13888931274414,
      "epoch": 39.66417910447761,
      "grad_norm": 0.0,
      "learning_rate": 3.797072331335258e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5276
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.66666412353516,
      "epoch": 39.67164179104478,
      "grad_norm": 0.0,
      "learning_rate": 3.796515554598759e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5277
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.16666412353516,
      "epoch": 39.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 3.795958689882483e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5278
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.16666412353516,
      "epoch": 39.6865671641791,
      "grad_norm": 0.0,
      "learning_rate": 3.7954017372242176e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 5279
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.91666412353516,
      "epoch": 39.69402985074627,
      "grad_norm": 0.0,
      "learning_rate": 3.7948446966617566e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5280
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.6388931274414,
      "epoch": 39.701492537313435,
      "grad_norm": 0.0,
      "learning_rate": 3.7942875682329013e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5281
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.19444274902344,
      "epoch": 39.708955223880594,
      "grad_norm": 0.0,
      "learning_rate": 3.793730351975456e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5282
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.08333587646484,
      "epoch": 39.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 3.7931730479272326e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5283
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.38888931274414,
      "epoch": 39.723880597014926,
      "grad_norm": 0.0,
      "learning_rate": 3.7926156561260507e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5284
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.19444274902344,
      "epoch": 39.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 3.7920581766097336e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 5285
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.52777862548828,
      "epoch": 39.73880597014925,
      "grad_norm": 0.0,
      "learning_rate": 3.79150060941611e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5286
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.72222137451172,
      "epoch": 39.74626865671642,
      "grad_norm": 0.0,
      "learning_rate": 3.7909429545830163e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5287
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.97222137451172,
      "epoch": 39.75373134328358,
      "grad_norm": 0.0,
      "learning_rate": 3.790385212148295e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5288
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.63888931274414,
      "epoch": 39.76119402985075,
      "grad_norm": 0.0,
      "learning_rate": 3.7898273821497924e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5289
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 67.97222137451172,
      "epoch": 39.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 3.789269464625362e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5290
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.11111450195312,
      "epoch": 39.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 3.788711459612865e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5291
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.83333587646484,
      "epoch": 39.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 3.7881533671501653e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5292
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.66666412353516,
      "epoch": 39.791044776119406,
      "grad_norm": 0.0,
      "learning_rate": 3.7875951872751356e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5293
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.6388931274414,
      "epoch": 39.798507462686565,
      "grad_norm": 0.0,
      "learning_rate": 3.7870369200256516e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5294
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.08333206176758,
      "epoch": 39.80597014925373,
      "grad_norm": 0.0,
      "learning_rate": 3.786478565439598e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 5295
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.6388931274414,
      "epoch": 39.8134328358209,
      "grad_norm": 0.0,
      "learning_rate": 3.7859201235548633e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5296
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 73.30555725097656,
      "epoch": 39.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 3.785361594409342e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5297
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.5,
      "epoch": 39.82835820895522,
      "grad_norm": 0.0,
      "learning_rate": 3.784802978040937e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5298
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.97222137451172,
      "epoch": 39.83582089552239,
      "grad_norm": 0.0,
      "learning_rate": 3.7842442744875534e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5299
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.27777862548828,
      "epoch": 39.843283582089555,
      "grad_norm": 0.0,
      "learning_rate": 3.7836854837871044e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5300
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.69444274902344,
      "epoch": 39.850746268656714,
      "grad_norm": 0.0,
      "learning_rate": 3.78312660597751e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5301
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.4444465637207,
      "epoch": 39.85820895522388,
      "grad_norm": 0.0,
      "learning_rate": 3.7825676410966934e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5302
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.72222137451172,
      "epoch": 39.865671641791046,
      "grad_norm": 0.0,
      "learning_rate": 3.782008589182586e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5303
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.4444465637207,
      "epoch": 39.87313432835821,
      "grad_norm": 0.0,
      "learning_rate": 3.7814494502731243e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5304
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 70.69444274902344,
      "epoch": 39.88059701492537,
      "grad_norm": 0.0,
      "learning_rate": 3.78089022440625e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5305
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.91666412353516,
      "epoch": 39.88805970149254,
      "grad_norm": 0.0,
      "learning_rate": 3.7803309116199123e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5306
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.19444274902344,
      "epoch": 39.8955223880597,
      "grad_norm": 0.0,
      "learning_rate": 3.7797715119520646e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5307
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.8888931274414,
      "epoch": 39.90298507462687,
      "grad_norm": 0.0,
      "learning_rate": 3.779212025440668e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5308
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.55555725097656,
      "epoch": 39.91044776119403,
      "grad_norm": 0.0,
      "learning_rate": 3.7786524521236873e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5309
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.3888931274414,
      "epoch": 39.917910447761194,
      "grad_norm": 0.0,
      "learning_rate": 3.778092792039096e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5310
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.52777862548828,
      "epoch": 39.92537313432836,
      "grad_norm": 0.0,
      "learning_rate": 3.7775330452248695e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5311
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.44444274902344,
      "epoch": 39.93283582089552,
      "grad_norm": 0.0,
      "learning_rate": 3.776973211718993e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5312
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.83333587646484,
      "epoch": 39.940298507462686,
      "grad_norm": 0.0,
      "learning_rate": 3.776413291559457e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5313
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.55555725097656,
      "epoch": 39.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 3.7758532847842547e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5314
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.55555725097656,
      "epoch": 39.95522388059702,
      "grad_norm": 0.0,
      "learning_rate": 3.7752931914313886e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5315
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 71.52777862548828,
      "epoch": 39.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 3.774733011538866e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5316
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.36111068725586,
      "epoch": 39.97014925373134,
      "grad_norm": 0.0,
      "learning_rate": 3.7741727451446993e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5317
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.11111450195312,
      "epoch": 39.97761194029851,
      "grad_norm": 0.0,
      "learning_rate": 3.773612392286908e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5318
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.0,
      "epoch": 39.985074626865675,
      "grad_norm": 0.0,
      "learning_rate": 3.7730519530035166e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5319
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 73.91667175292969,
      "epoch": 39.992537313432834,
      "grad_norm": 0.0,
      "learning_rate": 3.7724914273325565e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5320
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 69.66666412353516,
      "epoch": 40.007462686567166,
      "grad_norm": 0.0,
      "learning_rate": 3.771930815312062e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5321
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.25,
      "epoch": 40.014925373134325,
      "grad_norm": 0.0,
      "learning_rate": 3.7713701169800783e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5322
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.69444274902344,
      "epoch": 40.02238805970149,
      "grad_norm": 0.0,
      "learning_rate": 3.7708093323746525e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5323
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.02777862548828,
      "epoch": 40.02985074626866,
      "grad_norm": 0.0,
      "learning_rate": 3.770248461533837e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5324
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.97222137451172,
      "epoch": 40.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 3.7696875044956945e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5325
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.11111450195312,
      "epoch": 40.04477611940298,
      "grad_norm": 0.0,
      "learning_rate": 3.76912646129829e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5326
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.72222137451172,
      "epoch": 40.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 3.768565331979693e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5327
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.94444274902344,
      "epoch": 40.059701492537314,
      "grad_norm": 0.0,
      "learning_rate": 3.768004116577983e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5328
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.3888931274414,
      "epoch": 40.06716417910448,
      "grad_norm": 0.0,
      "learning_rate": 3.767442815131244e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5329
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.47222137451172,
      "epoch": 40.07462686567164,
      "grad_norm": 0.0,
      "learning_rate": 3.766881427677563e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5330
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 72.19444274902344,
      "epoch": 40.082089552238806,
      "grad_norm": 0.0,
      "learning_rate": 3.766319954255036e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5331
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.86111068725586,
      "epoch": 40.08955223880597,
      "grad_norm": 0.0,
      "learning_rate": 3.765758394901765e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5332
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.77777862548828,
      "epoch": 40.09701492537314,
      "grad_norm": 0.0,
      "learning_rate": 3.7651967496558545e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5333
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.11111450195312,
      "epoch": 40.1044776119403,
      "grad_norm": 0.0,
      "learning_rate": 3.764635018555418e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5334
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.69444274902344,
      "epoch": 40.11194029850746,
      "grad_norm": 14.645379723793841,
      "learning_rate": 3.764073201638574e-07,
      "loss": 0.02,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 5335
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.9444465637207,
      "epoch": 40.11940298507463,
      "grad_norm": 0.0,
      "learning_rate": 3.763511298943447e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5336
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.16666412353516,
      "epoch": 40.12686567164179,
      "grad_norm": 0.0,
      "learning_rate": 3.7629493105081656e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5337
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.3888931274414,
      "epoch": 40.134328358208954,
      "grad_norm": 0.0,
      "learning_rate": 3.7623872363708663e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5338
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.16666412353516,
      "epoch": 40.14179104477612,
      "grad_norm": 0.0,
      "learning_rate": 3.7618250765696914e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5339
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.97222137451172,
      "epoch": 40.149253731343286,
      "grad_norm": 1.7310490526903872,
      "learning_rate": 3.7612628311427876e-07,
      "loss": 0.0196,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 5340
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 68.41666412353516,
      "epoch": 40.156716417910445,
      "grad_norm": 0.0,
      "learning_rate": 3.760700500128308e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5341
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 65.0,
      "epoch": 40.16417910447761,
      "grad_norm": 0.0,
      "learning_rate": 3.760138083564411e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5342
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.75,
      "epoch": 40.17164179104478,
      "grad_norm": 0.0,
      "learning_rate": 3.7595755814892625e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5343
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.47222137451172,
      "epoch": 40.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 3.7590129939410333e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5344
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.66666793823242,
      "epoch": 40.1865671641791,
      "grad_norm": 0.0,
      "learning_rate": 3.758450320957899e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5345
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.83333206176758,
      "epoch": 40.19402985074627,
      "grad_norm": 0.0,
      "learning_rate": 3.7578875625780426e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5346
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.08333206176758,
      "epoch": 40.201492537313435,
      "grad_norm": 0.0,
      "learning_rate": 3.757324718839652e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5347
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.38888931274414,
      "epoch": 40.208955223880594,
      "grad_norm": 0.0,
      "learning_rate": 3.756761789780919e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5348
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.5,
      "epoch": 40.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 3.756198775440046e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5349
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.80555725097656,
      "epoch": 40.223880597014926,
      "grad_norm": 0.0,
      "learning_rate": 3.755635675855238e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5350
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.05555725097656,
      "epoch": 40.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 3.755072491064704e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5351
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.38888931274414,
      "epoch": 40.23880597014925,
      "grad_norm": 0.0,
      "learning_rate": 3.754509221106663e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5352
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.55555725097656,
      "epoch": 40.24626865671642,
      "grad_norm": 0.0,
      "learning_rate": 3.753945866019337e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5353
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.38888931274414,
      "epoch": 40.25373134328358,
      "grad_norm": 0.0,
      "learning_rate": 3.7533824258409544e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5354
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.88888931274414,
      "epoch": 40.26119402985075,
      "grad_norm": 0.0,
      "learning_rate": 3.7528189006097497e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5355
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.97222137451172,
      "epoch": 40.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 3.7522552903639625e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5356
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.33333206176758,
      "epoch": 40.276119402985074,
      "grad_norm": 0.0,
      "learning_rate": 3.751691595141841e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5357
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.05555725097656,
      "epoch": 40.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 3.751127814981633e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5358
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.02777862548828,
      "epoch": 40.291044776119406,
      "grad_norm": 0.0,
      "learning_rate": 3.750563949921599e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5359
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.41666793823242,
      "epoch": 40.298507462686565,
      "grad_norm": 0.0,
      "learning_rate": 3.75e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5360
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.33333206176758,
      "epoch": 40.30597014925373,
      "grad_norm": 0.0,
      "learning_rate": 3.7494359652551053e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5361
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.1944465637207,
      "epoch": 40.3134328358209,
      "grad_norm": 0.0,
      "learning_rate": 3.748871845725191e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5362
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.58333206176758,
      "epoch": 40.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 3.748307641448536e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 5363
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.61111068725586,
      "epoch": 40.32835820895522,
      "grad_norm": 0.0,
      "learning_rate": 3.747743352463427e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5364
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.11111068725586,
      "epoch": 40.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 3.7471789788081554e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5365
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.5,
      "epoch": 40.343283582089555,
      "grad_norm": 0.0,
      "learning_rate": 3.746614520521019e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5366
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.55555725097656,
      "epoch": 40.350746268656714,
      "grad_norm": 0.0,
      "learning_rate": 3.746049977640322e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5367
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.91666793823242,
      "epoch": 40.35820895522388,
      "grad_norm": 0.0,
      "learning_rate": 3.745485350204372e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5368
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.13888931274414,
      "epoch": 40.365671641791046,
      "grad_norm": 0.0,
      "learning_rate": 3.744920638251485e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5369
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.9444465637207,
      "epoch": 40.37313432835821,
      "grad_norm": 0.0,
      "learning_rate": 3.7443558418199824e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5370
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.33333206176758,
      "epoch": 40.38059701492537,
      "grad_norm": 0.0,
      "learning_rate": 3.7437909609481877e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5371
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.91666793823242,
      "epoch": 40.38805970149254,
      "grad_norm": 0.0,
      "learning_rate": 3.7432259956744356e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5372
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.97222137451172,
      "epoch": 40.3955223880597,
      "grad_norm": 0.0,
      "learning_rate": 3.742660946037062e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5373
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.63888931274414,
      "epoch": 40.40298507462686,
      "grad_norm": 0.0,
      "learning_rate": 3.7420958120744126e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5374
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.61111068725586,
      "epoch": 40.41044776119403,
      "grad_norm": 0.0,
      "learning_rate": 3.741530593824834e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5375
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.25,
      "epoch": 40.417910447761194,
      "grad_norm": 0.0,
      "learning_rate": 3.740965291326684e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5376
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.5,
      "epoch": 40.42537313432836,
      "grad_norm": 0.0,
      "learning_rate": 3.7403999046183206e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5377
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.75,
      "epoch": 40.43283582089552,
      "grad_norm": 0.0,
      "learning_rate": 3.739834433738111e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5378
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.38888931274414,
      "epoch": 40.440298507462686,
      "grad_norm": 0.0,
      "learning_rate": 3.739268878724428e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5379
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.6944465637207,
      "epoch": 40.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 3.7387032396156494e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5380
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.77777862548828,
      "epoch": 40.45522388059702,
      "grad_norm": 0.0,
      "learning_rate": 3.7381375164501584e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5381
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.02777862548828,
      "epoch": 40.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 3.737571709266343e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5382
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.47222137451172,
      "epoch": 40.47014925373134,
      "grad_norm": 0.0,
      "learning_rate": 3.7370058181025997e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5383
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.66666793823242,
      "epoch": 40.47761194029851,
      "grad_norm": 0.0,
      "learning_rate": 3.736439842997329e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5384
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.33333206176758,
      "epoch": 40.485074626865675,
      "grad_norm": 0.0,
      "learning_rate": 3.7358737839889356e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5385
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.80555725097656,
      "epoch": 40.492537313432834,
      "grad_norm": 0.0,
      "learning_rate": 3.7353076411158336e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5386
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.02777862548828,
      "epoch": 40.5,
      "grad_norm": 0.0,
      "learning_rate": 3.7347414144164394e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 5387
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.36111068725586,
      "epoch": 40.507462686567166,
      "grad_norm": 0.0,
      "learning_rate": 3.734175103929177e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5388
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.11111068725586,
      "epoch": 40.514925373134325,
      "grad_norm": 0.0,
      "learning_rate": 3.733608709692475e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5389
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.41666793823242,
      "epoch": 40.52238805970149,
      "grad_norm": 0.0,
      "learning_rate": 3.733042231744768e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5390
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 44.88888931274414,
      "epoch": 40.52985074626866,
      "grad_norm": 0.0,
      "learning_rate": 3.7324756701244974e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5391
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.41666793823242,
      "epoch": 40.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 3.731909024870108e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5392
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.5,
      "epoch": 40.54477611940298,
      "grad_norm": 0.0,
      "learning_rate": 3.7313422960200526e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5393
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.30555725097656,
      "epoch": 40.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 3.730775483612789e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5394
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.61111068725586,
      "epoch": 40.559701492537314,
      "grad_norm": 0.0,
      "learning_rate": 3.7302085876867777e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5395
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.6944465637207,
      "epoch": 40.56716417910448,
      "grad_norm": 0.0,
      "learning_rate": 3.7296416082804906e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5396
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.77777862548828,
      "epoch": 40.57462686567164,
      "grad_norm": 0.0,
      "learning_rate": 3.729074545432401e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5397
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.52777862548828,
      "epoch": 40.582089552238806,
      "grad_norm": 0.0,
      "learning_rate": 3.7285073991809884e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5398
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.02777862548828,
      "epoch": 40.58955223880597,
      "grad_norm": 0.0,
      "learning_rate": 3.727940169564739e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5399
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.30555725097656,
      "epoch": 40.59701492537313,
      "grad_norm": 0.0,
      "learning_rate": 3.727372856622144e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5400
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.47222137451172,
      "epoch": 40.6044776119403,
      "grad_norm": 0.0,
      "learning_rate": 3.726805460391702e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 5401
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.91666793823242,
      "epoch": 40.61194029850746,
      "grad_norm": 0.0,
      "learning_rate": 3.726237980911914e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5402
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.86111068725586,
      "epoch": 40.61940298507463,
      "grad_norm": 0.0,
      "learning_rate": 3.725670418221289e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5403
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.05555725097656,
      "epoch": 40.62686567164179,
      "grad_norm": 0.0,
      "learning_rate": 3.725102772358341e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5404
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.30555725097656,
      "epoch": 40.634328358208954,
      "grad_norm": 0.0,
      "learning_rate": 3.724535043361589e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5405
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.6944465637207,
      "epoch": 40.64179104477612,
      "grad_norm": 0.0,
      "learning_rate": 3.723967231269559e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5406
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.16666793823242,
      "epoch": 40.649253731343286,
      "grad_norm": 0.0,
      "learning_rate": 3.723399336120782e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5407
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.13888931274414,
      "epoch": 40.656716417910445,
      "grad_norm": 0.0,
      "learning_rate": 3.722831357953795e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5408
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.41666793823242,
      "epoch": 40.66417910447761,
      "grad_norm": 0.0,
      "learning_rate": 3.722263296807139e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5409
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.38888931274414,
      "epoch": 40.67164179104478,
      "grad_norm": 0.0,
      "learning_rate": 3.7216951527193635e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5410
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.22222137451172,
      "epoch": 40.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 3.7211269257290205e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5411
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.91666793823242,
      "epoch": 40.6865671641791,
      "grad_norm": 0.0,
      "learning_rate": 3.7205586158746693e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5412
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.88888931274414,
      "epoch": 40.69402985074627,
      "grad_norm": 0.0,
      "learning_rate": 3.7199902231948754e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5413
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.52777862548828,
      "epoch": 40.701492537313435,
      "grad_norm": 0.0,
      "learning_rate": 3.719421747728209e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5414
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.52777862548828,
      "epoch": 40.708955223880594,
      "grad_norm": 0.0,
      "learning_rate": 3.7188531895132455e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5415
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.33333206176758,
      "epoch": 40.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 3.7182845485885665e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5416
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.27777862548828,
      "epoch": 40.723880597014926,
      "grad_norm": 0.0,
      "learning_rate": 3.717715824992759e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5417
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.4444465637207,
      "epoch": 40.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 3.717147018764418e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5418
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.61111068725586,
      "epoch": 40.73880597014925,
      "grad_norm": 0.0,
      "learning_rate": 3.716578129942139e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5419
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.66666793823242,
      "epoch": 40.74626865671642,
      "grad_norm": 0.0,
      "learning_rate": 3.7160091585645275e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5420
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.63888931274414,
      "epoch": 40.75373134328358,
      "grad_norm": 0.0,
      "learning_rate": 3.7154401046701934e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5421
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.13888931274414,
      "epoch": 40.76119402985075,
      "grad_norm": 0.0,
      "learning_rate": 3.71487096829775e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5422
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.91666793823242,
      "epoch": 40.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 3.71430174948582e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5423
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.61111068725586,
      "epoch": 40.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 3.71373244827303e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5424
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.66666793823242,
      "epoch": 40.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 3.713163064698011e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5425
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.6944465637207,
      "epoch": 40.791044776119406,
      "grad_norm": 0.0,
      "learning_rate": 3.712593598799401e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5426
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.61111068725586,
      "epoch": 40.798507462686565,
      "grad_norm": 0.0,
      "learning_rate": 3.712024050615843e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5427
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.02777862548828,
      "epoch": 40.80597014925373,
      "grad_norm": 0.0,
      "learning_rate": 3.7114544201859854e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5428
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.27777862548828,
      "epoch": 40.8134328358209,
      "grad_norm": 0.0,
      "learning_rate": 3.7108847075484827e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 5429
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.63888931274414,
      "epoch": 40.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 3.710314912741996e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5430
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.75,
      "epoch": 40.82835820895522,
      "grad_norm": 0.0,
      "learning_rate": 3.70974503580519e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5431
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.47222137451172,
      "epoch": 40.83582089552239,
      "grad_norm": 0.0,
      "learning_rate": 3.7091750767767347e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5432
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.91666793823242,
      "epoch": 40.843283582089555,
      "grad_norm": 0.0,
      "learning_rate": 3.7086050356953087e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5433
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.72222137451172,
      "epoch": 40.850746268656714,
      "grad_norm": 0.0,
      "learning_rate": 3.7080349125995925e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5434
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.97222137451172,
      "epoch": 40.85820895522388,
      "grad_norm": 0.0,
      "learning_rate": 3.707464707528275e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5435
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.30555725097656,
      "epoch": 40.865671641791046,
      "grad_norm": 0.0,
      "learning_rate": 3.7068944205200494e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5436
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.88888931274414,
      "epoch": 40.87313432835821,
      "grad_norm": 0.0,
      "learning_rate": 3.7063240516136133e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5437
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 46.86111068725586,
      "epoch": 40.88059701492537,
      "grad_norm": 0.0,
      "learning_rate": 3.7057536008476733e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5438
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.38888931274414,
      "epoch": 40.88805970149254,
      "grad_norm": 0.0,
      "learning_rate": 3.7051830682609377e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5439
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.1944465637207,
      "epoch": 40.8955223880597,
      "grad_norm": 0.0,
      "learning_rate": 3.704612453892123e-07,
      "loss": 0.0,
      "reward": 1.4444444179534912,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.4444444477558136,
      "rewards/format_reward": 1.0,
      "step": 5440
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.30555725097656,
      "epoch": 40.90298507462687,
      "grad_norm": 0.0,
      "learning_rate": 3.7040417577799493e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5441
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.66666793823242,
      "epoch": 40.91044776119403,
      "grad_norm": 0.0,
      "learning_rate": 3.7034709799631455e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5442
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.52777862548828,
      "epoch": 40.917910447761194,
      "grad_norm": 0.0,
      "learning_rate": 3.702900120480441e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5443
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.83333206176758,
      "epoch": 40.92537313432836,
      "grad_norm": 0.0,
      "learning_rate": 3.7023291793705746e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5444
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.05555725097656,
      "epoch": 40.93283582089552,
      "grad_norm": 0.0,
      "learning_rate": 3.7017581566722904e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5445
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.33333206176758,
      "epoch": 40.940298507462686,
      "grad_norm": 0.0,
      "learning_rate": 3.7011870524243364e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5446
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.0,
      "epoch": 40.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 3.7006158666654675e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5447
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.61111068725586,
      "epoch": 40.95522388059702,
      "grad_norm": 7.681856911327421,
      "learning_rate": 3.700044599434443e-07,
      "loss": -0.0186,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 5448
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.27777862548828,
      "epoch": 40.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 3.6994732507700285e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5449
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.1944465637207,
      "epoch": 40.97014925373134,
      "grad_norm": 0.0,
      "learning_rate": 3.698901820710995e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5450
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.61111068725586,
      "epoch": 40.97761194029851,
      "grad_norm": 0.0,
      "learning_rate": 3.6983303092961183e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5451
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.27777862548828,
      "epoch": 40.985074626865675,
      "grad_norm": 0.0,
      "learning_rate": 3.697758716564182e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5452
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.083335876464844,
      "epoch": 40.992537313432834,
      "grad_norm": 27.960132178798823,
      "learning_rate": 3.6971870425539723e-07,
      "loss": -0.0099,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 5453
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.16666793823242,
      "epoch": 41.007462686567166,
      "grad_norm": 0.0,
      "learning_rate": 3.6966152873042825e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 5454
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.27777862548828,
      "epoch": 41.014925373134325,
      "grad_norm": 0.0,
      "learning_rate": 3.696043450853912e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5455
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.47222137451172,
      "epoch": 41.02238805970149,
      "grad_norm": 0.0,
      "learning_rate": 3.695471533241663e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5456
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.75,
      "epoch": 41.02985074626866,
      "grad_norm": 0.0,
      "learning_rate": 3.6948995345063465e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5457
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.83333206176758,
      "epoch": 41.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 3.694327454686777e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5458
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.52777862548828,
      "epoch": 41.04477611940298,
      "grad_norm": 0.0,
      "learning_rate": 3.693755293821776e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 5459
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.13888931274414,
      "epoch": 41.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 3.6931830519501676e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5460
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.83333206176758,
      "epoch": 41.059701492537314,
      "grad_norm": 0.0,
      "learning_rate": 3.692610729110784e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5461
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.22222137451172,
      "epoch": 41.06716417910448,
      "grad_norm": 0.0,
      "learning_rate": 3.692038325342465e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5462
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.61111068725586,
      "epoch": 41.07462686567164,
      "grad_norm": 0.0,
      "learning_rate": 3.6914658406840494e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5463
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.11111068725586,
      "epoch": 41.082089552238806,
      "grad_norm": 0.0,
      "learning_rate": 3.690893275174387e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5464
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.41666793823242,
      "epoch": 41.08955223880597,
      "grad_norm": 0.0,
      "learning_rate": 3.690320628852331e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5465
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.77777862548828,
      "epoch": 41.09701492537314,
      "grad_norm": 0.0,
      "learning_rate": 3.6897479017567406e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5466
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.1944465637207,
      "epoch": 41.1044776119403,
      "grad_norm": 0.0,
      "learning_rate": 3.6891750939264796e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5467
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.25,
      "epoch": 41.11194029850746,
      "grad_norm": 0.0,
      "learning_rate": 3.688602205400419e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5468
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.52777862548828,
      "epoch": 41.11940298507463,
      "grad_norm": 0.0,
      "learning_rate": 3.6880292362174345e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5469
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.63888931274414,
      "epoch": 41.12686567164179,
      "grad_norm": 0.0,
      "learning_rate": 3.687456186416405e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5470
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.66666793823242,
      "epoch": 41.134328358208954,
      "grad_norm": 0.0,
      "learning_rate": 3.686883056036219e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5471
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.4444465637207,
      "epoch": 41.14179104477612,
      "grad_norm": 0.0,
      "learning_rate": 3.686309845115767e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5472
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.5,
      "epoch": 41.149253731343286,
      "grad_norm": 0.0,
      "learning_rate": 3.6857365536939456e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5473
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.58333206176758,
      "epoch": 41.156716417910445,
      "grad_norm": 0.0,
      "learning_rate": 3.68516318180966e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5474
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.72222137451172,
      "epoch": 41.16417910447761,
      "grad_norm": 0.0,
      "learning_rate": 3.684589729501817e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5475
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.11111068725586,
      "epoch": 41.17164179104478,
      "grad_norm": 10.527620469774858,
      "learning_rate": 3.6840161968093306e-07,
      "loss": 0.0053,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 5476
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.36111068725586,
      "epoch": 41.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 3.683442583771119e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5477
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.36111068725586,
      "epoch": 41.1865671641791,
      "grad_norm": 0.0,
      "learning_rate": 3.682868890426108e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5478
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.97222137451172,
      "epoch": 41.19402985074627,
      "grad_norm": 0.0,
      "learning_rate": 3.6822951168132284e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5479
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.30555725097656,
      "epoch": 41.201492537313435,
      "grad_norm": 0.0,
      "learning_rate": 3.681721262971413e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5480
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.75,
      "epoch": 41.208955223880594,
      "grad_norm": 0.0,
      "learning_rate": 3.681147328939605e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5481
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.0,
      "epoch": 41.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 3.6805733147567494e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5482
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.52777862548828,
      "epoch": 41.223880597014926,
      "grad_norm": 0.0,
      "learning_rate": 3.6799992204617997e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5483
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.80555725097656,
      "epoch": 41.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 3.6794250460937115e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5484
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.0,
      "epoch": 41.23880597014925,
      "grad_norm": 0.0,
      "learning_rate": 3.678850791691448e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5485
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.58333206176758,
      "epoch": 41.24626865671642,
      "grad_norm": 0.0,
      "learning_rate": 3.678276457293978e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5486
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.05555725097656,
      "epoch": 41.25373134328358,
      "grad_norm": 0.0,
      "learning_rate": 3.6777020429402744e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5487
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.91666793823242,
      "epoch": 41.26119402985075,
      "grad_norm": 0.0,
      "learning_rate": 3.6771275486693164e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5488
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.30555725097656,
      "epoch": 41.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 3.6765529745200874e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5489
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.91666793823242,
      "epoch": 41.276119402985074,
      "grad_norm": 0.0,
      "learning_rate": 3.675978320531579e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5490
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.4444465637207,
      "epoch": 41.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 3.675403586742785e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5491
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.58333206176758,
      "epoch": 41.291044776119406,
      "grad_norm": 0.0,
      "learning_rate": 3.6748287731927066e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5492
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.22222137451172,
      "epoch": 41.298507462686565,
      "grad_norm": 0.0,
      "learning_rate": 3.6742538799203503e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5493
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.13888931274414,
      "epoch": 41.30597014925373,
      "grad_norm": 0.0,
      "learning_rate": 3.673678906964727e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5494
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.08333206176758,
      "epoch": 41.3134328358209,
      "grad_norm": 0.0,
      "learning_rate": 3.673103854364853e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5495
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.16666793823242,
      "epoch": 41.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 3.6725287221597524e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5496
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.86111068725586,
      "epoch": 41.32835820895522,
      "grad_norm": 0.0,
      "learning_rate": 3.6719535103884507e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 5497
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.75,
      "epoch": 41.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 3.671378219089983e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5498
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.38888931274414,
      "epoch": 41.343283582089555,
      "grad_norm": 0.0,
      "learning_rate": 3.670802848303386e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5499
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.58333206176758,
      "epoch": 41.350746268656714,
      "grad_norm": 0.0,
      "learning_rate": 3.6702273980677045e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5500
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.27777862548828,
      "epoch": 41.35820895522388,
      "grad_norm": 0.0,
      "learning_rate": 3.6696518684219884e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5501
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.36111068725586,
      "epoch": 41.365671641791046,
      "grad_norm": 0.0,
      "learning_rate": 3.669076259405291e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 5502
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.0,
      "epoch": 41.37313432835821,
      "grad_norm": 0.0,
      "learning_rate": 3.6685005710566733e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5503
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.5,
      "epoch": 41.38059701492537,
      "grad_norm": 0.0,
      "learning_rate": 3.6679248034152005e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5504
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.47222137451172,
      "epoch": 41.38805970149254,
      "grad_norm": 0.0,
      "learning_rate": 3.667348956519942e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5505
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.72222137451172,
      "epoch": 41.3955223880597,
      "grad_norm": 0.0,
      "learning_rate": 3.666773030409977e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5506
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.83333206176758,
      "epoch": 41.40298507462686,
      "grad_norm": 0.0,
      "learning_rate": 3.6661970251243854e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5507
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.02777862548828,
      "epoch": 41.41044776119403,
      "grad_norm": 0.0,
      "learning_rate": 3.665620940702253e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5508
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.05555725097656,
      "epoch": 41.417910447761194,
      "grad_norm": 0.0,
      "learning_rate": 3.665044777182673e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5509
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.5,
      "epoch": 41.42537313432836,
      "grad_norm": 0.0,
      "learning_rate": 3.6644685346047445e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5510
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.38888931274414,
      "epoch": 41.43283582089552,
      "grad_norm": 0.0,
      "learning_rate": 3.663892213007569e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5511
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.91666793823242,
      "epoch": 41.440298507462686,
      "grad_norm": 0.0,
      "learning_rate": 3.6633158124302544e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5512
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.05555725097656,
      "epoch": 41.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 3.662739332911916e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5513
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.9444465637207,
      "epoch": 41.45522388059702,
      "grad_norm": 0.0,
      "learning_rate": 3.6621627744916717e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5514
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.75,
      "epoch": 41.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 3.6615861372086473e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5515
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.6944465637207,
      "epoch": 41.47014925373134,
      "grad_norm": 0.0,
      "learning_rate": 3.6610094211019703e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5516
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.16666793823242,
      "epoch": 41.47761194029851,
      "grad_norm": 0.0,
      "learning_rate": 3.660432626210779e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5517
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.4444465637207,
      "epoch": 41.485074626865675,
      "grad_norm": 0.0,
      "learning_rate": 3.6598557525742115e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5518
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.11111068725586,
      "epoch": 41.492537313432834,
      "grad_norm": 0.0,
      "learning_rate": 3.6592788002314134e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5519
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.0,
      "epoch": 41.5,
      "grad_norm": 0.0,
      "learning_rate": 3.6587017692215385e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5520
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.58333206176758,
      "epoch": 41.507462686567166,
      "grad_norm": 0.0,
      "learning_rate": 3.6581246595837406e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5521
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.16666793823242,
      "epoch": 41.514925373134325,
      "grad_norm": 0.0,
      "learning_rate": 3.657547471357183e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5522
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.5,
      "epoch": 41.52238805970149,
      "grad_norm": 0.0,
      "learning_rate": 3.656970204581033e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5523
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.88888931274414,
      "epoch": 41.52985074626866,
      "grad_norm": 0.0,
      "learning_rate": 3.6563928592944627e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5524
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.97222137451172,
      "epoch": 41.53731343283582,
      "grad_norm": 10.500118414629085,
      "learning_rate": 3.65581543553665e-07,
      "loss": -0.0096,
      "reward": 1.9166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 5525
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.02777862548828,
      "epoch": 41.54477611940298,
      "grad_norm": 0.0,
      "learning_rate": 3.6552379333467775e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5526
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.61111068725586,
      "epoch": 41.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 3.6546603527640344e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5527
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.86111068725586,
      "epoch": 41.559701492537314,
      "grad_norm": 0.0,
      "learning_rate": 3.6540826938276154e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5528
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.0,
      "epoch": 41.56716417910448,
      "grad_norm": 0.0,
      "learning_rate": 3.653504956576717e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5529
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.22222137451172,
      "epoch": 41.57462686567164,
      "grad_norm": 0.0,
      "learning_rate": 3.652927141050548e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5530
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.08333206176758,
      "epoch": 41.582089552238806,
      "grad_norm": 0.0,
      "learning_rate": 3.652349247288313e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5531
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.86111068725586,
      "epoch": 41.58955223880597,
      "grad_norm": 0.0,
      "learning_rate": 3.6517712753292306e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5532
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.47222137451172,
      "epoch": 41.59701492537313,
      "grad_norm": 0.0,
      "learning_rate": 3.65119322521252e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5533
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.86111068725586,
      "epoch": 41.6044776119403,
      "grad_norm": 0.0,
      "learning_rate": 3.650615096977407e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5534
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.13888931274414,
      "epoch": 41.61194029850746,
      "grad_norm": 0.0,
      "learning_rate": 3.650036890663124e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5535
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.97222137451172,
      "epoch": 41.61940298507463,
      "grad_norm": 0.0,
      "learning_rate": 3.6494586063089043e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5536
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.27777862548828,
      "epoch": 41.62686567164179,
      "grad_norm": 0.0,
      "learning_rate": 3.648880243953992e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5537
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.38888931274414,
      "epoch": 41.634328358208954,
      "grad_norm": 0.0,
      "learning_rate": 3.6483018036376326e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5538
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.97222137451172,
      "epoch": 41.64179104477612,
      "grad_norm": 0.0,
      "learning_rate": 3.6477232853990794e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5539
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.30555725097656,
      "epoch": 41.649253731343286,
      "grad_norm": 0.0,
      "learning_rate": 3.6471446892775894e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5540
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.63888931274414,
      "epoch": 41.656716417910445,
      "grad_norm": 0.0,
      "learning_rate": 3.6465660153124243e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5541
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.38888931274414,
      "epoch": 41.66417910447761,
      "grad_norm": 0.0,
      "learning_rate": 3.645987263542854e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5542
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.66666793823242,
      "epoch": 41.67164179104478,
      "grad_norm": 0.0,
      "learning_rate": 3.6454084340081503e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5543
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.22222137451172,
      "epoch": 41.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 3.6448295267475926e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5544
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.0,
      "epoch": 41.6865671641791,
      "grad_norm": 0.0,
      "learning_rate": 3.6442505418004643e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5545
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.0,
      "epoch": 41.69402985074627,
      "grad_norm": 0.0,
      "learning_rate": 3.643671479206055e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5546
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.9444465637207,
      "epoch": 41.701492537313435,
      "grad_norm": 0.0,
      "learning_rate": 3.6430923390036583e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5547
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.66666793823242,
      "epoch": 41.708955223880594,
      "grad_norm": 0.0,
      "learning_rate": 3.6425131212325747e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5548
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.47222137451172,
      "epoch": 41.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 3.6419338259321086e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5549
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.61111068725586,
      "epoch": 41.723880597014926,
      "grad_norm": 0.0,
      "learning_rate": 3.641354453141571e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5550
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.11111068725586,
      "epoch": 41.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 3.6407750029002763e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5551
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.5,
      "epoch": 41.73880597014925,
      "grad_norm": 0.0,
      "learning_rate": 3.640195475247546e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5552
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.6944465637207,
      "epoch": 41.74626865671642,
      "grad_norm": 0.0,
      "learning_rate": 3.639615870222705e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5553
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.61111068725586,
      "epoch": 41.75373134328358,
      "grad_norm": 0.0,
      "learning_rate": 3.6390361878650854e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5554
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.30555725097656,
      "epoch": 41.76119402985075,
      "grad_norm": 0.0,
      "learning_rate": 3.638456428214024e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5555
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.61111068725586,
      "epoch": 41.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 3.6378765913088616e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5556
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.97222137451172,
      "epoch": 41.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 3.637296677188946e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5557
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.08333206176758,
      "epoch": 41.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 3.636716685893628e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5558
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.88888931274414,
      "epoch": 41.791044776119406,
      "grad_norm": 0.0,
      "learning_rate": 3.6361366174622666e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5559
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.38888931274414,
      "epoch": 41.798507462686565,
      "grad_norm": 0.0,
      "learning_rate": 3.6355564719342235e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5560
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.08333206176758,
      "epoch": 41.80597014925373,
      "grad_norm": 0.0,
      "learning_rate": 3.634976249348867e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5561
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.36111068725586,
      "epoch": 41.8134328358209,
      "grad_norm": 0.0,
      "learning_rate": 3.6343959497455703e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5562
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 63.55555725097656,
      "epoch": 41.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 3.6338155731637104e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5563
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.38888931274414,
      "epoch": 41.82835820895522,
      "grad_norm": 0.0,
      "learning_rate": 3.633235119642673e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5564
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.33333206176758,
      "epoch": 41.83582089552239,
      "grad_norm": 0.0,
      "learning_rate": 3.6326545892218455e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5565
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.16666793823242,
      "epoch": 41.843283582089555,
      "grad_norm": 6.570461832997197,
      "learning_rate": 3.632073981940622e-07,
      "loss": 0.0252,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 5566
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.25,
      "epoch": 41.850746268656714,
      "grad_norm": 0.0,
      "learning_rate": 3.631493297838403e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5567
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.63888931274414,
      "epoch": 41.85820895522388,
      "grad_norm": 0.0,
      "learning_rate": 3.6309125369545904e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5568
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.33333206176758,
      "epoch": 41.865671641791046,
      "grad_norm": 0.0,
      "learning_rate": 3.6303316993285967e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5569
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.75,
      "epoch": 41.87313432835821,
      "grad_norm": 0.0,
      "learning_rate": 3.6297507849998346e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5570
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.5,
      "epoch": 41.88059701492537,
      "grad_norm": 0.0,
      "learning_rate": 3.629169794007725e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5571
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.36111068725586,
      "epoch": 41.88805970149254,
      "grad_norm": 0.0,
      "learning_rate": 3.6285887263916936e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5572
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.58333206176758,
      "epoch": 41.8955223880597,
      "grad_norm": 0.0,
      "learning_rate": 3.6280075821911693e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5573
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.0,
      "epoch": 41.90298507462687,
      "grad_norm": 0.0,
      "learning_rate": 3.6274263614455894e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5574
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.91666793823242,
      "epoch": 41.91044776119403,
      "grad_norm": 0.0,
      "learning_rate": 3.626845064194395e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5575
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.77777862548828,
      "epoch": 41.917910447761194,
      "grad_norm": 0.0,
      "learning_rate": 3.6262636904770307e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5576
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.86111068725586,
      "epoch": 41.92537313432836,
      "grad_norm": 0.0,
      "learning_rate": 3.625682240332948e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5577
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.58333206176758,
      "epoch": 41.93283582089552,
      "grad_norm": 0.0,
      "learning_rate": 3.625100713801604e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5578
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.63888931274414,
      "epoch": 41.940298507462686,
      "grad_norm": 0.0,
      "learning_rate": 3.6245191109224593e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5579
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.1944465637207,
      "epoch": 41.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 3.6239374317349816e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5580
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.80555725097656,
      "epoch": 41.95522388059702,
      "grad_norm": 0.0,
      "learning_rate": 3.6233556762786424e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5581
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.83333206176758,
      "epoch": 41.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 3.62277384459292e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 5582
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.41666793823242,
      "epoch": 41.97014925373134,
      "grad_norm": 0.0,
      "learning_rate": 3.622191936717295e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5583
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.38888931274414,
      "epoch": 41.97761194029851,
      "grad_norm": 0.0,
      "learning_rate": 3.621609952691255e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5584
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.4444465637207,
      "epoch": 41.985074626865675,
      "grad_norm": 0.0,
      "learning_rate": 3.621027892554294e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5585
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.083335876464844,
      "epoch": 41.992537313432834,
      "grad_norm": 0.0,
      "learning_rate": 3.620445756345909e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5586
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.22222137451172,
      "epoch": 42.007462686567166,
      "grad_norm": 0.0,
      "learning_rate": 3.6198635441056024e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5587
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.52777862548828,
      "epoch": 42.014925373134325,
      "grad_norm": 0.0,
      "learning_rate": 3.619281255872884e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5588
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.36111068725586,
      "epoch": 42.02238805970149,
      "grad_norm": 0.0,
      "learning_rate": 3.618698891687265e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5589
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.25,
      "epoch": 42.02985074626866,
      "grad_norm": 0.0,
      "learning_rate": 3.618116451588266e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5590
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.38888931274414,
      "epoch": 42.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 3.6175339356154086e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5591
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.41666793823242,
      "epoch": 42.04477611940298,
      "grad_norm": 0.0,
      "learning_rate": 3.616951343808222e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 5592
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.41666793823242,
      "epoch": 42.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 3.6163686762062413e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5593
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.77777862548828,
      "epoch": 42.059701492537314,
      "grad_norm": 0.0,
      "learning_rate": 3.6157859328490034e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 5594
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.11111068725586,
      "epoch": 42.06716417910448,
      "grad_norm": 0.0,
      "learning_rate": 3.6152031137760553e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5595
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.77777862548828,
      "epoch": 42.07462686567164,
      "grad_norm": 0.0,
      "learning_rate": 3.6146202190269443e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5596
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.91666793823242,
      "epoch": 42.082089552238806,
      "grad_norm": 0.0,
      "learning_rate": 3.6140372486412253e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5597
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.52777862548828,
      "epoch": 42.08955223880597,
      "grad_norm": 0.0,
      "learning_rate": 3.6134542026584574e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5598
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.25,
      "epoch": 42.09701492537314,
      "grad_norm": 0.0,
      "learning_rate": 3.612871081118206e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5599
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.02777862548828,
      "epoch": 42.1044776119403,
      "grad_norm": 0.0,
      "learning_rate": 3.6122878840600413e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5600
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.22222137451172,
      "epoch": 42.11194029850746,
      "grad_norm": 0.0,
      "learning_rate": 3.6117046115235373e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5601
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.58333206176758,
      "epoch": 42.11940298507463,
      "grad_norm": 0.0,
      "learning_rate": 3.6111212635482747e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5602
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.38888931274414,
      "epoch": 42.12686567164179,
      "grad_norm": 0.0,
      "learning_rate": 3.610537840173838e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5603
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.16666793823242,
      "epoch": 42.134328358208954,
      "grad_norm": 0.0,
      "learning_rate": 3.609954341439818e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5604
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.88888931274414,
      "epoch": 42.14179104477612,
      "grad_norm": 0.0,
      "learning_rate": 3.6093707673858105e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5605
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.1944465637207,
      "epoch": 42.149253731343286,
      "grad_norm": 0.0,
      "learning_rate": 3.608787118051415e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5606
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.05555725097656,
      "epoch": 42.156716417910445,
      "grad_norm": 0.0,
      "learning_rate": 3.608203393476238e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5607
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.88888931274414,
      "epoch": 42.16417910447761,
      "grad_norm": 0.0,
      "learning_rate": 3.607619593699891e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5608
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.9444465637207,
      "epoch": 42.17164179104478,
      "grad_norm": 0.0,
      "learning_rate": 3.607035718761988e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5609
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.72222137451172,
      "epoch": 42.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 3.606451768702151e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5610
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.33333206176758,
      "epoch": 42.1865671641791,
      "grad_norm": 0.0,
      "learning_rate": 3.605867743560006e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5611
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.0,
      "epoch": 42.19402985074627,
      "grad_norm": 0.0,
      "learning_rate": 3.605283643375184e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5612
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.13888931274414,
      "epoch": 42.201492537313435,
      "grad_norm": 0.0,
      "learning_rate": 3.6046994681873216e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5613
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.08333206176758,
      "epoch": 42.208955223880594,
      "grad_norm": 0.0,
      "learning_rate": 3.604115218036059e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5614
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.11111068725586,
      "epoch": 42.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 3.603530892961044e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5615
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.77777862548828,
      "epoch": 42.223880597014926,
      "grad_norm": 0.0,
      "learning_rate": 3.602946493001928e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5616
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.66666793823242,
      "epoch": 42.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 3.602362018198366e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5617
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.9444465637207,
      "epoch": 42.23880597014925,
      "grad_norm": 0.0,
      "learning_rate": 3.6017774685900223e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5618
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.77777862548828,
      "epoch": 42.24626865671642,
      "grad_norm": 0.0,
      "learning_rate": 3.6011928442165615e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5619
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.27777862548828,
      "epoch": 42.25373134328358,
      "grad_norm": 0.0,
      "learning_rate": 3.6006081451176555e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5620
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.9444465637207,
      "epoch": 42.26119402985075,
      "grad_norm": 0.0,
      "learning_rate": 3.600023371332982e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5621
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.41666793823242,
      "epoch": 42.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 3.5994385229022226e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5622
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.9444465637207,
      "epoch": 42.276119402985074,
      "grad_norm": 0.0,
      "learning_rate": 3.5988535998650653e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5623
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.33333206176758,
      "epoch": 42.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 3.5982686022612e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 5624
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.05555725097656,
      "epoch": 42.291044776119406,
      "grad_norm": 0.0,
      "learning_rate": 3.5976835301303267e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5625
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.05555725097656,
      "epoch": 42.298507462686565,
      "grad_norm": 0.0,
      "learning_rate": 3.597098383512145e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5626
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.55555725097656,
      "epoch": 42.30597014925373,
      "grad_norm": 0.0,
      "learning_rate": 3.596513162446363e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5627
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.36111068725586,
      "epoch": 42.3134328358209,
      "grad_norm": 0.0,
      "learning_rate": 3.595927866972693e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5628
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.97222137451172,
      "epoch": 42.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 3.595342497130853e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5629
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.75,
      "epoch": 42.32835820895522,
      "grad_norm": 0.0,
      "learning_rate": 3.5947570529605657e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5630
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.61111068725586,
      "epoch": 42.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 3.594171534501557e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5631
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.80555725097656,
      "epoch": 42.343283582089555,
      "grad_norm": 0.0,
      "learning_rate": 3.59358594179356e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 5632
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 62.55555725097656,
      "epoch": 42.350746268656714,
      "grad_norm": 0.0,
      "learning_rate": 3.593000274876313e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5633
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.22222137451172,
      "epoch": 42.35820895522388,
      "grad_norm": 0.0,
      "learning_rate": 3.5924145337895567e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5634
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.77777862548828,
      "epoch": 42.365671641791046,
      "grad_norm": 0.0,
      "learning_rate": 3.591828718573041e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5635
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.38888931274414,
      "epoch": 42.37313432835821,
      "grad_norm": 0.0,
      "learning_rate": 3.5912428292665174e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5636
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.47222137451172,
      "epoch": 42.38059701492537,
      "grad_norm": 0.0,
      "learning_rate": 3.590656865909744e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5637
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.27777862548828,
      "epoch": 42.38805970149254,
      "grad_norm": 0.0,
      "learning_rate": 3.5900708285424817e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5638
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.13888931274414,
      "epoch": 42.3955223880597,
      "grad_norm": 0.0,
      "learning_rate": 3.5894847172045e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5639
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.27777862548828,
      "epoch": 42.40298507462686,
      "grad_norm": 0.0,
      "learning_rate": 3.5888985319355725e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5640
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.38888931274414,
      "epoch": 42.41044776119403,
      "grad_norm": 0.0,
      "learning_rate": 3.588312272775474e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5641
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.80555725097656,
      "epoch": 42.417910447761194,
      "grad_norm": 0.0,
      "learning_rate": 3.58772593976399e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5642
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.0,
      "epoch": 42.42537313432836,
      "grad_norm": 0.0,
      "learning_rate": 3.5871395329409064e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5643
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.61111068725586,
      "epoch": 42.43283582089552,
      "grad_norm": 0.0,
      "learning_rate": 3.5865530523460163e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5644
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.9444465637207,
      "epoch": 42.440298507462686,
      "grad_norm": 1.2843802224727647,
      "learning_rate": 3.585966498019119e-07,
      "loss": -0.0169,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 0.9722222089767456,
      "step": 5645
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.77777862548828,
      "epoch": 42.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 3.5853798700000157e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5646
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.80555725097656,
      "epoch": 42.45522388059702,
      "grad_norm": 0.0,
      "learning_rate": 3.5847931683285147e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5647
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.1944465637207,
      "epoch": 42.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 3.5842063930444285e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5648
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.55555725097656,
      "epoch": 42.47014925373134,
      "grad_norm": 0.0,
      "learning_rate": 3.583619544187575e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5649
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.9444465637207,
      "epoch": 42.47761194029851,
      "grad_norm": 0.0,
      "learning_rate": 3.5830326217977777e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 5650
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.66666793823242,
      "epoch": 42.485074626865675,
      "grad_norm": 0.0,
      "learning_rate": 3.5824456259148627e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5651
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.63888931274414,
      "epoch": 42.492537313432834,
      "grad_norm": 0.0,
      "learning_rate": 3.581858556578664e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5652
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.63888931274414,
      "epoch": 42.5,
      "grad_norm": 0.0,
      "learning_rate": 3.5812714138290203e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5653
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.16666793823242,
      "epoch": 42.507462686567166,
      "grad_norm": 0.0,
      "learning_rate": 3.580684197705771e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5654
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.02777862548828,
      "epoch": 42.514925373134325,
      "grad_norm": 0.0,
      "learning_rate": 3.5800969082487674e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 5655
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.6944465637207,
      "epoch": 42.52238805970149,
      "grad_norm": 0.0,
      "learning_rate": 3.5795095454978597e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5656
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.41666793823242,
      "epoch": 42.52985074626866,
      "grad_norm": 0.0,
      "learning_rate": 3.5789221094929074e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5657
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.86111068725586,
      "epoch": 42.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 3.5783346002737714e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5658
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.80555725097656,
      "epoch": 42.54477611940298,
      "grad_norm": 0.0,
      "learning_rate": 3.57774701788032e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5659
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.58333206176758,
      "epoch": 42.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 3.577159362352426e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5660
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.72222137451172,
      "epoch": 42.559701492537314,
      "grad_norm": 6.702302056731787,
      "learning_rate": 3.5765716337299664e-07,
      "loss": 0.0165,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 5661
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.72222137451172,
      "epoch": 42.56716417910448,
      "grad_norm": 0.0,
      "learning_rate": 3.575983832052824e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5662
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.13888931274414,
      "epoch": 42.57462686567164,
      "grad_norm": 0.0,
      "learning_rate": 3.5753959573608865e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5663
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.0,
      "epoch": 42.582089552238806,
      "grad_norm": 0.0,
      "learning_rate": 3.574808009694046e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5664
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.91666793823242,
      "epoch": 42.58955223880597,
      "grad_norm": 0.0,
      "learning_rate": 3.5742199890921986e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5665
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.13888931274414,
      "epoch": 42.59701492537313,
      "grad_norm": 0.0,
      "learning_rate": 3.573631895595249e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5666
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.72222137451172,
      "epoch": 42.6044776119403,
      "grad_norm": 10.282443549557534,
      "learning_rate": 3.573043729243103e-07,
      "loss": 0.0124,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 5667
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.05555725097656,
      "epoch": 42.61194029850746,
      "grad_norm": 0.0,
      "learning_rate": 3.572455490075672e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5668
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.72222137451172,
      "epoch": 42.61940298507463,
      "grad_norm": 0.0,
      "learning_rate": 3.5718671781328746e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5669
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.83333206176758,
      "epoch": 42.62686567164179,
      "grad_norm": 0.0,
      "learning_rate": 3.571278793454633e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5670
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.25,
      "epoch": 42.634328358208954,
      "grad_norm": 0.0,
      "learning_rate": 3.570690336080872e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 5671
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.33333206176758,
      "epoch": 42.64179104477612,
      "grad_norm": 0.0,
      "learning_rate": 3.570101806051526e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5672
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 66.1388931274414,
      "epoch": 42.649253731343286,
      "grad_norm": 0.0,
      "learning_rate": 3.56951320340653e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5673
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.61111068725586,
      "epoch": 42.656716417910445,
      "grad_norm": 0.0,
      "learning_rate": 3.5689245281858277e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5674
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.0,
      "epoch": 42.66417910447761,
      "grad_norm": 0.0,
      "learning_rate": 3.568335780429364e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 5675
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.55555725097656,
      "epoch": 42.67164179104478,
      "grad_norm": 0.0,
      "learning_rate": 3.5677469601770916e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5676
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.4444465637207,
      "epoch": 42.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 3.567158067468966e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5677
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.33333206176758,
      "epoch": 42.6865671641791,
      "grad_norm": 0.0,
      "learning_rate": 3.5665691023449496e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5678
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.30555725097656,
      "epoch": 42.69402985074627,
      "grad_norm": 0.0,
      "learning_rate": 3.5659800648450086e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5679
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.80555725097656,
      "epoch": 42.701492537313435,
      "grad_norm": 0.0,
      "learning_rate": 3.5653909550091134e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 5680
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.41666793823242,
      "epoch": 42.708955223880594,
      "grad_norm": 0.0,
      "learning_rate": 3.564801772877242e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 5681
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.30555725097656,
      "epoch": 42.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 3.5642125184893734e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5682
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.75,
      "epoch": 42.723880597014926,
      "grad_norm": 0.0,
      "learning_rate": 3.563623191885495e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5683
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.16666793823242,
      "epoch": 42.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 3.563033793105599e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5684
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.80555725097656,
      "epoch": 42.73880597014925,
      "grad_norm": 0.0,
      "learning_rate": 3.562444322189677e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5685
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.66666793823242,
      "epoch": 42.74626865671642,
      "grad_norm": 0.0,
      "learning_rate": 3.5618547791777335e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5686
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.16666793823242,
      "epoch": 42.75373134328358,
      "grad_norm": 0.0,
      "learning_rate": 3.561265164109772e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5687
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.41666793823242,
      "epoch": 42.76119402985075,
      "grad_norm": 0.0,
      "learning_rate": 3.5606754770258046e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5688
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.91666793823242,
      "epoch": 42.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 3.560085717965846e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5689
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.47222137451172,
      "epoch": 42.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 3.5594958869699154e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5690
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.25,
      "epoch": 42.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 3.55890598407804e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5691
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.11111068725586,
      "epoch": 42.791044776119406,
      "grad_norm": 38.91606955080227,
      "learning_rate": 3.558316009330248e-07,
      "loss": -0.0067,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 5692
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.55555725097656,
      "epoch": 42.798507462686565,
      "grad_norm": 0.0,
      "learning_rate": 3.5577259627665743e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5693
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.61111068725586,
      "epoch": 42.80597014925373,
      "grad_norm": 0.0,
      "learning_rate": 3.55713584442706e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5694
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.02777862548828,
      "epoch": 42.8134328358209,
      "grad_norm": 0.0,
      "learning_rate": 3.5565456543517485e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5695
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.80555725097656,
      "epoch": 42.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 3.55595539258069e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5696
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.6944465637207,
      "epoch": 42.82835820895522,
      "grad_norm": 23.379357888866117,
      "learning_rate": 3.5553650591539385e-07,
      "loss": -0.008,
      "reward": 1.9166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 5697
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.55555725097656,
      "epoch": 42.83582089552239,
      "grad_norm": 0.0,
      "learning_rate": 3.554774654111554e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5698
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.38888931274414,
      "epoch": 42.843283582089555,
      "grad_norm": 0.0,
      "learning_rate": 3.554184177493599e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5699
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.75,
      "epoch": 42.850746268656714,
      "grad_norm": 0.0,
      "learning_rate": 3.553593629340144e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5700
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.55555725097656,
      "epoch": 42.85820895522388,
      "grad_norm": 0.0,
      "learning_rate": 3.553003009691262e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5701
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.88888931274414,
      "epoch": 42.865671641791046,
      "grad_norm": 0.0,
      "learning_rate": 3.552412318587031e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5702
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.16666793823242,
      "epoch": 42.87313432835821,
      "grad_norm": 0.0,
      "learning_rate": 3.551821556067537e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5703
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.16666793823242,
      "epoch": 42.88059701492537,
      "grad_norm": 0.0,
      "learning_rate": 3.5512307221728655e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5704
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.83333206176758,
      "epoch": 42.88805970149254,
      "grad_norm": 0.0,
      "learning_rate": 3.5506398169431105e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5705
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.80555725097656,
      "epoch": 42.8955223880597,
      "grad_norm": 0.0,
      "learning_rate": 3.5500488404183715e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5706
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.02777862548828,
      "epoch": 42.90298507462687,
      "grad_norm": 0.0,
      "learning_rate": 3.5494577926387493e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5707
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.05555725097656,
      "epoch": 42.91044776119403,
      "grad_norm": 0.0,
      "learning_rate": 3.5488666736443535e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 5708
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.61111068725586,
      "epoch": 42.917910447761194,
      "grad_norm": 0.0,
      "learning_rate": 3.5482754834752947e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5709
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.27777862548828,
      "epoch": 42.92537313432836,
      "grad_norm": 0.0,
      "learning_rate": 3.547684222171691e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 5710
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.27777862548828,
      "epoch": 42.93283582089552,
      "grad_norm": 0.0,
      "learning_rate": 3.547092889773666e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5711
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.72222137451172,
      "epoch": 42.940298507462686,
      "grad_norm": 0.0,
      "learning_rate": 3.5465014863213436e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5712
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.08333206176758,
      "epoch": 42.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 3.545910011854859e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5713
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.4444465637207,
      "epoch": 42.95522388059702,
      "grad_norm": 0.0,
      "learning_rate": 3.545318466414347e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5714
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.4444465637207,
      "epoch": 42.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 3.5447268500399495e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5715
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 59.4444465637207,
      "epoch": 42.97014925373134,
      "grad_norm": 0.0,
      "learning_rate": 3.544135162771813e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5716
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.9444465637207,
      "epoch": 42.97761194029851,
      "grad_norm": 0.0,
      "learning_rate": 3.543543404650087e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5717
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.16666793823242,
      "epoch": 42.985074626865675,
      "grad_norm": 0.0,
      "learning_rate": 3.542951575714931e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5718
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.66666793823242,
      "epoch": 42.992537313432834,
      "grad_norm": 0.0,
      "learning_rate": 3.542359676006502e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5719
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 64.08333587646484,
      "epoch": 43.007462686567166,
      "grad_norm": 0.0,
      "learning_rate": 3.541767705564966e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5720
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.0,
      "epoch": 43.014925373134325,
      "grad_norm": 0.0,
      "learning_rate": 3.541175664430496e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5721
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.02777862548828,
      "epoch": 43.02238805970149,
      "grad_norm": 0.0,
      "learning_rate": 3.540583552643264e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5722
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.5,
      "epoch": 43.02985074626866,
      "grad_norm": 0.0,
      "learning_rate": 3.539991370243452e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5723
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.36111068725586,
      "epoch": 43.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 3.539399117271243e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5724
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.6944465637207,
      "epoch": 43.04477611940298,
      "grad_norm": 0.0,
      "learning_rate": 3.5388067937668293e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5725
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.97222137451172,
      "epoch": 43.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 3.538214399770402e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5726
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.16666793823242,
      "epoch": 43.059701492537314,
      "grad_norm": 0.0,
      "learning_rate": 3.5376219353221613e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5727
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.61111068725586,
      "epoch": 43.06716417910448,
      "grad_norm": 0.0,
      "learning_rate": 3.5370294004623113e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5728
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.80555725097656,
      "epoch": 43.07462686567164,
      "grad_norm": 0.0,
      "learning_rate": 3.5364367952310604e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5729
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.33333206176758,
      "epoch": 43.082089552238806,
      "grad_norm": 0.0,
      "learning_rate": 3.5358441196686215e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5730
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.02777862548828,
      "epoch": 43.08955223880597,
      "grad_norm": 0.0,
      "learning_rate": 3.535251373815214e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5731
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.72222137451172,
      "epoch": 43.09701492537314,
      "grad_norm": 0.0,
      "learning_rate": 3.5346585577110597e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5732
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.66666793823242,
      "epoch": 43.1044776119403,
      "grad_norm": 0.0,
      "learning_rate": 3.534065671396388e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5733
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.38888931274414,
      "epoch": 43.11194029850746,
      "grad_norm": 0.0,
      "learning_rate": 3.5334727149114287e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5734
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.05555725097656,
      "epoch": 43.11940298507463,
      "grad_norm": 0.0,
      "learning_rate": 3.532879688296421e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 5735
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.30555725097656,
      "epoch": 43.12686567164179,
      "grad_norm": 0.0,
      "learning_rate": 3.5322865915916056e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5736
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.13888931274414,
      "epoch": 43.134328358208954,
      "grad_norm": 0.0,
      "learning_rate": 3.53169342483723e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5737
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.86111068725586,
      "epoch": 43.14179104477612,
      "grad_norm": 0.0,
      "learning_rate": 3.5311001880735456e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5738
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.11111068725586,
      "epoch": 43.149253731343286,
      "grad_norm": 0.0,
      "learning_rate": 3.530506881340809e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5739
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.66666793823242,
      "epoch": 43.156716417910445,
      "grad_norm": 0.0,
      "learning_rate": 3.529913504679281e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5740
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.16666793823242,
      "epoch": 43.16417910447761,
      "grad_norm": 12.317887323611599,
      "learning_rate": 3.5293200581292266e-07,
      "loss": 0.009,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 5741
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.13888931274414,
      "epoch": 43.17164179104478,
      "grad_norm": 0.0,
      "learning_rate": 3.5287265417309177e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5742
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.58333206176758,
      "epoch": 43.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 3.5281329555246277e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5743
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.27777862548828,
      "epoch": 43.1865671641791,
      "grad_norm": 0.0,
      "learning_rate": 3.527539299550637e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5744
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.61111068725586,
      "epoch": 43.19402985074627,
      "grad_norm": 64.05737157315703,
      "learning_rate": 3.526945573849232e-07,
      "loss": 0.0137,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 5745
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 60.1944465637207,
      "epoch": 43.201492537313435,
      "grad_norm": 0.0,
      "learning_rate": 3.5263517784607e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5746
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.30555725097656,
      "epoch": 43.208955223880594,
      "grad_norm": 0.0,
      "learning_rate": 3.525757913425337e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5747
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.86111068725586,
      "epoch": 43.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 3.52516397878344e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5748
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.66666793823242,
      "epoch": 43.223880597014926,
      "grad_norm": 0.0,
      "learning_rate": 3.5245699745753134e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5749
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.63888931274414,
      "epoch": 43.23134328358209,
      "grad_norm": 9.896795867049644,
      "learning_rate": 3.523975900841266e-07,
      "loss": 0.009,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 5750
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.86111068725586,
      "epoch": 43.23880597014925,
      "grad_norm": 0.0,
      "learning_rate": 3.52338175762161e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5751
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.38888931274414,
      "epoch": 43.24626865671642,
      "grad_norm": 0.0,
      "learning_rate": 3.522787544956665e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5752
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.27777862548828,
      "epoch": 43.25373134328358,
      "grad_norm": 0.0,
      "learning_rate": 3.52219326288675e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5753
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 61.52777862548828,
      "epoch": 43.26119402985075,
      "grad_norm": 0.0,
      "learning_rate": 3.5215989114521954e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5754
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.47222137451172,
      "epoch": 43.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 3.521004490693331e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5755
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 54.25,
      "epoch": 43.276119402985074,
      "grad_norm": 0.0,
      "learning_rate": 3.5204100006504953e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5756
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.02777862548828,
      "epoch": 43.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 3.519815441364028e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5757
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.27777862548828,
      "epoch": 43.291044776119406,
      "grad_norm": 0.0,
      "learning_rate": 3.519220812874276e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5758
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.83333206176758,
      "epoch": 43.298507462686565,
      "grad_norm": 0.0,
      "learning_rate": 3.518626115221589e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5759
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.1944465637207,
      "epoch": 43.30597014925373,
      "grad_norm": 0.0,
      "learning_rate": 3.5180313484463235e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5760
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 56.1944465637207,
      "epoch": 43.3134328358209,
      "grad_norm": 0.0,
      "learning_rate": 3.517436512588839e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5761
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.66666793823242,
      "epoch": 43.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 3.516841607689501e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5762
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 58.61111068725586,
      "epoch": 43.32835820895522,
      "grad_norm": 1.962206881326438,
      "learning_rate": 3.516246633788677e-07,
      "loss": 0.0153,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 5763
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.02777862548828,
      "epoch": 43.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 3.515651590926743e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5764
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.0,
      "epoch": 43.343283582089555,
      "grad_norm": 0.0,
      "learning_rate": 3.5150564791440763e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5765
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.13888931274414,
      "epoch": 43.350746268656714,
      "grad_norm": 0.0,
      "learning_rate": 3.514461298481062e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5766
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.11111068725586,
      "epoch": 43.35820895522388,
      "grad_norm": 0.0,
      "learning_rate": 3.513866048978088e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5767
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.77777862548828,
      "epoch": 43.365671641791046,
      "grad_norm": 0.0,
      "learning_rate": 3.5132707306755456e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5768
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.47222137451172,
      "epoch": 43.37313432835821,
      "grad_norm": 0.0,
      "learning_rate": 3.512675343613834e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5769
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 53.55555725097656,
      "epoch": 43.38059701492537,
      "grad_norm": 0.0,
      "learning_rate": 3.512079887833354e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5770
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 55.36111068725586,
      "epoch": 43.38805970149254,
      "grad_norm": 0.0,
      "learning_rate": 3.511484363374513e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5771
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.91666793823242,
      "epoch": 43.3955223880597,
      "grad_norm": 0.0,
      "learning_rate": 3.510888770277723e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5772
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 57.63888931274414,
      "epoch": 43.40298507462686,
      "grad_norm": 0.0,
      "learning_rate": 3.5102931085833996e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5773
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.16666793823242,
      "epoch": 43.41044776119403,
      "grad_norm": 0.0,
      "learning_rate": 3.5096973783319637e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5774
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.02777862548828,
      "epoch": 43.417910447761194,
      "grad_norm": 0.0,
      "learning_rate": 3.50910157956384e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5775
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.55555725097656,
      "epoch": 43.42537313432836,
      "grad_norm": 0.0,
      "learning_rate": 3.5085057123194605e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5776
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 46.66666793823242,
      "epoch": 43.43283582089552,
      "grad_norm": 0.0,
      "learning_rate": 3.507909776639258e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5777
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.08333206176758,
      "epoch": 43.440298507462686,
      "grad_norm": 0.0,
      "learning_rate": 3.5073137725636726e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5778
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.4444465637207,
      "epoch": 43.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 3.506717700133149e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5779
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.5,
      "epoch": 43.45522388059702,
      "grad_norm": 0.0,
      "learning_rate": 3.5061215593881344e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5780
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.13888931274414,
      "epoch": 43.46268656716418,
      "grad_norm": 51.48341503464562,
      "learning_rate": 3.505525350369083e-07,
      "loss": 0.0169,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 5781
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.58333206176758,
      "epoch": 43.47014925373134,
      "grad_norm": 0.0,
      "learning_rate": 3.504929073116452e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5782
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.88888931274414,
      "epoch": 43.47761194029851,
      "grad_norm": 0.0,
      "learning_rate": 3.5043327276707055e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5783
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.88888931274414,
      "epoch": 43.485074626865675,
      "grad_norm": 0.0,
      "learning_rate": 3.5037363140723096e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 5784
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.58333206176758,
      "epoch": 43.492537313432834,
      "grad_norm": 0.0,
      "learning_rate": 3.503139832361736e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5785
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.6944465637207,
      "epoch": 43.5,
      "grad_norm": 0.0,
      "learning_rate": 3.502543282579463e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5786
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.0,
      "epoch": 43.507462686567166,
      "grad_norm": 0.0,
      "learning_rate": 3.5019466647659677e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5787
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.58333206176758,
      "epoch": 43.514925373134325,
      "grad_norm": 0.0,
      "learning_rate": 3.501349978961739e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5788
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.02777862548828,
      "epoch": 43.52238805970149,
      "grad_norm": 0.0,
      "learning_rate": 3.500753225207267e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5789
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 46.83333206176758,
      "epoch": 43.52985074626866,
      "grad_norm": 0.0,
      "learning_rate": 3.5001564035430453e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5790
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.13888931274414,
      "epoch": 43.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 3.4995595140095747e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5791
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.08333206176758,
      "epoch": 43.54477611940298,
      "grad_norm": 0.0,
      "learning_rate": 3.498962556647358e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5792
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.41666793823242,
      "epoch": 43.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 3.4983655314969047e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5793
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.5,
      "epoch": 43.559701492537314,
      "grad_norm": 0.0,
      "learning_rate": 3.497768438598728e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5794
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.25,
      "epoch": 43.56716417910448,
      "grad_norm": 0.0,
      "learning_rate": 3.4971712779933455e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5795
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.4444465637207,
      "epoch": 43.57462686567164,
      "grad_norm": 0.0,
      "learning_rate": 3.4965740497212804e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5796
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 50.4444465637207,
      "epoch": 43.582089552238806,
      "grad_norm": 0.0,
      "learning_rate": 3.495976753823059e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5797
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 46.41666793823242,
      "epoch": 43.58955223880597,
      "grad_norm": 0.0,
      "learning_rate": 3.4953793903392137e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5798
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.75,
      "epoch": 43.59701492537313,
      "grad_norm": 0.0,
      "learning_rate": 3.49478195931028e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5799
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 45.47222137451172,
      "epoch": 43.6044776119403,
      "grad_norm": 0.0,
      "learning_rate": 3.4941844607768e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5800
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.58333206176758,
      "epoch": 43.61194029850746,
      "grad_norm": 0.0,
      "learning_rate": 3.493586894779318e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5801
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 49.30555725097656,
      "epoch": 43.61940298507463,
      "grad_norm": 0.0,
      "learning_rate": 3.492989261358383e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5802
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.9444465637207,
      "epoch": 43.62686567164179,
      "grad_norm": 0.0,
      "learning_rate": 3.4923915605545533e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5803
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.55555725097656,
      "epoch": 43.634328358208954,
      "grad_norm": 1.3460160146779363,
      "learning_rate": 3.491793792408384e-07,
      "loss": 0.0156,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 5804
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 52.97222137451172,
      "epoch": 43.64179104477612,
      "grad_norm": 0.0,
      "learning_rate": 3.491195956960441e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5805
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 51.80555725097656,
      "epoch": 43.649253731343286,
      "grad_norm": 0.0,
      "learning_rate": 3.490598054251292e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5806
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.36111068725586,
      "epoch": 43.656716417910445,
      "grad_norm": 0.0,
      "learning_rate": 3.4900000843215107e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5807
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 45.05555725097656,
      "epoch": 43.66417910447761,
      "grad_norm": 0.0,
      "learning_rate": 3.4894020472116724e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5808
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.4444465637207,
      "epoch": 43.67164179104478,
      "grad_norm": 0.0,
      "learning_rate": 3.488803942962361e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 5809
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 46.88888931274414,
      "epoch": 43.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 3.488205771614163e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5810
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 45.16666793823242,
      "epoch": 43.6865671641791,
      "grad_norm": 0.0,
      "learning_rate": 3.487607533207669e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5811
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 46.0,
      "epoch": 43.69402985074627,
      "grad_norm": 0.0,
      "learning_rate": 3.4870092277834747e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5812
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.86111068725586,
      "epoch": 43.701492537313435,
      "grad_norm": 0.0,
      "learning_rate": 3.4864108553821797e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5813
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 47.52777862548828,
      "epoch": 43.708955223880594,
      "grad_norm": 0.0,
      "learning_rate": 3.48581241604439e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5814
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 48.61111068725586,
      "epoch": 43.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 3.4852139098107137e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5815
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.75,
      "epoch": 43.723880597014926,
      "grad_norm": 0.0,
      "learning_rate": 3.4846153367217654e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 5816
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 45.97222137451172,
      "epoch": 43.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 3.484016696818163e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5817
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.16666793823242,
      "epoch": 43.73880597014925,
      "grad_norm": 0.0,
      "learning_rate": 3.4834179901405293e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5818
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.25,
      "epoch": 43.74626865671642,
      "grad_norm": 0.0,
      "learning_rate": 3.482819216729492e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5819
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.97222137451172,
      "epoch": 43.75373134328358,
      "grad_norm": 0.0,
      "learning_rate": 3.482220376625683e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5820
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 45.02777862548828,
      "epoch": 43.76119402985075,
      "grad_norm": 0.0,
      "learning_rate": 3.4816214698697387e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5821
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 44.61111068725586,
      "epoch": 43.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 3.4810224965023e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5822
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 44.25,
      "epoch": 43.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 3.4804234565640127e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5823
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 44.33333206176758,
      "epoch": 43.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 3.479824350095527e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5824
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.02777862548828,
      "epoch": 43.791044776119406,
      "grad_norm": 0.0,
      "learning_rate": 3.479225177137497e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5825
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.80555725097656,
      "epoch": 43.798507462686565,
      "grad_norm": 0.0,
      "learning_rate": 3.4786259377305815e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5826
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.77777862548828,
      "epoch": 43.80597014925373,
      "grad_norm": 0.0,
      "learning_rate": 3.4780266319154454e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 5827
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.9444465637207,
      "epoch": 43.8134328358209,
      "grad_norm": 0.0,
      "learning_rate": 3.4774272597327553e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5828
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.75,
      "epoch": 43.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 3.4768278212231837e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5829
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.02777862548828,
      "epoch": 43.82835820895522,
      "grad_norm": 0.0,
      "learning_rate": 3.4762283164274097e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5830
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.47222137451172,
      "epoch": 43.83582089552239,
      "grad_norm": 0.0,
      "learning_rate": 3.475628745386113e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5831
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.16666793823242,
      "epoch": 43.843283582089555,
      "grad_norm": 0.0,
      "learning_rate": 3.4750291081399795e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5832
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.13888931274414,
      "epoch": 43.850746268656714,
      "grad_norm": 0.0,
      "learning_rate": 3.474429404729701e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5833
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.58333206176758,
      "epoch": 43.85820895522388,
      "grad_norm": 0.0,
      "learning_rate": 3.4738296351959715e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5834
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.13888931274414,
      "epoch": 43.865671641791046,
      "grad_norm": 0.0,
      "learning_rate": 3.473229799579492e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5835
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.30555725097656,
      "epoch": 43.87313432835821,
      "grad_norm": 0.0,
      "learning_rate": 3.4726298979209645e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5836
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.97222137451172,
      "epoch": 43.88059701492537,
      "grad_norm": 0.0,
      "learning_rate": 3.472029930261099e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5837
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.1944465637207,
      "epoch": 43.88805970149254,
      "grad_norm": 0.0,
      "learning_rate": 3.471429896640609e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5838
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.91666793823242,
      "epoch": 43.8955223880597,
      "grad_norm": 0.0,
      "learning_rate": 3.470829797100209e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5839
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.33333206176758,
      "epoch": 43.90298507462687,
      "grad_norm": 0.0,
      "learning_rate": 3.470229631680624e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5840
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 44.13888931274414,
      "epoch": 43.91044776119403,
      "grad_norm": 0.0,
      "learning_rate": 3.4696294004225795e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5841
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 44.97222137451172,
      "epoch": 43.917910447761194,
      "grad_norm": 0.0,
      "learning_rate": 3.469029103366806e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5842
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.02777862548828,
      "epoch": 43.92537313432836,
      "grad_norm": 0.0,
      "learning_rate": 3.468428740554039e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5843
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.0,
      "epoch": 43.93283582089552,
      "grad_norm": 0.0,
      "learning_rate": 3.467828312025019e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5844
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.11111068725586,
      "epoch": 43.940298507462686,
      "grad_norm": 0.0,
      "learning_rate": 3.4672278178204895e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5845
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.61111068725586,
      "epoch": 43.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 3.4666272579811986e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5846
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.27777862548828,
      "epoch": 43.95522388059702,
      "grad_norm": 0.0,
      "learning_rate": 3.4660266325479e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5847
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.22222137451172,
      "epoch": 43.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 3.465425941561353e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5848
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.86111068725586,
      "epoch": 43.97014925373134,
      "grad_norm": 0.0,
      "learning_rate": 3.464825185062317e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5849
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.75,
      "epoch": 43.97761194029851,
      "grad_norm": 0.0,
      "learning_rate": 3.46422436309156e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5850
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.41666793823242,
      "epoch": 43.985074626865675,
      "grad_norm": 0.0,
      "learning_rate": 3.4636234756898536e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5851
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.583335876464844,
      "epoch": 43.992537313432834,
      "grad_norm": 0.0,
      "learning_rate": 3.4630225228979717e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 5852
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.83333206176758,
      "epoch": 44.007462686567166,
      "grad_norm": 0.0,
      "learning_rate": 3.4624215047566943e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5853
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 45.77777862548828,
      "epoch": 44.014925373134325,
      "grad_norm": 0.0,
      "learning_rate": 3.4618204213068066e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5854
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 44.1944465637207,
      "epoch": 44.02238805970149,
      "grad_norm": 0.0,
      "learning_rate": 3.4612192725890963e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5855
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.30555725097656,
      "epoch": 44.02985074626866,
      "grad_norm": 0.0,
      "learning_rate": 3.460618058644357e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5856
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.77777862548828,
      "epoch": 44.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 3.460016779513387e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5857
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.36111068725586,
      "epoch": 44.04477611940298,
      "grad_norm": 0.0,
      "learning_rate": 3.4594154352369874e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5858
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.91666793823242,
      "epoch": 44.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 3.4588140258559647e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5859
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.16666793823242,
      "epoch": 44.059701492537314,
      "grad_norm": 0.0,
      "learning_rate": 3.4582125514111294e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5860
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.27777862548828,
      "epoch": 44.06716417910448,
      "grad_norm": 0.0,
      "learning_rate": 3.4576110119432976e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5861
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.88888931274414,
      "epoch": 44.07462686567164,
      "grad_norm": 0.0,
      "learning_rate": 3.457009407493288e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5862
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.5,
      "epoch": 44.082089552238806,
      "grad_norm": 0.0,
      "learning_rate": 3.4564077381019253e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5863
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.1944465637207,
      "epoch": 44.08955223880597,
      "grad_norm": 0.0,
      "learning_rate": 3.4558060038100384e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5864
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 36.47222137451172,
      "epoch": 44.09701492537314,
      "grad_norm": 0.0,
      "learning_rate": 3.455204204658459e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5865
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.41666793823242,
      "epoch": 44.1044776119403,
      "grad_norm": 0.0,
      "learning_rate": 3.454602340688025e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 5866
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.16666793823242,
      "epoch": 44.11194029850746,
      "grad_norm": 0.0,
      "learning_rate": 3.4540004119395784e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5867
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.55555725097656,
      "epoch": 44.11940298507463,
      "grad_norm": 0.0,
      "learning_rate": 3.453398418453964e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5868
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.6944465637207,
      "epoch": 44.12686567164179,
      "grad_norm": 0.0,
      "learning_rate": 3.4527963602720345e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5869
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.16666793823242,
      "epoch": 44.134328358208954,
      "grad_norm": 0.0,
      "learning_rate": 3.452194237434642e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5870
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.55555725097656,
      "epoch": 44.14179104477612,
      "grad_norm": 0.0,
      "learning_rate": 3.451592049982648e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5871
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.30555725097656,
      "epoch": 44.149253731343286,
      "grad_norm": 0.0,
      "learning_rate": 3.4509897979569146e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5872
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.91666793823242,
      "epoch": 44.156716417910445,
      "grad_norm": 0.0,
      "learning_rate": 3.450387481398311e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5873
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.36111068725586,
      "epoch": 44.16417910447761,
      "grad_norm": 0.0,
      "learning_rate": 3.4497851003477087e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5874
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.0,
      "epoch": 44.17164179104478,
      "grad_norm": 0.0,
      "learning_rate": 3.449182654845985e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5875
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.83333206176758,
      "epoch": 44.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 3.4485801449340207e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5876
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.47222137451172,
      "epoch": 44.1865671641791,
      "grad_norm": 0.0,
      "learning_rate": 3.4479775706527017e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5877
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.25,
      "epoch": 44.19402985074627,
      "grad_norm": 0.0,
      "learning_rate": 3.447374932042917e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5878
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.75,
      "epoch": 44.201492537313435,
      "grad_norm": 0.0,
      "learning_rate": 3.4467722291455616e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5879
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.47222137451172,
      "epoch": 44.208955223880594,
      "grad_norm": 0.0,
      "learning_rate": 3.4461694620015337e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5880
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.83333206176758,
      "epoch": 44.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 3.4455666306517365e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 5881
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.72222137451172,
      "epoch": 44.223880597014926,
      "grad_norm": 0.0,
      "learning_rate": 3.444963735137078e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5882
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.11111068725586,
      "epoch": 44.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 3.444360775498468e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5883
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.1944465637207,
      "epoch": 44.23880597014925,
      "grad_norm": 27.628312397950904,
      "learning_rate": 3.4437577517768246e-07,
      "loss": 0.0021,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 5884
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.38888931274414,
      "epoch": 44.24626865671642,
      "grad_norm": 0.0,
      "learning_rate": 3.443154664013067e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5885
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.02777862548828,
      "epoch": 44.25373134328358,
      "grad_norm": 0.0,
      "learning_rate": 3.4425515122481205e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5886
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.13888931274414,
      "epoch": 44.26119402985075,
      "grad_norm": 0.0,
      "learning_rate": 3.441948296522913e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5887
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.13888931274414,
      "epoch": 44.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 3.4413450168783794e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5888
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 46.5,
      "epoch": 44.276119402985074,
      "grad_norm": 0.0,
      "learning_rate": 3.440741673355456e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 5889
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.0,
      "epoch": 44.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 3.440138265995086e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5890
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.05555725097656,
      "epoch": 44.291044776119406,
      "grad_norm": 0.0,
      "learning_rate": 3.4395347948382154e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5891
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.58333206176758,
      "epoch": 44.298507462686565,
      "grad_norm": 0.0,
      "learning_rate": 3.4389312599257946e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5892
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.36111068725586,
      "epoch": 44.30597014925373,
      "grad_norm": 0.0,
      "learning_rate": 3.4383276612987795e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 5893
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.80555725097656,
      "epoch": 44.3134328358209,
      "grad_norm": 0.0,
      "learning_rate": 3.437723998998129e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5894
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.30555725097656,
      "epoch": 44.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 3.4371202730648065e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5895
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.86111068725586,
      "epoch": 44.32835820895522,
      "grad_norm": 0.0,
      "learning_rate": 3.43651648353978e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 5896
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.5,
      "epoch": 44.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 3.435912630464022e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5897
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.63888931274414,
      "epoch": 44.343283582089555,
      "grad_norm": 0.0,
      "learning_rate": 3.4353087138785103e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5898
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.86111068725586,
      "epoch": 44.350746268656714,
      "grad_norm": 0.0,
      "learning_rate": 3.434704733824224e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5899
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.38888931274414,
      "epoch": 44.35820895522388,
      "grad_norm": 2.190519269572852,
      "learning_rate": 3.4341006903421485e-07,
      "loss": -0.0178,
      "reward": 1.9444444179534912,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.944444477558136,
      "rewards/format_reward": 1.0,
      "step": 5900
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.47222137451172,
      "epoch": 44.365671641791046,
      "grad_norm": 0.0,
      "learning_rate": 3.4334965834732755e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5901
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.6944465637207,
      "epoch": 44.37313432835821,
      "grad_norm": 0.0,
      "learning_rate": 3.4328924132585966e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5902
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.6944465637207,
      "epoch": 44.38059701492537,
      "grad_norm": 0.0,
      "learning_rate": 3.4322881797391116e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5903
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.30555725097656,
      "epoch": 44.38805970149254,
      "grad_norm": 0.0,
      "learning_rate": 3.4316838829558215e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5904
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.66666793823242,
      "epoch": 44.3955223880597,
      "grad_norm": 0.0,
      "learning_rate": 3.4310795229497334e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5905
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.02777862548828,
      "epoch": 44.40298507462686,
      "grad_norm": 0.0,
      "learning_rate": 3.4304750997618595e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 5906
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.4444465637207,
      "epoch": 44.41044776119403,
      "grad_norm": 0.0,
      "learning_rate": 3.4298706134332136e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5907
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.6944465637207,
      "epoch": 44.417910447761194,
      "grad_norm": 0.0,
      "learning_rate": 3.429266064004816e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5908
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.72222137451172,
      "epoch": 44.42537313432836,
      "grad_norm": 0.0,
      "learning_rate": 3.428661451517691e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5909
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.61111068725586,
      "epoch": 44.43283582089552,
      "grad_norm": 0.0,
      "learning_rate": 3.4280567760128653e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5910
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.30555725097656,
      "epoch": 44.440298507462686,
      "grad_norm": 145.25902738246356,
      "learning_rate": 3.4274520375313737e-07,
      "loss": -0.0141,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 5911
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.5,
      "epoch": 44.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 3.4268472361142515e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5912
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.77777862548828,
      "epoch": 44.45522388059702,
      "grad_norm": 0.0,
      "learning_rate": 3.4262423718025396e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5913
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.36111068725586,
      "epoch": 44.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 3.425637444637283e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5914
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 44.36111068725586,
      "epoch": 44.47014925373134,
      "grad_norm": 0.0,
      "learning_rate": 3.4250324546595327e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5915
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.41666793823242,
      "epoch": 44.47761194029851,
      "grad_norm": 0.0,
      "learning_rate": 3.424427401910341e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5916
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 46.36111068725586,
      "epoch": 44.485074626865675,
      "grad_norm": 0.0,
      "learning_rate": 3.4238222864307663e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5917
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.80555725097656,
      "epoch": 44.492537313432834,
      "grad_norm": 0.0,
      "learning_rate": 3.4232171082618717e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5918
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.6944465637207,
      "epoch": 44.5,
      "grad_norm": 0.0,
      "learning_rate": 3.422611867444723e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5919
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.22222137451172,
      "epoch": 44.507462686567166,
      "grad_norm": 0.0,
      "learning_rate": 3.422006564020391e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5920
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.16666793823242,
      "epoch": 44.514925373134325,
      "grad_norm": 0.0,
      "learning_rate": 3.421401198029951e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5921
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.63888931274414,
      "epoch": 44.52238805970149,
      "grad_norm": 0.0,
      "learning_rate": 3.420795769514482e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5922
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.25,
      "epoch": 44.52985074626866,
      "grad_norm": 0.0,
      "learning_rate": 3.420190278515069e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5923
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.4444465637207,
      "epoch": 44.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 3.419584725072797e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5924
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.91666793823242,
      "epoch": 44.54477611940298,
      "grad_norm": 0.0,
      "learning_rate": 3.418979109228761e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5925
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.55555725097656,
      "epoch": 44.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 3.4183734310240553e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5926
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.16666793823242,
      "epoch": 44.559701492537314,
      "grad_norm": 0.0,
      "learning_rate": 3.417767690499781e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5927
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.83333206176758,
      "epoch": 44.56716417910448,
      "grad_norm": 0.0,
      "learning_rate": 3.417161887697043e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5928
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.80555725097656,
      "epoch": 44.57462686567164,
      "grad_norm": 0.0,
      "learning_rate": 3.4165560226569495e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5929
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.22222137451172,
      "epoch": 44.582089552238806,
      "grad_norm": 0.0,
      "learning_rate": 3.4159500954206153e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5930
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.58333206176758,
      "epoch": 44.58955223880597,
      "grad_norm": 0.0,
      "learning_rate": 3.415344106029156e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5931
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.41666793823242,
      "epoch": 44.59701492537313,
      "grad_norm": 0.0,
      "learning_rate": 3.4147380545236947e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 5932
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 44.27777862548828,
      "epoch": 44.6044776119403,
      "grad_norm": 0.0,
      "learning_rate": 3.4141319409453563e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5933
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.41666793823242,
      "epoch": 44.61194029850746,
      "grad_norm": 0.0,
      "learning_rate": 3.41352576533527e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5934
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.5,
      "epoch": 44.61940298507463,
      "grad_norm": 0.0,
      "learning_rate": 3.412919527734572e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5935
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.27777862548828,
      "epoch": 44.62686567164179,
      "grad_norm": 0.0,
      "learning_rate": 3.4123132281844005e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5936
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.08333206176758,
      "epoch": 44.634328358208954,
      "grad_norm": 0.0,
      "learning_rate": 3.411706866725896e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5937
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.86111068725586,
      "epoch": 44.64179104477612,
      "grad_norm": 0.0,
      "learning_rate": 3.411100443400208e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5938
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.52777862548828,
      "epoch": 44.649253731343286,
      "grad_norm": 0.0,
      "learning_rate": 3.4104939582484855e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5939
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.75,
      "epoch": 44.656716417910445,
      "grad_norm": 0.0,
      "learning_rate": 3.409887411311886e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5940
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.91666793823242,
      "epoch": 44.66417910447761,
      "grad_norm": 0.0,
      "learning_rate": 3.4092808026315667e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5941
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.47222137451172,
      "epoch": 44.67164179104478,
      "grad_norm": 0.0,
      "learning_rate": 3.4086741322486924e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5942
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.5,
      "epoch": 44.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 3.4080674002044306e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5943
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.0,
      "epoch": 44.6865671641791,
      "grad_norm": 0.0,
      "learning_rate": 3.4074606065399533e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5944
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.66666793823242,
      "epoch": 44.69402985074627,
      "grad_norm": 44.53273164222815,
      "learning_rate": 3.4068537512964376e-07,
      "loss": 0.0047,
      "reward": 1.6944444179534912,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 5945
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.25,
      "epoch": 44.701492537313435,
      "grad_norm": 0.0,
      "learning_rate": 3.406246834515062e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5946
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.05555725097656,
      "epoch": 44.708955223880594,
      "grad_norm": 0.0,
      "learning_rate": 3.405639856237013e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5947
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.08333206176758,
      "epoch": 44.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 3.4050328165034777e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5948
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.88888931274414,
      "epoch": 44.723880597014926,
      "grad_norm": 0.0,
      "learning_rate": 3.40442571535565e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5949
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.02777862548828,
      "epoch": 44.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 3.403818552834727e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5950
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.13888931274414,
      "epoch": 44.73880597014925,
      "grad_norm": 0.0,
      "learning_rate": 3.403211328981909e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5951
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.63888931274414,
      "epoch": 44.74626865671642,
      "grad_norm": 0.0,
      "learning_rate": 3.402604043838402e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5952
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.72222137451172,
      "epoch": 44.75373134328358,
      "grad_norm": 0.0,
      "learning_rate": 3.401996697445416e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5953
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.13888931274414,
      "epoch": 44.76119402985075,
      "grad_norm": 0.0,
      "learning_rate": 3.4013892898441645e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5954
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.88888931274414,
      "epoch": 44.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 3.4007818210758645e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5955
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.97222137451172,
      "epoch": 44.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 3.4001742911817384e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5956
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.58333206176758,
      "epoch": 44.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 3.3995667002030134e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5957
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.47222137451172,
      "epoch": 44.791044776119406,
      "grad_norm": 0.0,
      "learning_rate": 3.398959048180918e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5958
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.66666793823242,
      "epoch": 44.798507462686565,
      "grad_norm": 0.0,
      "learning_rate": 3.3983513351566877e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5959
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.9444465637207,
      "epoch": 44.80597014925373,
      "grad_norm": 0.0,
      "learning_rate": 3.3977435611715615e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5960
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.36111068725586,
      "epoch": 44.8134328358209,
      "grad_norm": 8.425591869646404,
      "learning_rate": 3.397135726266781e-07,
      "loss": 0.0204,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 5961
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.83333206176758,
      "epoch": 44.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 3.3965278304835937e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5962
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.52777862548828,
      "epoch": 44.82835820895522,
      "grad_norm": 0.0,
      "learning_rate": 3.39591987386325e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5963
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.86111068725586,
      "epoch": 44.83582089552239,
      "grad_norm": 0.0,
      "learning_rate": 3.3953118564470074e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5964
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.63888931274414,
      "epoch": 44.843283582089555,
      "grad_norm": 0.0,
      "learning_rate": 3.394703778276121e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5965
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.86111068725586,
      "epoch": 44.850746268656714,
      "grad_norm": 0.0,
      "learning_rate": 3.3940956393918573e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5966
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.80555725097656,
      "epoch": 44.85820895522388,
      "grad_norm": 0.0,
      "learning_rate": 3.3934874398354827e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5967
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.16666793823242,
      "epoch": 44.865671641791046,
      "grad_norm": 0.0,
      "learning_rate": 3.3928791796482694e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5968
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.4444465637207,
      "epoch": 44.87313432835821,
      "grad_norm": 0.0,
      "learning_rate": 3.3922708588714924e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5969
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.9444465637207,
      "epoch": 44.88059701492537,
      "grad_norm": 0.0,
      "learning_rate": 3.391662477546431e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5970
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.5,
      "epoch": 44.88805970149254,
      "grad_norm": 0.0,
      "learning_rate": 3.391054035714371e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5971
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.77777862548828,
      "epoch": 44.8955223880597,
      "grad_norm": 0.0,
      "learning_rate": 3.390445533416599e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5972
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.5,
      "epoch": 44.90298507462687,
      "grad_norm": 0.0,
      "learning_rate": 3.389836970694406e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5973
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.52777862548828,
      "epoch": 44.91044776119403,
      "grad_norm": 0.0,
      "learning_rate": 3.389228347589092e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5974
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.47222137451172,
      "epoch": 44.917910447761194,
      "grad_norm": 0.0,
      "learning_rate": 3.388619664141954e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5975
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.41666793823242,
      "epoch": 44.92537313432836,
      "grad_norm": 0.0,
      "learning_rate": 3.3880109203942973e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5976
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.11111068725586,
      "epoch": 44.93283582089552,
      "grad_norm": 94.39133312397843,
      "learning_rate": 3.387402116387431e-07,
      "loss": -0.0015,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 5977
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.75,
      "epoch": 44.940298507462686,
      "grad_norm": 0.0,
      "learning_rate": 3.386793252162667e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5978
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.52777862548828,
      "epoch": 44.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 3.3861843277613224e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5979
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.27777862548828,
      "epoch": 44.95522388059702,
      "grad_norm": 0.0,
      "learning_rate": 3.3855753432247173e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5980
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 36.4444465637207,
      "epoch": 44.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 3.3849662985941786e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5981
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.83333206176758,
      "epoch": 44.97014925373134,
      "grad_norm": 0.0,
      "learning_rate": 3.384357193911032e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5982
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.30555725097656,
      "epoch": 44.97761194029851,
      "grad_norm": 0.0,
      "learning_rate": 3.383748029216613e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5983
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.80555725097656,
      "epoch": 44.985074626865675,
      "grad_norm": 0.0,
      "learning_rate": 3.3831388045522585e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5984
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.91666793823242,
      "epoch": 44.992537313432834,
      "grad_norm": 5.389159129560867,
      "learning_rate": 3.3825295199593087e-07,
      "loss": 0.001,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 5985
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.61111068725586,
      "epoch": 45.007462686567166,
      "grad_norm": 0.0,
      "learning_rate": 3.381920175479109e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5986
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.72222137451172,
      "epoch": 45.014925373134325,
      "grad_norm": 0.0,
      "learning_rate": 3.3813107711530094e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5987
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.97222137451172,
      "epoch": 45.02238805970149,
      "grad_norm": 0.0,
      "learning_rate": 3.380701307022362e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5988
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.27777862548828,
      "epoch": 45.02985074626866,
      "grad_norm": 0.0,
      "learning_rate": 3.380091783128526e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5989
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.30555725097656,
      "epoch": 45.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 3.37948219951286e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5990
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.08333206176758,
      "epoch": 45.04477611940298,
      "grad_norm": 0.0,
      "learning_rate": 3.378872556216734e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5991
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.36111068725586,
      "epoch": 45.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 3.378262853281513e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5992
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.11111068725586,
      "epoch": 45.059701492537314,
      "grad_norm": 0.0,
      "learning_rate": 3.3776530907485735e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 5993
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.61111068725586,
      "epoch": 45.06716417910448,
      "grad_norm": 0.0,
      "learning_rate": 3.377043268659291e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5994
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 44.0,
      "epoch": 45.07462686567164,
      "grad_norm": 0.0,
      "learning_rate": 3.3764333870550495e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5995
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.22222137451172,
      "epoch": 45.082089552238806,
      "grad_norm": 0.0,
      "learning_rate": 3.3758234459772327e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 5996
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.0,
      "epoch": 45.08955223880597,
      "grad_norm": 0.0,
      "learning_rate": 3.375213445467232e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5997
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.47222137451172,
      "epoch": 45.09701492537314,
      "grad_norm": 0.0,
      "learning_rate": 3.37460338556644e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5998
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.27777862548828,
      "epoch": 45.1044776119403,
      "grad_norm": 0.0,
      "learning_rate": 3.3739932663162557e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 5999
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.25,
      "epoch": 45.11194029850746,
      "grad_norm": 0.0,
      "learning_rate": 3.3733830877580794e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6000
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.05555725097656,
      "epoch": 45.11940298507463,
      "grad_norm": 0.0,
      "learning_rate": 3.3727728499333185e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6001
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.86111068725586,
      "epoch": 45.12686567164179,
      "grad_norm": 0.0,
      "learning_rate": 3.372162552883382e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 6002
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.0,
      "epoch": 45.134328358208954,
      "grad_norm": 0.0,
      "learning_rate": 3.371552196649684e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 6003
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.61111068725586,
      "epoch": 45.14179104477612,
      "grad_norm": 0.0,
      "learning_rate": 3.370941781273643e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6004
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.86111068725586,
      "epoch": 45.149253731343286,
      "grad_norm": 0.0,
      "learning_rate": 3.37033130679668e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6005
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.16666793823242,
      "epoch": 45.156716417910445,
      "grad_norm": 0.0,
      "learning_rate": 3.369720773260222e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6006
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.61111068725586,
      "epoch": 45.16417910447761,
      "grad_norm": 0.0,
      "learning_rate": 3.369110180705697e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6007
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.47222137451172,
      "epoch": 45.17164179104478,
      "grad_norm": 0.0,
      "learning_rate": 3.368499529174542e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6008
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.9444465637207,
      "epoch": 45.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 3.367888818708193e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6009
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 36.05555725097656,
      "epoch": 45.1865671641791,
      "grad_norm": 0.0,
      "learning_rate": 3.367278049348092e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6010
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.25,
      "epoch": 45.19402985074627,
      "grad_norm": 0.0,
      "learning_rate": 3.3666672211356857e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6011
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.41666793823242,
      "epoch": 45.201492537313435,
      "grad_norm": 0.0,
      "learning_rate": 3.366056334112423e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6012
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.91666793823242,
      "epoch": 45.208955223880594,
      "grad_norm": 0.0,
      "learning_rate": 3.365445388319759e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6013
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.63888931274414,
      "epoch": 45.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 3.364834383799151e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 6014
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.91666793823242,
      "epoch": 45.223880597014926,
      "grad_norm": 0.0,
      "learning_rate": 3.3642233205920615e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6015
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.25,
      "epoch": 45.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 3.3636121987399565e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6016
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 44.38888931274414,
      "epoch": 45.23880597014925,
      "grad_norm": 0.0,
      "learning_rate": 3.363001018284304e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6017
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.0,
      "epoch": 45.24626865671642,
      "grad_norm": 0.0,
      "learning_rate": 3.362389779266581e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6018
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.08333206176758,
      "epoch": 45.25373134328358,
      "grad_norm": 0.0,
      "learning_rate": 3.361778481728263e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6019
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.27777862548828,
      "epoch": 45.26119402985075,
      "grad_norm": 0.0,
      "learning_rate": 3.361167125710832e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6020
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.61111068725586,
      "epoch": 45.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 3.360555711255775e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 6021
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.86111068725586,
      "epoch": 45.276119402985074,
      "grad_norm": 0.0,
      "learning_rate": 3.3599442384045805e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6022
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.9444465637207,
      "epoch": 45.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 3.359332707198743e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6023
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.36111068725586,
      "epoch": 45.291044776119406,
      "grad_norm": 0.0,
      "learning_rate": 3.3587211176797596e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6024
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.91666793823242,
      "epoch": 45.298507462686565,
      "grad_norm": 0.0,
      "learning_rate": 3.358109469889133e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6025
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.1944465637207,
      "epoch": 45.30597014925373,
      "grad_norm": 0.0,
      "learning_rate": 3.357497763868368e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 6026
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.9444465637207,
      "epoch": 45.3134328358209,
      "grad_norm": 0.0,
      "learning_rate": 3.3568859996589725e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 6027
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.1944465637207,
      "epoch": 45.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 3.3562741773024637e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6028
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.75,
      "epoch": 45.32835820895522,
      "grad_norm": 0.0,
      "learning_rate": 3.355662296840356e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6029
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.30555725097656,
      "epoch": 45.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 3.355050358314172e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6030
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.86111068725586,
      "epoch": 45.343283582089555,
      "grad_norm": 0.0,
      "learning_rate": 3.354438361765436e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6031
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.77777862548828,
      "epoch": 45.350746268656714,
      "grad_norm": 0.0,
      "learning_rate": 3.3538263072356793e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6032
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.86111068725586,
      "epoch": 45.35820895522388,
      "grad_norm": 0.0,
      "learning_rate": 3.353214194766433e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6033
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.0,
      "epoch": 45.365671641791046,
      "grad_norm": 0.0,
      "learning_rate": 3.352602024399235e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6034
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.30555725097656,
      "epoch": 45.37313432835821,
      "grad_norm": 0.0,
      "learning_rate": 3.351989796175627e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6035
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.38888931274414,
      "epoch": 45.38059701492537,
      "grad_norm": 0.0,
      "learning_rate": 3.351377510137153e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6036
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.97222137451172,
      "epoch": 45.38805970149254,
      "grad_norm": 0.0,
      "learning_rate": 3.350765166325362e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6037
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.77777862548828,
      "epoch": 45.3955223880597,
      "grad_norm": 0.0,
      "learning_rate": 3.350152764781807e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6038
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.83333206176758,
      "epoch": 45.40298507462686,
      "grad_norm": 0.0,
      "learning_rate": 3.3495403055480454e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6039
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 36.72222137451172,
      "epoch": 45.41044776119403,
      "grad_norm": 0.0,
      "learning_rate": 3.348927788665637e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6040
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.47222137451172,
      "epoch": 45.417910447761194,
      "grad_norm": 0.0,
      "learning_rate": 3.348315214176146e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6041
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.0,
      "epoch": 45.42537313432836,
      "grad_norm": 0.0,
      "learning_rate": 3.3477025821211426e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6042
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.27777862548828,
      "epoch": 45.43283582089552,
      "grad_norm": 0.0,
      "learning_rate": 3.347089892542197e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6043
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.72222137451172,
      "epoch": 45.440298507462686,
      "grad_norm": 0.0,
      "learning_rate": 3.3464771454808867e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6044
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.13888931274414,
      "epoch": 45.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 3.345864340978792e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6045
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.41666793823242,
      "epoch": 45.45522388059702,
      "grad_norm": 0.0,
      "learning_rate": 3.3452514790774964e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6046
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.80555725097656,
      "epoch": 45.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 3.344638559818589e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6047
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.13888931274414,
      "epoch": 45.47014925373134,
      "grad_norm": 0.0,
      "learning_rate": 3.3440255832436596e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6048
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.63888931274414,
      "epoch": 45.47761194029851,
      "grad_norm": 0.0,
      "learning_rate": 3.343412549394306e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6049
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.77777862548828,
      "epoch": 45.485074626865675,
      "grad_norm": 0.0,
      "learning_rate": 3.3427994583121266e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6050
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.6944465637207,
      "epoch": 45.492537313432834,
      "grad_norm": 0.0,
      "learning_rate": 3.342186310038725e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6051
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.88888931274414,
      "epoch": 45.5,
      "grad_norm": 0.0,
      "learning_rate": 3.34157310461571e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6052
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.88888931274414,
      "epoch": 45.507462686567166,
      "grad_norm": 0.0,
      "learning_rate": 3.3409598420846915e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6053
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.30555725097656,
      "epoch": 45.514925373134325,
      "grad_norm": 0.0,
      "learning_rate": 3.340346522487285e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6054
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.36111068725586,
      "epoch": 45.52238805970149,
      "grad_norm": 0.0,
      "learning_rate": 3.339733145865109e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6055
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.25,
      "epoch": 45.52985074626866,
      "grad_norm": 0.0,
      "learning_rate": 3.339119712259787e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6056
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.86111068725586,
      "epoch": 45.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 3.338506221712946e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6057
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.25,
      "epoch": 45.54477611940298,
      "grad_norm": 0.0,
      "learning_rate": 3.337892674266216e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6058
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.05555725097656,
      "epoch": 45.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 3.3372790699612317e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6059
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.11111068725586,
      "epoch": 45.559701492537314,
      "grad_norm": 0.0,
      "learning_rate": 3.3366654088396326e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6060
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.41666793823242,
      "epoch": 45.56716417910448,
      "grad_norm": 0.0,
      "learning_rate": 3.336051690943059e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6061
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.72222137451172,
      "epoch": 45.57462686567164,
      "grad_norm": 0.0,
      "learning_rate": 3.335437916313157e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6062
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.4444465637207,
      "epoch": 45.582089552238806,
      "grad_norm": 0.0,
      "learning_rate": 3.3348240849915794e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6063
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.77777862548828,
      "epoch": 45.58955223880597,
      "grad_norm": 0.0,
      "learning_rate": 3.3342101970199763e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6064
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.11111068725586,
      "epoch": 45.59701492537313,
      "grad_norm": 0.0,
      "learning_rate": 3.3335962524400074e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6065
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.41666793823242,
      "epoch": 45.6044776119403,
      "grad_norm": 0.0,
      "learning_rate": 3.332982251293334e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6066
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.66666793823242,
      "epoch": 45.61194029850746,
      "grad_norm": 0.0,
      "learning_rate": 3.332368193621621e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6067
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.52777862548828,
      "epoch": 45.61940298507463,
      "grad_norm": 0.0,
      "learning_rate": 3.3317540794665364e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6068
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.55555725097656,
      "epoch": 45.62686567164179,
      "grad_norm": 0.0,
      "learning_rate": 3.3311399088697554e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6069
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.25,
      "epoch": 45.634328358208954,
      "grad_norm": 0.0,
      "learning_rate": 3.330525681872953e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6070
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.47222137451172,
      "epoch": 45.64179104477612,
      "grad_norm": 0.0,
      "learning_rate": 3.329911398517811e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6071
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.36111068725586,
      "epoch": 45.649253731343286,
      "grad_norm": 0.0,
      "learning_rate": 3.329297058846013e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6072
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.27777862548828,
      "epoch": 45.656716417910445,
      "grad_norm": 0.0,
      "learning_rate": 3.328682662899248e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6073
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 36.22222137451172,
      "epoch": 45.66417910447761,
      "grad_norm": 0.0,
      "learning_rate": 3.328068210719207e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6074
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 34.1944465637207,
      "epoch": 45.67164179104478,
      "grad_norm": 0.0,
      "learning_rate": 3.327453702347587e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6075
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.38888931274414,
      "epoch": 45.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 3.3268391378260867e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6076
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.16666793823242,
      "epoch": 45.6865671641791,
      "grad_norm": 0.0,
      "learning_rate": 3.326224517196411e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6077
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.22222137451172,
      "epoch": 45.69402985074627,
      "grad_norm": 0.0,
      "learning_rate": 3.3256098405002654e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6078
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.9444465637207,
      "epoch": 45.701492537313435,
      "grad_norm": 0.0,
      "learning_rate": 3.324995107779362e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6079
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 45.72222137451172,
      "epoch": 45.708955223880594,
      "grad_norm": 0.0,
      "learning_rate": 3.3243803190754163e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6080
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.22222137451172,
      "epoch": 45.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 3.323765474430146e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6081
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.11111068725586,
      "epoch": 45.723880597014926,
      "grad_norm": 0.0,
      "learning_rate": 3.323150573885274e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6082
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 45.6944465637207,
      "epoch": 45.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 3.322535617482527e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6083
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.27777862548828,
      "epoch": 45.73880597014925,
      "grad_norm": 0.0,
      "learning_rate": 3.3219206052636345e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6084
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.11111068725586,
      "epoch": 45.74626865671642,
      "grad_norm": 0.0,
      "learning_rate": 3.3213055372703304e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6085
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.13888931274414,
      "epoch": 45.75373134328358,
      "grad_norm": 0.0,
      "learning_rate": 3.320690413544354e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6086
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 36.72222137451172,
      "epoch": 45.76119402985075,
      "grad_norm": 0.0,
      "learning_rate": 3.3200752341274437e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6087
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.9444465637207,
      "epoch": 45.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 3.3194599990613467e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6088
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.91666793823242,
      "epoch": 45.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 3.318844708387812e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6089
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.86111068725586,
      "epoch": 45.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 3.318229362148592e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6090
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.02777862548828,
      "epoch": 45.791044776119406,
      "grad_norm": 0.0,
      "learning_rate": 3.317613960385444e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6091
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.13888931274414,
      "epoch": 45.798507462686565,
      "grad_norm": 0.0,
      "learning_rate": 3.316998503140126e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 6092
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.22222137451172,
      "epoch": 45.80597014925373,
      "grad_norm": 0.0,
      "learning_rate": 3.316382990454405e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6093
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.13888931274414,
      "epoch": 45.8134328358209,
      "grad_norm": 0.0,
      "learning_rate": 3.315767422370048e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6094
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.5,
      "epoch": 45.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 3.315151798928825e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6095
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.55555725097656,
      "epoch": 45.82835820895522,
      "grad_norm": 0.0,
      "learning_rate": 3.3145361201725135e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6096
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.41666793823242,
      "epoch": 45.83582089552239,
      "grad_norm": 0.0,
      "learning_rate": 3.3139203861428914e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6097
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.33333206176758,
      "epoch": 45.843283582089555,
      "grad_norm": 0.0,
      "learning_rate": 3.3133045968817426e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6098
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.25,
      "epoch": 45.850746268656714,
      "grad_norm": 0.0,
      "learning_rate": 3.3126887524308524e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6099
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.86111068725586,
      "epoch": 45.85820895522388,
      "grad_norm": 0.0,
      "learning_rate": 3.3120728528320114e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6100
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.72222137451172,
      "epoch": 45.865671641791046,
      "grad_norm": 0.0,
      "learning_rate": 3.3114568981270146e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 6101
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.58333206176758,
      "epoch": 45.87313432835821,
      "grad_norm": 0.0,
      "learning_rate": 3.310840888357659e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6102
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.25,
      "epoch": 45.88059701492537,
      "grad_norm": 56.75642754197467,
      "learning_rate": 3.3102248235657473e-07,
      "loss": 0.022,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 6103
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.11111068725586,
      "epoch": 45.88805970149254,
      "grad_norm": 0.0,
      "learning_rate": 3.309608703793083e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6104
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.66666793823242,
      "epoch": 45.8955223880597,
      "grad_norm": 0.0,
      "learning_rate": 3.308992529081476e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6105
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.66666793823242,
      "epoch": 45.90298507462687,
      "grad_norm": 0.0,
      "learning_rate": 3.3083762994727405e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6106
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.75,
      "epoch": 45.91044776119403,
      "grad_norm": 0.0,
      "learning_rate": 3.307760015008691e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6107
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.16666793823242,
      "epoch": 45.917910447761194,
      "grad_norm": 0.0,
      "learning_rate": 3.3071436757311487e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6108
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.66666793823242,
      "epoch": 45.92537313432836,
      "grad_norm": 0.0,
      "learning_rate": 3.3065272816819365e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6109
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.6944465637207,
      "epoch": 45.93283582089552,
      "grad_norm": 0.0,
      "learning_rate": 3.305910832902884e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6110
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.5,
      "epoch": 45.940298507462686,
      "grad_norm": 0.0,
      "learning_rate": 3.3052943294358214e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6111
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.22222137451172,
      "epoch": 45.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 3.304677771322583e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6112
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.27777862548828,
      "epoch": 45.95522388059702,
      "grad_norm": 0.0,
      "learning_rate": 3.304061158605009e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6113
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.91666793823242,
      "epoch": 45.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 3.3034444913249414e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6114
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.88888931274414,
      "epoch": 45.97014925373134,
      "grad_norm": 0.0,
      "learning_rate": 3.3028277695242267e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6115
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.66666793823242,
      "epoch": 45.97761194029851,
      "grad_norm": 0.0,
      "learning_rate": 3.3022109932447134e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6116
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.61111068725586,
      "epoch": 45.985074626865675,
      "grad_norm": 0.0,
      "learning_rate": 3.3015941625282566e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 6117
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.25,
      "epoch": 45.992537313432834,
      "grad_norm": 0.0,
      "learning_rate": 3.3009772774167135e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6118
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.25,
      "epoch": 46.007462686567166,
      "grad_norm": 0.0,
      "learning_rate": 3.300360337951944e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6119
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.72222137451172,
      "epoch": 46.014925373134325,
      "grad_norm": 0.0,
      "learning_rate": 3.299743344175814e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6120
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.0,
      "epoch": 46.02238805970149,
      "grad_norm": 0.0,
      "learning_rate": 3.2991262961301916e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6121
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.61111068725586,
      "epoch": 46.02985074626866,
      "grad_norm": 0.0,
      "learning_rate": 3.2985091938569476e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6122
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.22222137451172,
      "epoch": 46.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 3.297892037397959e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6123
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.41666793823242,
      "epoch": 46.04477611940298,
      "grad_norm": 0.0,
      "learning_rate": 3.2972748267951053e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6124
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.91666793823242,
      "epoch": 46.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 3.2966575620902695e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6125
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.22222137451172,
      "epoch": 46.059701492537314,
      "grad_norm": 0.0,
      "learning_rate": 3.2960402433253367e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6126
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 36.38888931274414,
      "epoch": 46.06716417910448,
      "grad_norm": 0.0,
      "learning_rate": 3.295422870542199e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 6127
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.86111068725586,
      "epoch": 46.07462686567164,
      "grad_norm": 0.0,
      "learning_rate": 3.294805443782751e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6128
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.22222137451172,
      "epoch": 46.082089552238806,
      "grad_norm": 0.0,
      "learning_rate": 3.294187963088888e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6129
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.72222137451172,
      "epoch": 46.08955223880597,
      "grad_norm": 0.0,
      "learning_rate": 3.2935704285025146e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6130
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.38888931274414,
      "epoch": 46.09701492537314,
      "grad_norm": 0.0,
      "learning_rate": 3.2929528400655334e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6131
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.66666793823242,
      "epoch": 46.1044776119403,
      "grad_norm": 0.0,
      "learning_rate": 3.292335197819853e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6132
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.36111068725586,
      "epoch": 46.11194029850746,
      "grad_norm": 0.0,
      "learning_rate": 3.291717501807388e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6133
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.77777862548828,
      "epoch": 46.11940298507463,
      "grad_norm": 0.0,
      "learning_rate": 3.2910997520700525e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6134
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.72222137451172,
      "epoch": 46.12686567164179,
      "grad_norm": 0.0,
      "learning_rate": 3.290481948649767e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6135
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.16666793823242,
      "epoch": 46.134328358208954,
      "grad_norm": 0.0,
      "learning_rate": 3.2898640915884534e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6136
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.61111068725586,
      "epoch": 46.14179104477612,
      "grad_norm": 0.0,
      "learning_rate": 3.289246180928041e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6137
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.22222137451172,
      "epoch": 46.149253731343286,
      "grad_norm": 2212.7838330951654,
      "learning_rate": 3.288628216710458e-07,
      "loss": -0.0168,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 6138
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.80555725097656,
      "epoch": 46.156716417910445,
      "grad_norm": 0.0,
      "learning_rate": 3.288010198977641e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6139
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.4444465637207,
      "epoch": 46.16417910447761,
      "grad_norm": 0.0,
      "learning_rate": 3.2873921277715254e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6140
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.63888931274414,
      "epoch": 46.17164179104478,
      "grad_norm": 0.0,
      "learning_rate": 3.2867740031340547e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6141
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.72222137451172,
      "epoch": 46.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 3.286155825107173e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6142
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.1944465637207,
      "epoch": 46.1865671641791,
      "grad_norm": 0.0,
      "learning_rate": 3.2855375937328286e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6143
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.5,
      "epoch": 46.19402985074627,
      "grad_norm": 0.0,
      "learning_rate": 3.284919309052975e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6144
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.75,
      "epoch": 46.201492537313435,
      "grad_norm": 0.0,
      "learning_rate": 3.2843009711095673e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6145
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.27777862548828,
      "epoch": 46.208955223880594,
      "grad_norm": 36.512060275779426,
      "learning_rate": 3.2836825799445644e-07,
      "loss": -0.0106,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 6146
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.1944465637207,
      "epoch": 46.21641791044776,
      "grad_norm": 3.376044643291767,
      "learning_rate": 3.283064135599932e-07,
      "loss": -0.0031,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 6147
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.61111068725586,
      "epoch": 46.223880597014926,
      "grad_norm": 0.0,
      "learning_rate": 3.282445638117634e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6148
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.38888931274414,
      "epoch": 46.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 3.2818270875396424e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6149
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 36.11111068725586,
      "epoch": 46.23880597014925,
      "grad_norm": 0.0,
      "learning_rate": 3.281208483907931e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6150
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.5,
      "epoch": 46.24626865671642,
      "grad_norm": 0.0,
      "learning_rate": 3.280589827264477e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6151
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.88888931274414,
      "epoch": 46.25373134328358,
      "grad_norm": 0.0,
      "learning_rate": 3.2799711176512627e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6152
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.36111068725586,
      "epoch": 46.26119402985075,
      "grad_norm": 0.0,
      "learning_rate": 3.279352355110271e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6153
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.9444465637207,
      "epoch": 46.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 3.278733539683492e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6154
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.9444465637207,
      "epoch": 46.276119402985074,
      "grad_norm": 0.0,
      "learning_rate": 3.278114671412917e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6155
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.05555725097656,
      "epoch": 46.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 3.277495750340541e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 6156
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.4444465637207,
      "epoch": 46.291044776119406,
      "grad_norm": 0.0,
      "learning_rate": 3.2768767765083643e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6157
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.97222137451172,
      "epoch": 46.298507462686565,
      "grad_norm": 0.0,
      "learning_rate": 3.276257749958389e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6158
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.9444465637207,
      "epoch": 46.30597014925373,
      "grad_norm": 0.0,
      "learning_rate": 3.275638670732621e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6159
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 36.22222137451172,
      "epoch": 46.3134328358209,
      "grad_norm": 0.0,
      "learning_rate": 3.2750195388730707e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6160
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 36.61111068725586,
      "epoch": 46.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 3.274400354421752e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6161
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.6944465637207,
      "epoch": 46.32835820895522,
      "grad_norm": 0.0,
      "learning_rate": 3.273781117420681e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6162
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.61111068725586,
      "epoch": 46.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 3.2731618279118776e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6163
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.63888931274414,
      "epoch": 46.343283582089555,
      "grad_norm": 0.0,
      "learning_rate": 3.272542485937368e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6164
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.36111068725586,
      "epoch": 46.350746268656714,
      "grad_norm": 0.0,
      "learning_rate": 3.271923091539179e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6165
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.33333206176758,
      "epoch": 46.35820895522388,
      "grad_norm": 0.0,
      "learning_rate": 3.271303644759342e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6166
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.1944465637207,
      "epoch": 46.365671641791046,
      "grad_norm": 0.0,
      "learning_rate": 3.270684145639891e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6167
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.1944465637207,
      "epoch": 46.37313432835821,
      "grad_norm": 0.0,
      "learning_rate": 3.270064594222865e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6168
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.52777862548828,
      "epoch": 46.38059701492537,
      "grad_norm": 0.0,
      "learning_rate": 3.2694449905503057e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6169
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.63888931274414,
      "epoch": 46.38805970149254,
      "grad_norm": 0.0,
      "learning_rate": 3.2688253346642584e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6170
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.02777862548828,
      "epoch": 46.3955223880597,
      "grad_norm": 0.0,
      "learning_rate": 3.268205626606773e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6171
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 35.83333206176758,
      "epoch": 46.40298507462686,
      "grad_norm": 0.0,
      "learning_rate": 3.2675858664199015e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6172
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.13888931274414,
      "epoch": 46.41044776119403,
      "grad_norm": 0.0,
      "learning_rate": 3.266966054145699e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 6173
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.75,
      "epoch": 46.417910447761194,
      "grad_norm": 0.0,
      "learning_rate": 3.266346189826227e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6174
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.47222137451172,
      "epoch": 46.42537313432836,
      "grad_norm": 0.0,
      "learning_rate": 3.2657262735035474e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6175
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.5,
      "epoch": 46.43283582089552,
      "grad_norm": 0.0,
      "learning_rate": 3.265106305219727e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6176
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.08333206176758,
      "epoch": 46.440298507462686,
      "grad_norm": 0.0,
      "learning_rate": 3.264486285016836e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6177
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.16666793823242,
      "epoch": 46.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 3.2638662129369483e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6178
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.80555725097656,
      "epoch": 46.45522388059702,
      "grad_norm": 0.0,
      "learning_rate": 3.2632460890221414e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6179
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.97222137451172,
      "epoch": 46.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 3.262625913314495e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6180
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.02777862548828,
      "epoch": 46.47014925373134,
      "grad_norm": 0.0,
      "learning_rate": 3.262005685856095e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6181
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.97222137451172,
      "epoch": 46.47761194029851,
      "grad_norm": 37.19113788179719,
      "learning_rate": 3.261385406689029e-07,
      "loss": -0.0025,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 6182
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.4444465637207,
      "epoch": 46.485074626865675,
      "grad_norm": 0.0,
      "learning_rate": 3.2607650758553863e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6183
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 36.77777862548828,
      "epoch": 46.492537313432834,
      "grad_norm": 0.0,
      "learning_rate": 3.260144693397264e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6184
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.61111068725586,
      "epoch": 46.5,
      "grad_norm": 0.0,
      "learning_rate": 3.259524259356759e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6185
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.41666793823242,
      "epoch": 46.507462686567166,
      "grad_norm": 0.0,
      "learning_rate": 3.258903773775974e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6186
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 36.72222137451172,
      "epoch": 46.514925373134325,
      "grad_norm": 0.0,
      "learning_rate": 3.2582832366970126e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6187
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.58333206176758,
      "epoch": 46.52238805970149,
      "grad_norm": 0.0,
      "learning_rate": 3.257662648161986e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6188
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 36.91666793823242,
      "epoch": 46.52985074626866,
      "grad_norm": 0.0,
      "learning_rate": 3.2570420082130056e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6189
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.61111068725586,
      "epoch": 46.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 3.2564213168921864e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6190
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.30555725097656,
      "epoch": 46.54477611940298,
      "grad_norm": 0.0,
      "learning_rate": 3.255800574241648e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6191
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.41666793823242,
      "epoch": 46.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 3.2551797803035135e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6192
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.33333206176758,
      "epoch": 46.559701492537314,
      "grad_norm": 0.0,
      "learning_rate": 3.254558935119909e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6193
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 36.1944465637207,
      "epoch": 46.56716417910448,
      "grad_norm": 0.0,
      "learning_rate": 3.253938038732965e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6194
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.9444465637207,
      "epoch": 46.57462686567164,
      "grad_norm": 0.0,
      "learning_rate": 3.2533170911848124e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6195
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.16666793823242,
      "epoch": 46.582089552238806,
      "grad_norm": 0.0,
      "learning_rate": 3.252696092517591e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6196
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.08333206176758,
      "epoch": 46.58955223880597,
      "grad_norm": 0.0,
      "learning_rate": 3.2520750427734377e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 6197
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.30555725097656,
      "epoch": 46.59701492537313,
      "grad_norm": 0.0,
      "learning_rate": 3.251453941994499e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6198
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.41666793823242,
      "epoch": 46.6044776119403,
      "grad_norm": 0.0,
      "learning_rate": 3.2508327902229203e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 6199
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.47222137451172,
      "epoch": 46.61194029850746,
      "grad_norm": 0.0,
      "learning_rate": 3.2502115875008516e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6200
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.11111068725586,
      "epoch": 46.61940298507463,
      "grad_norm": 0.0,
      "learning_rate": 3.2495903338704483e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6201
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.97222137451172,
      "epoch": 46.62686567164179,
      "grad_norm": 0.0,
      "learning_rate": 3.2489690293738674e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6202
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 35.72222137451172,
      "epoch": 46.634328358208954,
      "grad_norm": 9.350527084752262,
      "learning_rate": 3.2483476740532693e-07,
      "loss": 0.0017,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 6203
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.72222137451172,
      "epoch": 46.64179104477612,
      "grad_norm": 0.0,
      "learning_rate": 3.2477262679508183e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6204
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.05555725097656,
      "epoch": 46.649253731343286,
      "grad_norm": 0.0,
      "learning_rate": 3.2471048111086825e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6205
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.16666793823242,
      "epoch": 46.656716417910445,
      "grad_norm": 0.0,
      "learning_rate": 3.2464833035690344e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6206
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.97222137451172,
      "epoch": 46.66417910447761,
      "grad_norm": 46.855176018153855,
      "learning_rate": 3.2458617453740457e-07,
      "loss": 0.0186,
      "reward": 1.9444444179534912,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.944444477558136,
      "rewards/format_reward": 1.0,
      "step": 6207
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.86111068725586,
      "epoch": 46.67164179104478,
      "grad_norm": 0.0,
      "learning_rate": 3.2452401365658965e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6208
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.88888931274414,
      "epoch": 46.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 3.2446184771867687e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6209
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 35.86111068725586,
      "epoch": 46.6865671641791,
      "grad_norm": 61.457249466345594,
      "learning_rate": 3.243996767278846e-07,
      "loss": -0.0175,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 6210
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.25,
      "epoch": 46.69402985074627,
      "grad_norm": 0.0,
      "learning_rate": 3.243375006884317e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6211
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.33333206176758,
      "epoch": 46.701492537313435,
      "grad_norm": 0.0,
      "learning_rate": 3.242753196045374e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6212
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 35.52777862548828,
      "epoch": 46.708955223880594,
      "grad_norm": 0.0,
      "learning_rate": 3.242131334804213e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6213
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.1944465637207,
      "epoch": 46.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 3.2415094232030305e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6214
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.52777862548828,
      "epoch": 46.723880597014926,
      "grad_norm": 0.0,
      "learning_rate": 3.2408874612840304e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6215
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.6944465637207,
      "epoch": 46.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 3.2402654490894177e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6216
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.63888931274414,
      "epoch": 46.73880597014925,
      "grad_norm": 0.0,
      "learning_rate": 3.2396433866614e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6217
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.5,
      "epoch": 46.74626865671642,
      "grad_norm": 0.0,
      "learning_rate": 3.239021274042192e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6218
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.27777862548828,
      "epoch": 46.75373134328358,
      "grad_norm": 0.0,
      "learning_rate": 3.238399111274008e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6219
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.30555725097656,
      "epoch": 46.76119402985075,
      "grad_norm": 0.0,
      "learning_rate": 3.2377768983990674e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6220
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 35.97222137451172,
      "epoch": 46.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 3.2371546354595926e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6221
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.88888931274414,
      "epoch": 46.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 3.2365323224978085e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6222
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.63888931274414,
      "epoch": 46.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 3.235909959555947e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6223
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.41666793823242,
      "epoch": 46.791044776119406,
      "grad_norm": 0.0,
      "learning_rate": 3.235287546676238e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6224
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.33333206176758,
      "epoch": 46.798507462686565,
      "grad_norm": 11.745518386817922,
      "learning_rate": 3.23466508390092e-07,
      "loss": -0.0182,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 6225
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.0,
      "epoch": 46.80597014925373,
      "grad_norm": 0.0,
      "learning_rate": 3.2340425712722306e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6226
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.77777862548828,
      "epoch": 46.8134328358209,
      "grad_norm": 0.0,
      "learning_rate": 3.233420008832413e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6227
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.66666793823242,
      "epoch": 46.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 3.2327973966237143e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6228
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 36.6944465637207,
      "epoch": 46.82835820895522,
      "grad_norm": 0.0,
      "learning_rate": 3.2321747346883834e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6229
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.86111068725586,
      "epoch": 46.83582089552239,
      "grad_norm": 0.0,
      "learning_rate": 3.2315520230686744e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6230
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.88888931274414,
      "epoch": 46.843283582089555,
      "grad_norm": 0.0,
      "learning_rate": 3.230929261806842e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6231
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.08333206176758,
      "epoch": 46.850746268656714,
      "grad_norm": 0.0,
      "learning_rate": 3.2303064509451465e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6232
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.97222137451172,
      "epoch": 46.85820895522388,
      "grad_norm": 0.0,
      "learning_rate": 3.229683590525852e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6233
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.11111068725586,
      "epoch": 46.865671641791046,
      "grad_norm": 0.0,
      "learning_rate": 3.2290606805912237e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6234
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.11111068725586,
      "epoch": 46.87313432835821,
      "grad_norm": 0.0,
      "learning_rate": 3.2284377211835313e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6235
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.11111068725586,
      "epoch": 46.88059701492537,
      "grad_norm": 0.0,
      "learning_rate": 3.2278147123450496e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6236
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.25,
      "epoch": 46.88805970149254,
      "grad_norm": 0.0,
      "learning_rate": 3.2271916541180535e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6237
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.77777862548828,
      "epoch": 46.8955223880597,
      "grad_norm": 96.53093967349491,
      "learning_rate": 3.226568546544823e-07,
      "loss": 0.0067,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 6238
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.52777862548828,
      "epoch": 46.90298507462687,
      "grad_norm": 0.0,
      "learning_rate": 3.2259453896676426e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6239
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.77777862548828,
      "epoch": 46.91044776119403,
      "grad_norm": 63.8092251104939,
      "learning_rate": 3.225322183528798e-07,
      "loss": 0.0027,
      "reward": 1.9166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 6240
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.52777862548828,
      "epoch": 46.917910447761194,
      "grad_norm": 0.0,
      "learning_rate": 3.2246989281705786e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6241
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.11111068725586,
      "epoch": 46.92537313432836,
      "grad_norm": 0.0,
      "learning_rate": 3.2240756236352794e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6242
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.77777862548828,
      "epoch": 46.93283582089552,
      "grad_norm": 0.0,
      "learning_rate": 3.223452269965195e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6243
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.0,
      "epoch": 46.940298507462686,
      "grad_norm": 0.0,
      "learning_rate": 3.222828867202626e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6244
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.77777862548828,
      "epoch": 46.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 3.2222054153898764e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6245
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 44.33333206176758,
      "epoch": 46.95522388059702,
      "grad_norm": 0.0,
      "learning_rate": 3.221581914569251e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6246
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.41666793823242,
      "epoch": 46.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 3.2209583647830636e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6247
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.9444465637207,
      "epoch": 46.97014925373134,
      "grad_norm": 0.0,
      "learning_rate": 3.2203347660736226e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6248
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 36.97222137451172,
      "epoch": 46.97761194029851,
      "grad_norm": 0.0,
      "learning_rate": 3.219711118483247e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6249
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.86111068725586,
      "epoch": 46.985074626865675,
      "grad_norm": 0.0,
      "learning_rate": 3.2190874220542576e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6250
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.5,
      "epoch": 46.992537313432834,
      "grad_norm": 0.0,
      "learning_rate": 3.218463676828975e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6251
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.05555725097656,
      "epoch": 47.007462686567166,
      "grad_norm": 0.0,
      "learning_rate": 3.217839882849727e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6252
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 35.52777862548828,
      "epoch": 47.014925373134325,
      "grad_norm": 0.0,
      "learning_rate": 3.2172160401588446e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6253
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.02777862548828,
      "epoch": 47.02238805970149,
      "grad_norm": 42.25687132216795,
      "learning_rate": 3.216592148798659e-07,
      "loss": -0.0058,
      "reward": 1.9166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 6254
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.55555725097656,
      "epoch": 47.02985074626866,
      "grad_norm": 0.0,
      "learning_rate": 3.215968208811508e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6255
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.80555725097656,
      "epoch": 47.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 3.2153442202397304e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6256
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.25,
      "epoch": 47.04477611940298,
      "grad_norm": 0.0,
      "learning_rate": 3.21472018312567e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6257
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.08333206176758,
      "epoch": 47.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 3.214096097511672e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6258
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 36.27777862548828,
      "epoch": 47.059701492537314,
      "grad_norm": 0.0,
      "learning_rate": 3.2134719634400877e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6259
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 35.27777862548828,
      "epoch": 47.06716417910448,
      "grad_norm": 0.0,
      "learning_rate": 3.2128477809532683e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6260
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.72222137451172,
      "epoch": 47.07462686567164,
      "grad_norm": 0.0,
      "learning_rate": 3.21222355009357e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6261
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.52777862548828,
      "epoch": 47.082089552238806,
      "grad_norm": 0.0,
      "learning_rate": 3.2115992709033543e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6262
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.11111068725586,
      "epoch": 47.08955223880597,
      "grad_norm": 0.0,
      "learning_rate": 3.210974943424981e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6263
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.55555725097656,
      "epoch": 47.09701492537314,
      "grad_norm": 0.0,
      "learning_rate": 3.210350567700819e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6264
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.6944465637207,
      "epoch": 47.1044776119403,
      "grad_norm": 0.0,
      "learning_rate": 3.2097261437732353e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6265
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 44.91666793823242,
      "epoch": 47.11194029850746,
      "grad_norm": 0.0,
      "learning_rate": 3.2091016716846035e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6266
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.11111068725586,
      "epoch": 47.11940298507463,
      "grad_norm": 0.0,
      "learning_rate": 3.2084771514773e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6267
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.80555725097656,
      "epoch": 47.12686567164179,
      "grad_norm": 0.0,
      "learning_rate": 3.2078525831937023e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6268
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.11111068725586,
      "epoch": 47.134328358208954,
      "grad_norm": 50.5171145578475,
      "learning_rate": 3.207227966876195e-07,
      "loss": -0.0,
      "reward": 1.9166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 6269
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.41666793823242,
      "epoch": 47.14179104477612,
      "grad_norm": 0.0,
      "learning_rate": 3.206603302567161e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6270
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.88888931274414,
      "epoch": 47.149253731343286,
      "grad_norm": 0.0,
      "learning_rate": 3.205978590308991e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6271
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.0,
      "epoch": 47.156716417910445,
      "grad_norm": 0.0,
      "learning_rate": 3.205353830144077e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6272
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.22222137451172,
      "epoch": 47.16417910447761,
      "grad_norm": 0.0,
      "learning_rate": 3.204729022114813e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 6273
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.47222137451172,
      "epoch": 47.17164179104478,
      "grad_norm": 0.0,
      "learning_rate": 3.2041041662636003e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6274
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.61111068725586,
      "epoch": 47.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 3.2034792626328375e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6275
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.80555725097656,
      "epoch": 47.1865671641791,
      "grad_norm": 0.0,
      "learning_rate": 3.202854311264932e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6276
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.27777862548828,
      "epoch": 47.19402985074627,
      "grad_norm": 0.0,
      "learning_rate": 3.2022293122022913e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6277
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.75,
      "epoch": 47.201492537313435,
      "grad_norm": 0.0,
      "learning_rate": 3.201604265487327e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6278
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.11111068725586,
      "epoch": 47.208955223880594,
      "grad_norm": 0.0,
      "learning_rate": 3.2009791711624545e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6279
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.16666793823242,
      "epoch": 47.21641791044776,
      "grad_norm": 8.539460328549575,
      "learning_rate": 3.200354029270091e-07,
      "loss": -0.0315,
      "reward": 1.6111111640930176,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 6280
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.86111068725586,
      "epoch": 47.223880597014926,
      "grad_norm": 0.0,
      "learning_rate": 3.199728839852659e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6281
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.36111068725586,
      "epoch": 47.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 3.1991036029525816e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6282
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.0,
      "epoch": 47.23880597014925,
      "grad_norm": 0.0,
      "learning_rate": 3.1984783186122865e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6283
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.77777862548828,
      "epoch": 47.24626865671642,
      "grad_norm": 0.0,
      "learning_rate": 3.197852986874207e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6284
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.91666793823242,
      "epoch": 47.25373134328358,
      "grad_norm": 0.0,
      "learning_rate": 3.197227607780774e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6285
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.58333206176758,
      "epoch": 47.26119402985075,
      "grad_norm": 0.0,
      "learning_rate": 3.196602181374426e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6286
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.9444465637207,
      "epoch": 47.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 3.195976707697605e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6287
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.63888931274414,
      "epoch": 47.276119402985074,
      "grad_norm": 0.0,
      "learning_rate": 3.195351186792754e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6288
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.25,
      "epoch": 47.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 3.194725618702319e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6289
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 44.55555725097656,
      "epoch": 47.291044776119406,
      "grad_norm": 0.0,
      "learning_rate": 3.194100003468751e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6290
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.80555725097656,
      "epoch": 47.298507462686565,
      "grad_norm": 0.0,
      "learning_rate": 3.1934743411345045e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6291
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.58333206176758,
      "epoch": 47.30597014925373,
      "grad_norm": 0.0,
      "learning_rate": 3.1928486317420333e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6292
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.86111068725586,
      "epoch": 47.3134328358209,
      "grad_norm": 0.0,
      "learning_rate": 3.1922228753338e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6293
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.91666793823242,
      "epoch": 47.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 3.191597071952266e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6294
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.05555725097656,
      "epoch": 47.32835820895522,
      "grad_norm": 0.0,
      "learning_rate": 3.1909712216398974e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6295
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.30555725097656,
      "epoch": 47.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 3.1903453244391646e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 6296
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 36.9444465637207,
      "epoch": 47.343283582089555,
      "grad_norm": 0.0,
      "learning_rate": 3.1897193803925393e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6297
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 44.66666793823242,
      "epoch": 47.350746268656714,
      "grad_norm": 0.0,
      "learning_rate": 3.1890933895424976e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6298
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 44.41666793823242,
      "epoch": 47.35820895522388,
      "grad_norm": 0.0,
      "learning_rate": 3.188467351931519e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6299
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.75,
      "epoch": 47.365671641791046,
      "grad_norm": 0.0,
      "learning_rate": 3.1878412676020835e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6300
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.66666793823242,
      "epoch": 47.37313432835821,
      "grad_norm": 0.0,
      "learning_rate": 3.1872151365966785e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6301
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.55555725097656,
      "epoch": 47.38059701492537,
      "grad_norm": 0.0,
      "learning_rate": 3.186588958957791e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6302
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.0,
      "epoch": 47.38805970149254,
      "grad_norm": 0.0,
      "learning_rate": 3.1859627347279133e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6303
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.4444465637207,
      "epoch": 47.3955223880597,
      "grad_norm": 0.0,
      "learning_rate": 3.1853364639495397e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6304
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 36.63888931274414,
      "epoch": 47.40298507462686,
      "grad_norm": 0.0,
      "learning_rate": 3.184710146665169e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6305
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.13888931274414,
      "epoch": 47.41044776119403,
      "grad_norm": 0.0,
      "learning_rate": 3.1840837829173005e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6306
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.97222137451172,
      "epoch": 47.417910447761194,
      "grad_norm": 0.0,
      "learning_rate": 3.1834573727484396e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6307
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.63888931274414,
      "epoch": 47.42537313432836,
      "grad_norm": 86.46742639119117,
      "learning_rate": 3.182830916201095e-07,
      "loss": 0.0092,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 6308
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.72222137451172,
      "epoch": 47.43283582089552,
      "grad_norm": 0.0,
      "learning_rate": 3.1822044133177736e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 6309
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.72222137451172,
      "epoch": 47.440298507462686,
      "grad_norm": 0.0,
      "learning_rate": 3.1815778641409916e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6310
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.02777862548828,
      "epoch": 47.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 3.1809512687132667e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6311
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.83333206176758,
      "epoch": 47.45522388059702,
      "grad_norm": 0.0,
      "learning_rate": 3.1803246270771157e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6312
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.36111068725586,
      "epoch": 47.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 3.1796979392750645e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 6313
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.08333206176758,
      "epoch": 47.47014925373134,
      "grad_norm": 0.0,
      "learning_rate": 3.1790712053496367e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6314
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.11111068725586,
      "epoch": 47.47761194029851,
      "grad_norm": 0.0,
      "learning_rate": 3.178444425343364e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6315
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.38888931274414,
      "epoch": 47.485074626865675,
      "grad_norm": 34.508268923042216,
      "learning_rate": 3.1778175992987775e-07,
      "loss": 0.0047,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 6316
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.9444465637207,
      "epoch": 47.492537313432834,
      "grad_norm": 0.0,
      "learning_rate": 3.177190727258413e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6317
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 43.27777862548828,
      "epoch": 47.5,
      "grad_norm": 0.0,
      "learning_rate": 3.17656380926481e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6318
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.4444465637207,
      "epoch": 47.507462686567166,
      "grad_norm": 0.0,
      "learning_rate": 3.1759368453605083e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6319
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.72222137451172,
      "epoch": 47.514925373134325,
      "grad_norm": 0.0,
      "learning_rate": 3.175309835588055e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6320
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.47222137451172,
      "epoch": 47.52238805970149,
      "grad_norm": 0.0,
      "learning_rate": 3.174682779989997e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6321
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.97222137451172,
      "epoch": 47.52985074626866,
      "grad_norm": 0.0,
      "learning_rate": 3.1740556786088855e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6322
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.52777862548828,
      "epoch": 47.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 3.1734285314872753e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6323
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.25,
      "epoch": 47.54477611940298,
      "grad_norm": 0.0,
      "learning_rate": 3.172801338667723e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6324
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.02777862548828,
      "epoch": 47.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 3.1721741001927906e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6325
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.55555725097656,
      "epoch": 47.559701492537314,
      "grad_norm": 0.0,
      "learning_rate": 3.171546816105039e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6326
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.63888931274414,
      "epoch": 47.56716417910448,
      "grad_norm": 0.0,
      "learning_rate": 3.1709194864470363e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6327
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.52777862548828,
      "epoch": 47.57462686567164,
      "grad_norm": 0.0,
      "learning_rate": 3.170292111261353e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6328
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.80555725097656,
      "epoch": 47.582089552238806,
      "grad_norm": 0.0,
      "learning_rate": 3.1696646905905605e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6329
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.47222137451172,
      "epoch": 47.58955223880597,
      "grad_norm": 0.0,
      "learning_rate": 3.1690372244772355e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6330
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.58333206176758,
      "epoch": 47.59701492537313,
      "grad_norm": 0.0,
      "learning_rate": 3.1684097129639567e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6331
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.75,
      "epoch": 47.6044776119403,
      "grad_norm": 0.0,
      "learning_rate": 3.167782156093307e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6332
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 36.75,
      "epoch": 47.61194029850746,
      "grad_norm": 0.0,
      "learning_rate": 3.167154553907871e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6333
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 36.4444465637207,
      "epoch": 47.61940298507463,
      "grad_norm": 0.0,
      "learning_rate": 3.1665269064502357e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6334
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.86111068725586,
      "epoch": 47.62686567164179,
      "grad_norm": 0.0,
      "learning_rate": 3.1658992137629945e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6335
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 35.02777862548828,
      "epoch": 47.634328358208954,
      "grad_norm": 0.0,
      "learning_rate": 3.1652714758887405e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6336
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.05555725097656,
      "epoch": 47.64179104477612,
      "grad_norm": 0.0,
      "learning_rate": 3.1646436928700714e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6337
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.52777862548828,
      "epoch": 47.649253731343286,
      "grad_norm": 0.0,
      "learning_rate": 3.1640158647495873e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6338
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.38888931274414,
      "epoch": 47.656716417910445,
      "grad_norm": 0.0,
      "learning_rate": 3.1633879915698927e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6339
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.47222137451172,
      "epoch": 47.66417910447761,
      "grad_norm": 0.0,
      "learning_rate": 3.162760073373594e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6340
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.11111068725586,
      "epoch": 47.67164179104478,
      "grad_norm": 0.0,
      "learning_rate": 3.1621321102032995e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6341
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.0,
      "epoch": 47.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 3.1615041021016236e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6342
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 36.88888931274414,
      "epoch": 47.6865671641791,
      "grad_norm": 0.0,
      "learning_rate": 3.160876049111182e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6343
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.47222137451172,
      "epoch": 47.69402985074627,
      "grad_norm": 0.0,
      "learning_rate": 3.1602479512745916e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6344
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 41.4444465637207,
      "epoch": 47.701492537313435,
      "grad_norm": 0.0,
      "learning_rate": 3.1596198086344767e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6345
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.6944465637207,
      "epoch": 47.708955223880594,
      "grad_norm": 0.0,
      "learning_rate": 3.158991621233461e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6346
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.83333206176758,
      "epoch": 47.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 3.1583633891141725e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6347
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.05555725097656,
      "epoch": 47.723880597014926,
      "grad_norm": 0.0,
      "learning_rate": 3.157735112319242e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6348
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.91666793823242,
      "epoch": 47.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 3.1571067908913046e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6349
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 42.38888931274414,
      "epoch": 47.73880597014925,
      "grad_norm": 16.223370780901217,
      "learning_rate": 3.156478424872996e-07,
      "loss": 0.0104,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 6350
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 34.63888931274414,
      "epoch": 47.74626865671642,
      "grad_norm": 4.289275049509112,
      "learning_rate": 3.1558500143069567e-07,
      "loss": -0.0096,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 6351
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 44.25,
      "epoch": 47.75373134328358,
      "grad_norm": 0.0,
      "learning_rate": 3.15522155923583e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6352
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.41666793823242,
      "epoch": 47.76119402985075,
      "grad_norm": 0.0,
      "learning_rate": 3.154593059702262e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 6353
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.5,
      "epoch": 47.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 3.153964515748901e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6354
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.55555725097656,
      "epoch": 47.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 3.1533359274184e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6355
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.11111068725586,
      "epoch": 47.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 3.1527072947534143e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6356
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 36.58333206176758,
      "epoch": 47.791044776119406,
      "grad_norm": 0.0,
      "learning_rate": 3.152078617796602e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6357
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.02777862548828,
      "epoch": 47.798507462686565,
      "grad_norm": 0.0,
      "learning_rate": 3.1514498965906235e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6358
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 36.55555725097656,
      "epoch": 47.80597014925373,
      "grad_norm": 0.0,
      "learning_rate": 3.1508211311781437e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6359
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.72222137451172,
      "epoch": 47.8134328358209,
      "grad_norm": 0.0,
      "learning_rate": 3.150192321601829e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6360
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 40.4444465637207,
      "epoch": 47.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 3.1495634679043504e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6361
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 35.33333206176758,
      "epoch": 47.82835820895522,
      "grad_norm": 24.02772588056742,
      "learning_rate": 3.148934570128381e-07,
      "loss": 0.0078,
      "reward": 1.9444444179534912,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.944444477558136,
      "rewards/format_reward": 1.0,
      "step": 6362
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 34.47222137451172,
      "epoch": 47.83582089552239,
      "grad_norm": 0.0,
      "learning_rate": 3.1483056283165966e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6363
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 36.86111068725586,
      "epoch": 47.843283582089555,
      "grad_norm": 0.0,
      "learning_rate": 3.147676642511676e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6364
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.27777862548828,
      "epoch": 47.850746268656714,
      "grad_norm": 0.0,
      "learning_rate": 3.147047612756302e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6365
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 36.27777862548828,
      "epoch": 47.85820895522388,
      "grad_norm": 0.0,
      "learning_rate": 3.1464185390931593e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 6366
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 36.97222137451172,
      "epoch": 47.865671641791046,
      "grad_norm": 6.248513709768687,
      "learning_rate": 3.145789421564936e-07,
      "loss": 0.0004,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 6367
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.1944465637207,
      "epoch": 47.87313432835821,
      "grad_norm": 0.0,
      "learning_rate": 3.1451602602143234e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6368
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 36.22222137451172,
      "epoch": 47.88059701492537,
      "grad_norm": 0.0,
      "learning_rate": 3.144531055084016e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6369
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.16666793823242,
      "epoch": 47.88805970149254,
      "grad_norm": 8.168034711815165,
      "learning_rate": 3.143901806216709e-07,
      "loss": 0.0178,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 6370
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.16666793823242,
      "epoch": 47.8955223880597,
      "grad_norm": 0.0,
      "learning_rate": 3.143272513655104e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6371
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.72222137451172,
      "epoch": 47.90298507462687,
      "grad_norm": 0.0,
      "learning_rate": 3.142643177441904e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6372
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.9444465637207,
      "epoch": 47.91044776119403,
      "grad_norm": 11.122292076944458,
      "learning_rate": 3.1420137976198133e-07,
      "loss": -0.0031,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 6373
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 34.47222137451172,
      "epoch": 47.917910447761194,
      "grad_norm": 0.0,
      "learning_rate": 3.1413843742315434e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6374
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 38.33333206176758,
      "epoch": 47.92537313432836,
      "grad_norm": 2.502170671059219,
      "learning_rate": 3.140754907319803e-07,
      "loss": -0.0019,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 0.9722222089767456,
      "step": 6375
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 34.5,
      "epoch": 47.93283582089552,
      "grad_norm": 0.0,
      "learning_rate": 3.1401253969273096e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6376
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.88888931274414,
      "epoch": 47.940298507462686,
      "grad_norm": 0.0,
      "learning_rate": 3.1394958430967795e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6377
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 35.91666793823242,
      "epoch": 47.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 3.138866245870933e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6378
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 36.25,
      "epoch": 47.95522388059702,
      "grad_norm": 0.0,
      "learning_rate": 3.1382366052924945e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6379
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 33.58333206176758,
      "epoch": 47.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 3.137606921404191e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6380
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 33.16666793823242,
      "epoch": 47.97014925373134,
      "grad_norm": 0.0,
      "learning_rate": 3.136977194248751e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6381
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 36.1944465637207,
      "epoch": 47.97761194029851,
      "grad_norm": 0.0,
      "learning_rate": 3.136347423868907e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6382
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.0,
      "epoch": 47.985074626865675,
      "grad_norm": 0.0,
      "learning_rate": 3.135717610307395e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6383
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 32.583335876464844,
      "epoch": 47.992537313432834,
      "grad_norm": 0.0,
      "learning_rate": 3.1350877536069533e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6384
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 34.27777862548828,
      "epoch": 48.007462686567166,
      "grad_norm": 0.0,
      "learning_rate": 3.1344578538103216e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6385
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.69444465637207,
      "epoch": 48.014925373134325,
      "grad_norm": 0.0,
      "learning_rate": 3.133827910960246e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 6386
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 35.4444465637207,
      "epoch": 48.02238805970149,
      "grad_norm": 0.0,
      "learning_rate": 3.133197925099473e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 6387
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 32.5,
      "epoch": 48.02985074626866,
      "grad_norm": 0.0,
      "learning_rate": 3.1325678962707515e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6388
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 34.83333206176758,
      "epoch": 48.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 3.131937824516836e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6389
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 32.83333206176758,
      "epoch": 48.04477611940298,
      "grad_norm": 0.0,
      "learning_rate": 3.1313077098804814e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6390
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.86111068725586,
      "epoch": 48.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 3.1306775524044464e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6391
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 32.33333206176758,
      "epoch": 48.059701492537314,
      "grad_norm": 0.0,
      "learning_rate": 3.1300473521314926e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6392
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 33.33333206176758,
      "epoch": 48.06716417910448,
      "grad_norm": 33.717355768554526,
      "learning_rate": 3.1294171091043845e-07,
      "loss": 0.0044,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 6393
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 35.08333206176758,
      "epoch": 48.07462686567164,
      "grad_norm": 0.0,
      "learning_rate": 3.128786823365891e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6394
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 33.86111068725586,
      "epoch": 48.082089552238806,
      "grad_norm": 0.0,
      "learning_rate": 3.12815649495878e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6395
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 33.11111068725586,
      "epoch": 48.08955223880597,
      "grad_norm": 0.0,
      "learning_rate": 3.127526123925826e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6396
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 33.1944465637207,
      "epoch": 48.09701492537314,
      "grad_norm": 0.0,
      "learning_rate": 3.1268957103098056e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6397
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 32.6944465637207,
      "epoch": 48.1044776119403,
      "grad_norm": 0.0,
      "learning_rate": 3.1262652541534965e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6398
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.11111068725586,
      "epoch": 48.11194029850746,
      "grad_norm": 3.4449772017210893,
      "learning_rate": 3.125634755499682e-07,
      "loss": 0.0037,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 6399
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 33.27777862548828,
      "epoch": 48.11940298507463,
      "grad_norm": 0.0,
      "learning_rate": 3.125004214391146e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6400
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 33.61111068725586,
      "epoch": 48.12686567164179,
      "grad_norm": 0.0,
      "learning_rate": 3.1243736308706766e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6401
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 33.11111068725586,
      "epoch": 48.134328358208954,
      "grad_norm": 0.0,
      "learning_rate": 3.123743004981063e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6402
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 32.86111068725586,
      "epoch": 48.14179104477612,
      "grad_norm": 22.619332766552876,
      "learning_rate": 3.1231123367651007e-07,
      "loss": 0.0149,
      "reward": 1.6944444179534912,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 6403
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 37.91666793823242,
      "epoch": 48.149253731343286,
      "grad_norm": 0.0,
      "learning_rate": 3.122481626265585e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6404
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 34.80555725097656,
      "epoch": 48.156716417910445,
      "grad_norm": 0.0,
      "learning_rate": 3.1218508735253147e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6405
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 36.27777862548828,
      "epoch": 48.16417910447761,
      "grad_norm": 0.0,
      "learning_rate": 3.1212200785870924e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6406
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 32.6944465637207,
      "epoch": 48.17164179104478,
      "grad_norm": 0.0,
      "learning_rate": 3.120589241493723e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6407
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 33.55555725097656,
      "epoch": 48.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 3.1199583622880136e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6408
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 35.0,
      "epoch": 48.1865671641791,
      "grad_norm": 0.0,
      "learning_rate": 3.119327441012776e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6409
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.72222328186035,
      "epoch": 48.19402985074627,
      "grad_norm": 0.0,
      "learning_rate": 3.1186964777108214e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6410
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 33.5,
      "epoch": 48.201492537313435,
      "grad_norm": 0.0,
      "learning_rate": 3.118065472424969e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6411
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 33.02777862548828,
      "epoch": 48.208955223880594,
      "grad_norm": 0.0,
      "learning_rate": 3.117434425198036e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6412
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.44444465637207,
      "epoch": 48.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 3.1168033360728444e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6413
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 33.33333206176758,
      "epoch": 48.223880597014926,
      "grad_norm": 51.514341526310766,
      "learning_rate": 3.116172205092221e-07,
      "loss": -0.0219,
      "reward": 1.9444444179534912,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.944444477558136,
      "rewards/format_reward": 1.0,
      "step": 6414
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.38888931274414,
      "epoch": 48.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 3.11554103229899e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6415
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 33.22222137451172,
      "epoch": 48.23880597014925,
      "grad_norm": 0.0,
      "learning_rate": 3.114909817735986e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6416
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 33.25,
      "epoch": 48.24626865671642,
      "grad_norm": 0.0,
      "learning_rate": 3.114278561446039e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6417
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 35.41666793823242,
      "epoch": 48.25373134328358,
      "grad_norm": 0.0,
      "learning_rate": 3.1136472634719875e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6418
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 32.02777862548828,
      "epoch": 48.26119402985075,
      "grad_norm": 0.0,
      "learning_rate": 3.113015923856669e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6419
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 33.1944465637207,
      "epoch": 48.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 3.112384542642926e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6420
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 33.16666793823242,
      "epoch": 48.276119402985074,
      "grad_norm": 0.0,
      "learning_rate": 3.1117531198736036e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6421
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 32.41666793823242,
      "epoch": 48.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 3.111121655591548e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6422
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 33.13888931274414,
      "epoch": 48.291044776119406,
      "grad_norm": 0.0,
      "learning_rate": 3.11049014983961e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6423
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 33.16666793823242,
      "epoch": 48.298507462686565,
      "grad_norm": 0.0,
      "learning_rate": 3.1098586026606446e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6424
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 34.80555725097656,
      "epoch": 48.30597014925373,
      "grad_norm": 0.0,
      "learning_rate": 3.109227014097505e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6425
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 32.41666793823242,
      "epoch": 48.3134328358209,
      "grad_norm": 0.0,
      "learning_rate": 3.1085953841930506e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6426
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 33.77777862548828,
      "epoch": 48.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 3.107963712990144e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6427
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 33.36111068725586,
      "epoch": 48.32835820895522,
      "grad_norm": 0.0,
      "learning_rate": 3.1073320005316497e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6428
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 33.80555725097656,
      "epoch": 48.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 3.1067002468604327e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6429
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 33.22222137451172,
      "epoch": 48.343283582089555,
      "grad_norm": 0.0,
      "learning_rate": 3.1060684520193646e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6430
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 32.75,
      "epoch": 48.350746268656714,
      "grad_norm": 0.0,
      "learning_rate": 3.105436616051319e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6431
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 33.75,
      "epoch": 48.35820895522388,
      "grad_norm": 0.0,
      "learning_rate": 3.104804738999169e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6432
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 34.13888931274414,
      "epoch": 48.365671641791046,
      "grad_norm": 0.0,
      "learning_rate": 3.104172820905795e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6433
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 33.33333206176758,
      "epoch": 48.37313432835821,
      "grad_norm": 0.0,
      "learning_rate": 3.1035408618140774e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6434
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.52777862548828,
      "epoch": 48.38059701492537,
      "grad_norm": 0.0,
      "learning_rate": 3.1029088617668995e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6435
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 36.33333206176758,
      "epoch": 48.38805970149254,
      "grad_norm": 0.0,
      "learning_rate": 3.102276820807149e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6436
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 33.72222137451172,
      "epoch": 48.3955223880597,
      "grad_norm": 0.0,
      "learning_rate": 3.1016447389777143e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6437
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 32.30555725097656,
      "epoch": 48.40298507462686,
      "grad_norm": 0.0,
      "learning_rate": 3.101012616321488e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6438
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 34.16666793823242,
      "epoch": 48.41044776119403,
      "grad_norm": 0.0,
      "learning_rate": 3.1003804528813657e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6439
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.16666603088379,
      "epoch": 48.417910447761194,
      "grad_norm": 0.0,
      "learning_rate": 3.099748248700245e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6440
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.5,
      "epoch": 48.42537313432836,
      "grad_norm": 0.0,
      "learning_rate": 3.099116003821025e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 6441
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.25,
      "epoch": 48.43283582089552,
      "grad_norm": 0.0,
      "learning_rate": 3.0984837182866107e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6442
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.38888931274414,
      "epoch": 48.440298507462686,
      "grad_norm": 0.0,
      "learning_rate": 3.0978513921399066e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6443
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 32.91666793823242,
      "epoch": 48.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 3.097219025423823e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6444
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.77777862548828,
      "epoch": 48.45522388059702,
      "grad_norm": 0.0,
      "learning_rate": 3.0965866181812715e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6445
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 33.02777862548828,
      "epoch": 48.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 3.095954170455165e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6446
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 32.22222137451172,
      "epoch": 48.47014925373134,
      "grad_norm": 0.0,
      "learning_rate": 3.0953216822884217e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 6447
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 34.91666793823242,
      "epoch": 48.47761194029851,
      "grad_norm": 0.0,
      "learning_rate": 3.0946891537239604e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6448
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.30555534362793,
      "epoch": 48.485074626865675,
      "grad_norm": 0.0,
      "learning_rate": 3.094056584804704e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6449
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.5,
      "epoch": 48.492537313432834,
      "grad_norm": 0.0,
      "learning_rate": 3.093423975573578e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6450
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 32.38888931274414,
      "epoch": 48.5,
      "grad_norm": 3.6205692946619354,
      "learning_rate": 3.0927913260735105e-07,
      "loss": 0.0363,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 6451
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 32.08333206176758,
      "epoch": 48.507462686567166,
      "grad_norm": 0.0,
      "learning_rate": 3.092158636347433e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6452
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.97222328186035,
      "epoch": 48.514925373134325,
      "grad_norm": 0.0,
      "learning_rate": 3.091525906438276e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6453
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.33333396911621,
      "epoch": 48.52238805970149,
      "grad_norm": 0.0,
      "learning_rate": 3.090893136388979e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6454
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 32.9444465637207,
      "epoch": 48.52985074626866,
      "grad_norm": 0.0,
      "learning_rate": 3.09026032624248e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6455
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.75,
      "epoch": 48.53731343283582,
      "grad_norm": 63.92310604176698,
      "learning_rate": 3.0896274760417187e-07,
      "loss": -0.0009,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 6456
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.16666603088379,
      "epoch": 48.54477611940298,
      "grad_norm": 0.0,
      "learning_rate": 3.088994585829642e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6457
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.19444465637207,
      "epoch": 48.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 3.088361655649196e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6458
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.83333396911621,
      "epoch": 48.559701492537314,
      "grad_norm": 0.0,
      "learning_rate": 3.0877286855433304e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6459
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.58333396911621,
      "epoch": 48.56716417910448,
      "grad_norm": 0.0,
      "learning_rate": 3.087095675554997e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6460
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.66666603088379,
      "epoch": 48.57462686567164,
      "grad_norm": 0.0,
      "learning_rate": 3.086462625727152e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6461
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.63888931274414,
      "epoch": 48.582089552238806,
      "grad_norm": 0.0,
      "learning_rate": 3.085829536102754e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6462
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.94444465637207,
      "epoch": 48.58955223880597,
      "grad_norm": 0.0,
      "learning_rate": 3.0851964067247616e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6463
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.69444465637207,
      "epoch": 48.59701492537313,
      "grad_norm": 0.0,
      "learning_rate": 3.0845632376361397e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6464
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.77777862548828,
      "epoch": 48.6044776119403,
      "grad_norm": 0.0,
      "learning_rate": 3.083930028879853e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6465
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.0,
      "epoch": 48.61194029850746,
      "grad_norm": 0.0,
      "learning_rate": 3.083296780498871e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 6466
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.05555534362793,
      "epoch": 48.61940298507463,
      "grad_norm": 0.0,
      "learning_rate": 3.082663492536166e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6467
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.33333396911621,
      "epoch": 48.62686567164179,
      "grad_norm": 0.0,
      "learning_rate": 3.0820301650347104e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6468
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.94444465637207,
      "epoch": 48.634328358208954,
      "grad_norm": 64.63457395439366,
      "learning_rate": 3.081396798037481e-07,
      "loss": -0.0119,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 6469
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.61111068725586,
      "epoch": 48.64179104477612,
      "grad_norm": 0.0,
      "learning_rate": 3.0807633915874583e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6470
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.33333396911621,
      "epoch": 48.649253731343286,
      "grad_norm": 0.0,
      "learning_rate": 3.080129945727624e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6471
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.80555534362793,
      "epoch": 48.656716417910445,
      "grad_norm": 74.01344483796134,
      "learning_rate": 3.079496460500962e-07,
      "loss": -0.0207,
      "reward": 1.9166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 6472
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.69444465637207,
      "epoch": 48.66417910447761,
      "grad_norm": 0.0,
      "learning_rate": 3.078862935950461e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6473
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.75,
      "epoch": 48.67164179104478,
      "grad_norm": 13.187474101921744,
      "learning_rate": 3.0782293721191105e-07,
      "loss": 0.0199,
      "reward": 1.9444444179534912,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.944444477558136,
      "rewards/format_reward": 1.0,
      "step": 6474
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.5,
      "epoch": 48.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 3.077595769049904e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6475
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.63888931274414,
      "epoch": 48.6865671641791,
      "grad_norm": 0.0,
      "learning_rate": 3.0769621267858346e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6476
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.44444465637207,
      "epoch": 48.69402985074627,
      "grad_norm": 0.0,
      "learning_rate": 3.076328445369904e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6477
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.0,
      "epoch": 48.701492537313435,
      "grad_norm": 0.0,
      "learning_rate": 3.07569472484511e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6478
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.38888931274414,
      "epoch": 48.708955223880594,
      "grad_norm": 0.0,
      "learning_rate": 3.075060965254458e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6479
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.91666603088379,
      "epoch": 48.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 3.0744271666409523e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6480
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.75,
      "epoch": 48.723880597014926,
      "grad_norm": 0.0,
      "learning_rate": 3.0737933290476026e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6481
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.16666603088379,
      "epoch": 48.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 3.073159452517421e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6482
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.47222328186035,
      "epoch": 48.73880597014925,
      "grad_norm": 0.0,
      "learning_rate": 3.0725255370934186e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6483
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.22222328186035,
      "epoch": 48.74626865671642,
      "grad_norm": 0.0,
      "learning_rate": 3.071891582818616e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6484
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.69444465637207,
      "epoch": 48.75373134328358,
      "grad_norm": 0.0,
      "learning_rate": 3.07125758973603e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6485
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.08333396911621,
      "epoch": 48.76119402985075,
      "grad_norm": 0.0,
      "learning_rate": 3.070623557888683e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6486
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.36111068725586,
      "epoch": 48.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 3.069989487319599e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6487
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.77777862548828,
      "epoch": 48.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 3.069355378071806e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6488
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.02777862548828,
      "epoch": 48.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 3.068721230188334e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6489
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.58333396911621,
      "epoch": 48.791044776119406,
      "grad_norm": 0.0,
      "learning_rate": 3.068087043712214e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 6490
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.08333396911621,
      "epoch": 48.798507462686565,
      "grad_norm": 0.0,
      "learning_rate": 3.067452818686483e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6491
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.75,
      "epoch": 48.80597014925373,
      "grad_norm": 0.0,
      "learning_rate": 3.066818555154177e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6492
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.69444465637207,
      "epoch": 48.8134328358209,
      "grad_norm": 0.0,
      "learning_rate": 3.0661842531583363e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6493
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.41666603088379,
      "epoch": 48.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 3.0655499127420055e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6494
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.13888931274414,
      "epoch": 48.82835820895522,
      "grad_norm": 0.0,
      "learning_rate": 3.064915533948228e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6495
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.75,
      "epoch": 48.83582089552239,
      "grad_norm": 0.0,
      "learning_rate": 3.0642811168200536e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6496
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.72222328186035,
      "epoch": 48.843283582089555,
      "grad_norm": 0.0,
      "learning_rate": 3.063646661400532e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6497
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.11111068725586,
      "epoch": 48.850746268656714,
      "grad_norm": 0.0,
      "learning_rate": 3.0630121677327157e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6498
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.02777862548828,
      "epoch": 48.85820895522388,
      "grad_norm": 0.0,
      "learning_rate": 3.062377635859663e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6499
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.33333396911621,
      "epoch": 48.865671641791046,
      "grad_norm": 0.0,
      "learning_rate": 3.0617430658244293e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6500
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.88888931274414,
      "epoch": 48.87313432835821,
      "grad_norm": 0.0,
      "learning_rate": 3.0611084576700784e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6501
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.80555534362793,
      "epoch": 48.88059701492537,
      "grad_norm": 0.0,
      "learning_rate": 3.060473811439672e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6502
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.0,
      "epoch": 48.88805970149254,
      "grad_norm": 0.0,
      "learning_rate": 3.059839127176278e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6503
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.69444465637207,
      "epoch": 48.8955223880597,
      "grad_norm": 0.0,
      "learning_rate": 3.0592044049229633e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6504
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.86111068725586,
      "epoch": 48.90298507462687,
      "grad_norm": 0.0,
      "learning_rate": 3.0585696447228007e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6505
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.11111068725586,
      "epoch": 48.91044776119403,
      "grad_norm": 0.0,
      "learning_rate": 3.0579348466188645e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6506
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.80555534362793,
      "epoch": 48.917910447761194,
      "grad_norm": 0.0,
      "learning_rate": 3.057300010654229e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6507
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.58333396911621,
      "epoch": 48.92537313432836,
      "grad_norm": 0.0,
      "learning_rate": 3.056665136871976e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6508
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.33333396911621,
      "epoch": 48.93283582089552,
      "grad_norm": 0.0,
      "learning_rate": 3.056030225315186e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 6509
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.72222328186035,
      "epoch": 48.940298507462686,
      "grad_norm": 0.0,
      "learning_rate": 3.055395276026942e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6510
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.83333396911621,
      "epoch": 48.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 3.054760289050333e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6511
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.16666603088379,
      "epoch": 48.95522388059702,
      "grad_norm": 0.0,
      "learning_rate": 3.054125264428447e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6512
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.41666603088379,
      "epoch": 48.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 3.0534902022043774e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6513
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.63888931274414,
      "epoch": 48.97014925373134,
      "grad_norm": 0.0,
      "learning_rate": 3.0528551024212164e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6514
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.44444465637207,
      "epoch": 48.97761194029851,
      "grad_norm": 0.0,
      "learning_rate": 3.052219965122062e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6515
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.08333396911621,
      "epoch": 48.985074626865675,
      "grad_norm": 0.0,
      "learning_rate": 3.051584790350014e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6516
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 34.16666793823242,
      "epoch": 48.992537313432834,
      "grad_norm": 52.05523957873157,
      "learning_rate": 3.0509495781481745e-07,
      "loss": 0.011,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 6517
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.88888931274414,
      "epoch": 49.007462686567166,
      "grad_norm": 0.0,
      "learning_rate": 3.050314328559648e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6518
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.38888931274414,
      "epoch": 49.014925373134325,
      "grad_norm": 0.0,
      "learning_rate": 3.0496790416275413e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6519
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.13888931274414,
      "epoch": 49.02238805970149,
      "grad_norm": 0.0,
      "learning_rate": 3.049043717394965e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6520
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.58333396911621,
      "epoch": 49.02985074626866,
      "grad_norm": 21.05204967377382,
      "learning_rate": 3.0484083559050307e-07,
      "loss": 0.0161,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 6521
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.72222328186035,
      "epoch": 49.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 3.0477729572008525e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6522
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.05555534362793,
      "epoch": 49.04477611940298,
      "grad_norm": 0.0,
      "learning_rate": 3.0471375213255503e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6523
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.22222328186035,
      "epoch": 49.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 3.04650204832224e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6524
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.44444465637207,
      "epoch": 49.059701492537314,
      "grad_norm": 0.0,
      "learning_rate": 3.0458665382340474e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6525
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.22222328186035,
      "epoch": 49.06716417910448,
      "grad_norm": 0.0,
      "learning_rate": 3.045230991104096e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6526
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 33.36111068725586,
      "epoch": 49.07462686567164,
      "grad_norm": 0.0,
      "learning_rate": 3.044595406975512e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6527
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.11111068725586,
      "epoch": 49.082089552238806,
      "grad_norm": 0.0,
      "learning_rate": 3.0439597858914267e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6528
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.77777862548828,
      "epoch": 49.08955223880597,
      "grad_norm": 3.1059496183280677,
      "learning_rate": 3.043324127894972e-07,
      "loss": -0.0024,
      "reward": 1.638888955116272,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.6388888955116272,
      "rewards/format_reward": 1.0,
      "step": 6529
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.52777862548828,
      "epoch": 49.09701492537314,
      "grad_norm": 0.0,
      "learning_rate": 3.042688433029284e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6530
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.80555534362793,
      "epoch": 49.1044776119403,
      "grad_norm": 0.0,
      "learning_rate": 3.0420527013374983e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6531
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.72222328186035,
      "epoch": 49.11194029850746,
      "grad_norm": 0.0,
      "learning_rate": 3.041416932862756e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6532
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 32.41666793823242,
      "epoch": 49.11940298507463,
      "grad_norm": 0.0,
      "learning_rate": 3.0407811276481986e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6533
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.33333396911621,
      "epoch": 49.12686567164179,
      "grad_norm": 0.0,
      "learning_rate": 3.040145285736971e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6534
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.30555534362793,
      "epoch": 49.134328358208954,
      "grad_norm": 0.0,
      "learning_rate": 3.0395094071722217e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6535
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.19444465637207,
      "epoch": 49.14179104477612,
      "grad_norm": 0.0,
      "learning_rate": 3.0388734919970985e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6536
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.13888931274414,
      "epoch": 49.149253731343286,
      "grad_norm": 0.0,
      "learning_rate": 3.038237540254756e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6537
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.38888931274414,
      "epoch": 49.156716417910445,
      "grad_norm": 0.0,
      "learning_rate": 3.0376015519883484e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 6538
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.13888931274414,
      "epoch": 49.16417910447761,
      "grad_norm": 0.0,
      "learning_rate": 3.0369655272410315e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6539
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.88888931274414,
      "epoch": 49.17164179104478,
      "grad_norm": 0.0,
      "learning_rate": 3.036329466055968e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6540
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.66666603088379,
      "epoch": 49.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 3.035693368476317e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6541
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.08333396911621,
      "epoch": 49.1865671641791,
      "grad_norm": 0.0,
      "learning_rate": 3.0350572345452454e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6542
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.5,
      "epoch": 49.19402985074627,
      "grad_norm": 0.0,
      "learning_rate": 3.034421064305919e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6543
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.25,
      "epoch": 49.201492537313435,
      "grad_norm": 0.0,
      "learning_rate": 3.033784857801507e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6544
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.44444465637207,
      "epoch": 49.208955223880594,
      "grad_norm": 0.0,
      "learning_rate": 3.033148615075184e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6545
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 32.4444465637207,
      "epoch": 49.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 3.032512336170122e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6546
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.83333396911621,
      "epoch": 49.223880597014926,
      "grad_norm": 0.0,
      "learning_rate": 3.031876021129501e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6547
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.19444465637207,
      "epoch": 49.23134328358209,
      "grad_norm": 205.5557857835364,
      "learning_rate": 3.0312396699964967e-07,
      "loss": 0.0117,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 0.9722222089767456,
      "step": 6548
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.97222328186035,
      "epoch": 49.23880597014925,
      "grad_norm": 0.0,
      "learning_rate": 3.030603282814293e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6549
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.55555534362793,
      "epoch": 49.24626865671642,
      "grad_norm": 0.0,
      "learning_rate": 3.029966859626075e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 6550
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.97222328186035,
      "epoch": 49.25373134328358,
      "grad_norm": 0.0,
      "learning_rate": 3.029330400475028e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6551
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 34.1944465637207,
      "epoch": 49.26119402985075,
      "grad_norm": 0.0,
      "learning_rate": 3.0286939054043425e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6552
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.94444465637207,
      "epoch": 49.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 3.0280573744572085e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6553
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.36111068725586,
      "epoch": 49.276119402985074,
      "grad_norm": 0.0,
      "learning_rate": 3.0274208076768226e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 6554
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.44444465637207,
      "epoch": 49.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 3.0267842051063794e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6555
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.0,
      "epoch": 49.291044776119406,
      "grad_norm": 0.0,
      "learning_rate": 3.026147566789078e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6556
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.66666603088379,
      "epoch": 49.298507462686565,
      "grad_norm": 0.0,
      "learning_rate": 3.025510892768121e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 6557
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.38888931274414,
      "epoch": 49.30597014925373,
      "grad_norm": 0.0,
      "learning_rate": 3.024874183086711e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6558
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.44444465637207,
      "epoch": 49.3134328358209,
      "grad_norm": 0.0,
      "learning_rate": 3.0242374377880545e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6559
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.88888931274414,
      "epoch": 49.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 3.0236006569153616e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6560
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.91666603088379,
      "epoch": 49.32835820895522,
      "grad_norm": 0.0,
      "learning_rate": 3.022963840511841e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6561
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.19444465637207,
      "epoch": 49.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 3.0223269886207077e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6562
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.77777862548828,
      "epoch": 49.343283582089555,
      "grad_norm": 2970.535492783318,
      "learning_rate": 3.021690101285177e-07,
      "loss": -0.0011,
      "reward": 1.9166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 6563
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.5,
      "epoch": 49.350746268656714,
      "grad_norm": 0.0,
      "learning_rate": 3.0210531785484683e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6564
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.16666603088379,
      "epoch": 49.35820895522388,
      "grad_norm": 0.0,
      "learning_rate": 3.020416220453801e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6565
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.41666603088379,
      "epoch": 49.365671641791046,
      "grad_norm": 0.0,
      "learning_rate": 3.0197792270443976e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6566
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.52777862548828,
      "epoch": 49.37313432835821,
      "grad_norm": 0.0,
      "learning_rate": 3.0191421983634867e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6567
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.88888931274414,
      "epoch": 49.38059701492537,
      "grad_norm": 0.0,
      "learning_rate": 3.0185051344542935e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6568
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 32.38888931274414,
      "epoch": 49.38805970149254,
      "grad_norm": 0.0,
      "learning_rate": 3.017868035360049e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6569
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.33333396911621,
      "epoch": 49.3955223880597,
      "grad_norm": 0.0,
      "learning_rate": 3.017230901123985e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6570
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.19444465637207,
      "epoch": 49.40298507462686,
      "grad_norm": 0.0,
      "learning_rate": 3.016593731789338e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6571
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.05555534362793,
      "epoch": 49.41044776119403,
      "grad_norm": 0.0,
      "learning_rate": 3.0159565273993453e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6572
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.91666603088379,
      "epoch": 49.417910447761194,
      "grad_norm": 0.0,
      "learning_rate": 3.0153192879972455e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6573
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.5,
      "epoch": 49.42537313432836,
      "grad_norm": 0.0,
      "learning_rate": 3.014682013626283e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6574
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.86111068725586,
      "epoch": 49.43283582089552,
      "grad_norm": 0.0,
      "learning_rate": 3.0140447043296994e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6575
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 33.0,
      "epoch": 49.440298507462686,
      "grad_norm": 0.0,
      "learning_rate": 3.0134073601507443e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6576
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.75,
      "epoch": 49.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 3.012769981132665e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6577
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.94444465637207,
      "epoch": 49.45522388059702,
      "grad_norm": 0.0,
      "learning_rate": 3.012132567318715e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6578
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.75,
      "epoch": 49.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 3.011495118752146e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6579
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.44444465637207,
      "epoch": 49.47014925373134,
      "grad_norm": 0.0,
      "learning_rate": 3.010857635476217e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6580
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.91666603088379,
      "epoch": 49.47761194029851,
      "grad_norm": 0.0,
      "learning_rate": 3.0102201175341857e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6581
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.72222328186035,
      "epoch": 49.485074626865675,
      "grad_norm": 0.0,
      "learning_rate": 3.0095825649693124e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6582
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.19444465637207,
      "epoch": 49.492537313432834,
      "grad_norm": 0.0,
      "learning_rate": 3.008944977824861e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6583
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.72222328186035,
      "epoch": 49.5,
      "grad_norm": 0.0,
      "learning_rate": 3.0083073561440985e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6584
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.25,
      "epoch": 49.507462686567166,
      "grad_norm": 0.0,
      "learning_rate": 3.007669699970291e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6585
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 32.6944465637207,
      "epoch": 49.514925373134325,
      "grad_norm": 0.0,
      "learning_rate": 3.007032009346711e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6586
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.05555534362793,
      "epoch": 49.52238805970149,
      "grad_norm": 0.0,
      "learning_rate": 3.0063942843166293e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6587
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 33.11111068725586,
      "epoch": 49.52985074626866,
      "grad_norm": 0.0,
      "learning_rate": 3.005756524923323e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6588
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.5,
      "epoch": 49.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 3.005118731210068e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6589
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.86111068725586,
      "epoch": 49.54477611940298,
      "grad_norm": 0.0,
      "learning_rate": 3.004480903220145e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6590
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.27777862548828,
      "epoch": 49.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 3.0038430409968364e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 6591
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.86111068725586,
      "epoch": 49.559701492537314,
      "grad_norm": 0.0,
      "learning_rate": 3.003205144583425e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6592
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.80555534362793,
      "epoch": 49.56716417910448,
      "grad_norm": 0.0,
      "learning_rate": 3.0025672140231993e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6593
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.83333396911621,
      "epoch": 49.57462686567164,
      "grad_norm": 0.0,
      "learning_rate": 3.0019292493594473e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6594
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.86111068725586,
      "epoch": 49.582089552238806,
      "grad_norm": 0.0,
      "learning_rate": 3.001291250635462e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6595
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.55555534362793,
      "epoch": 49.58955223880597,
      "grad_norm": 0.0,
      "learning_rate": 3.0006532178945353e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6596
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.19444465637207,
      "epoch": 49.59701492537313,
      "grad_norm": 0.0,
      "learning_rate": 3.0000151511799643e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6597
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.36111068725586,
      "epoch": 49.6044776119403,
      "grad_norm": 0.0,
      "learning_rate": 2.9993770505350475e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6598
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.66666603088379,
      "epoch": 49.61194029850746,
      "grad_norm": 0.0,
      "learning_rate": 2.998738916003085e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6599
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.86111068725586,
      "epoch": 49.61940298507463,
      "grad_norm": 0.0,
      "learning_rate": 2.9981007476273786e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6600
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 32.80555725097656,
      "epoch": 49.62686567164179,
      "grad_norm": 0.0,
      "learning_rate": 2.9974625454512365e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6601
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.61111068725586,
      "epoch": 49.634328358208954,
      "grad_norm": 0.0,
      "learning_rate": 2.996824309517963e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6602
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.25,
      "epoch": 49.64179104477612,
      "grad_norm": 0.0,
      "learning_rate": 2.99618603987087e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6603
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.08333396911621,
      "epoch": 49.649253731343286,
      "grad_norm": 0.0,
      "learning_rate": 2.995547736553269e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6604
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.83333396911621,
      "epoch": 49.656716417910445,
      "grad_norm": 0.0,
      "learning_rate": 2.9949093996084745e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6605
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.38888931274414,
      "epoch": 49.66417910447761,
      "grad_norm": 0.0,
      "learning_rate": 2.994271029079803e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6606
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 32.80555725097656,
      "epoch": 49.67164179104478,
      "grad_norm": 0.0,
      "learning_rate": 2.993632625010573e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6607
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.30555534362793,
      "epoch": 49.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 2.9929941874441077e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6608
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.16666603088379,
      "epoch": 49.6865671641791,
      "grad_norm": 0.0,
      "learning_rate": 2.992355716423728e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6609
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.08333396911621,
      "epoch": 49.69402985074627,
      "grad_norm": 0.0,
      "learning_rate": 2.9917172119927604e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6610
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.44444465637207,
      "epoch": 49.701492537313435,
      "grad_norm": 0.0,
      "learning_rate": 2.9910786741945344e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6611
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.02777862548828,
      "epoch": 49.708955223880594,
      "grad_norm": 0.0,
      "learning_rate": 2.990440103072379e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6612
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 32.4444465637207,
      "epoch": 49.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 2.9898014986696274e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6613
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.36111068725586,
      "epoch": 49.723880597014926,
      "grad_norm": 0.0,
      "learning_rate": 2.989162861029613e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6614
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.63888931274414,
      "epoch": 49.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 2.9885241901956746e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6615
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.44444465637207,
      "epoch": 49.73880597014925,
      "grad_norm": 0.0,
      "learning_rate": 2.9878854862111514e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6616
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.11111068725586,
      "epoch": 49.74626865671642,
      "grad_norm": 0.0,
      "learning_rate": 2.9872467491193836e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6617
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.97222328186035,
      "epoch": 49.75373134328358,
      "grad_norm": 0.0,
      "learning_rate": 2.986607978963717e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6618
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.25,
      "epoch": 49.76119402985075,
      "grad_norm": 0.0,
      "learning_rate": 2.9859691757874953e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6619
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.30555534362793,
      "epoch": 49.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 2.985330339634069e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6620
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.22222328186035,
      "epoch": 49.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 2.9846914705467876e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6621
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 32.0,
      "epoch": 49.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 2.9840525685690033e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6622
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.55555534362793,
      "epoch": 49.791044776119406,
      "grad_norm": 0.0,
      "learning_rate": 2.983413633744073e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6623
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.88888931274414,
      "epoch": 49.798507462686565,
      "grad_norm": 0.0,
      "learning_rate": 2.9827746661153514e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 6624
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.97222328186035,
      "epoch": 49.80597014925373,
      "grad_norm": 0.0,
      "learning_rate": 2.9821356657262004e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6625
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.94444465637207,
      "epoch": 49.8134328358209,
      "grad_norm": 0.0,
      "learning_rate": 2.9814966326199804e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6626
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 32.38888931274414,
      "epoch": 49.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 2.9808575668400547e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6627
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.38888931274414,
      "epoch": 49.82835820895522,
      "grad_norm": 0.0,
      "learning_rate": 2.9802184684297914e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6628
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.55555534362793,
      "epoch": 49.83582089552239,
      "grad_norm": 0.0,
      "learning_rate": 2.979579337432557e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6629
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 33.47222137451172,
      "epoch": 49.843283582089555,
      "grad_norm": 0.0,
      "learning_rate": 2.978940173891724e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6630
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 32.1944465637207,
      "epoch": 49.850746268656714,
      "grad_norm": 0.0,
      "learning_rate": 2.9783009778506624e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6631
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.86111068725586,
      "epoch": 49.85820895522388,
      "grad_norm": 0.0,
      "learning_rate": 2.9776617493527503e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6632
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.86111068725586,
      "epoch": 49.865671641791046,
      "grad_norm": 0.0,
      "learning_rate": 2.977022488441362e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6633
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.80555534362793,
      "epoch": 49.87313432835821,
      "grad_norm": 0.0,
      "learning_rate": 2.9763831951598786e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6634
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.05555534362793,
      "epoch": 49.88059701492537,
      "grad_norm": 0.0,
      "learning_rate": 2.975743869551681e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6635
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 32.05555725097656,
      "epoch": 49.88805970149254,
      "grad_norm": 0.0,
      "learning_rate": 2.9751045116601535e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6636
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 32.13888931274414,
      "epoch": 49.8955223880597,
      "grad_norm": 0.0,
      "learning_rate": 2.974465121528683e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6637
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.36111068725586,
      "epoch": 49.90298507462687,
      "grad_norm": 0.0,
      "learning_rate": 2.9738256992006543e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6638
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.77777862548828,
      "epoch": 49.91044776119403,
      "grad_norm": 0.0,
      "learning_rate": 2.9731862447194606e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6639
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.72222328186035,
      "epoch": 49.917910447761194,
      "grad_norm": 0.0,
      "learning_rate": 2.972546758128494e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6640
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.13888931274414,
      "epoch": 49.92537313432836,
      "grad_norm": 0.0,
      "learning_rate": 2.9719072394711487e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6641
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.47222328186035,
      "epoch": 49.93283582089552,
      "grad_norm": 0.0,
      "learning_rate": 2.971267688790822e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6642
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.0,
      "epoch": 49.940298507462686,
      "grad_norm": 0.0,
      "learning_rate": 2.970628106130912e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6643
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.08333396911621,
      "epoch": 49.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 2.96998849153482e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6644
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 33.36111068725586,
      "epoch": 49.95522388059702,
      "grad_norm": 0.0,
      "learning_rate": 2.969348845045951e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6645
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 32.86111068725586,
      "epoch": 49.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 2.96870916670771e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6646
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 34.0,
      "epoch": 49.97014925373134,
      "grad_norm": 0.0,
      "learning_rate": 2.9680694565635027e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6647
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.47222328186035,
      "epoch": 49.97761194029851,
      "grad_norm": 0.0,
      "learning_rate": 2.9674297146567407e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6648
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 33.52777862548828,
      "epoch": 49.985074626865675,
      "grad_norm": 0.0,
      "learning_rate": 2.9667899410308363e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6649
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.666667938232422,
      "epoch": 49.992537313432834,
      "grad_norm": 0.0,
      "learning_rate": 2.966150135729203e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6650
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.75,
      "epoch": 50.007462686567166,
      "grad_norm": 0.0,
      "learning_rate": 2.965510298795257e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6651
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.86111068725586,
      "epoch": 50.014925373134325,
      "grad_norm": 0.0,
      "learning_rate": 2.964870430272417e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6652
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.16666603088379,
      "epoch": 50.02238805970149,
      "grad_norm": 0.0,
      "learning_rate": 2.964230530204104e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6653
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.47222328186035,
      "epoch": 50.02985074626866,
      "grad_norm": 11.361009061489591,
      "learning_rate": 2.96359059863374e-07,
      "loss": -0.0139,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 6654
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.52777862548828,
      "epoch": 50.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 2.9629506356047494e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6655
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.86111068725586,
      "epoch": 50.04477611940298,
      "grad_norm": 0.0,
      "learning_rate": 2.962310641160561e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6656
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.63888931274414,
      "epoch": 50.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 2.961670615344603e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6657
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.52777862548828,
      "epoch": 50.059701492537314,
      "grad_norm": 0.0,
      "learning_rate": 2.9610305582003057e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6658
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.61111068725586,
      "epoch": 50.06716417910448,
      "grad_norm": 0.0,
      "learning_rate": 2.9603904697711045e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6659
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.63888931274414,
      "epoch": 50.07462686567164,
      "grad_norm": 8.162626209809321,
      "learning_rate": 2.959750350100434e-07,
      "loss": -0.0154,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 6660
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.55555534362793,
      "epoch": 50.082089552238806,
      "grad_norm": 0.0,
      "learning_rate": 2.9591101992317305e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6661
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.11111068725586,
      "epoch": 50.08955223880597,
      "grad_norm": 0.0,
      "learning_rate": 2.958470017208436e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6662
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.16666603088379,
      "epoch": 50.09701492537314,
      "grad_norm": 0.0,
      "learning_rate": 2.957829804073991e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6663
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.08333396911621,
      "epoch": 50.1044776119403,
      "grad_norm": 0.0,
      "learning_rate": 2.9571895598718405e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6664
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.33333396911621,
      "epoch": 50.11194029850746,
      "grad_norm": 0.0,
      "learning_rate": 2.9565492846454295e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 6665
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 34.91666793823242,
      "epoch": 50.11940298507463,
      "grad_norm": 0.0,
      "learning_rate": 2.955908978438206e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6666
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.91666603088379,
      "epoch": 50.12686567164179,
      "grad_norm": 92.85455130794838,
      "learning_rate": 2.955268641293622e-07,
      "loss": -0.0124,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 6667
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.13888931274414,
      "epoch": 50.134328358208954,
      "grad_norm": 0.0,
      "learning_rate": 2.954628273255128e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6668
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.30555534362793,
      "epoch": 50.14179104477612,
      "grad_norm": 0.0,
      "learning_rate": 2.9539878743661807e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6669
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 32.41666793823242,
      "epoch": 50.149253731343286,
      "grad_norm": 0.0,
      "learning_rate": 2.9533474446702346e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6670
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.02777862548828,
      "epoch": 50.156716417910445,
      "grad_norm": 0.0,
      "learning_rate": 2.952706984210748e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6671
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 33.77777862548828,
      "epoch": 50.16417910447761,
      "grad_norm": 606.4094800717938,
      "learning_rate": 2.9520664930311844e-07,
      "loss": -0.0131,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 6672
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.19444465637207,
      "epoch": 50.17164179104478,
      "grad_norm": 0.0,
      "learning_rate": 2.951425971175005e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6673
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 33.33333206176758,
      "epoch": 50.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 2.9507854186856746e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6674
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.97222328186035,
      "epoch": 50.1865671641791,
      "grad_norm": 0.0,
      "learning_rate": 2.95014483560666e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 6675
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 34.66666793823242,
      "epoch": 50.19402985074627,
      "grad_norm": 0.0,
      "learning_rate": 2.9495042219814316e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6676
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 32.13888931274414,
      "epoch": 50.201492537313435,
      "grad_norm": 0.0,
      "learning_rate": 2.9488635778534585e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6677
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 33.6944465637207,
      "epoch": 50.208955223880594,
      "grad_norm": 0.0,
      "learning_rate": 2.948222903266216e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6678
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.44444465637207,
      "epoch": 50.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 2.947582198263179e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6679
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.22222328186035,
      "epoch": 50.223880597014926,
      "grad_norm": 0.0,
      "learning_rate": 2.946941462887824e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6680
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.66666603088379,
      "epoch": 50.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 2.94630069718363e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6681
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.11111068725586,
      "epoch": 50.23880597014925,
      "grad_norm": 0.0,
      "learning_rate": 2.9456599011940796e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6682
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 33.80555725097656,
      "epoch": 50.24626865671642,
      "grad_norm": 0.0,
      "learning_rate": 2.945019074962657e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6683
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 34.55555725097656,
      "epoch": 50.25373134328358,
      "grad_norm": 0.0,
      "learning_rate": 2.9443782185328465e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6684
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.77777862548828,
      "epoch": 50.26119402985075,
      "grad_norm": 0.0,
      "learning_rate": 2.9437373319481355e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6685
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.86111068725586,
      "epoch": 50.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 2.9430964152520147e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6686
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 32.63888931274414,
      "epoch": 50.276119402985074,
      "grad_norm": 0.0,
      "learning_rate": 2.942455468487976e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6687
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.52777862548828,
      "epoch": 50.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 2.941814491699512e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6688
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.72222328186035,
      "epoch": 50.291044776119406,
      "grad_norm": 0.0,
      "learning_rate": 2.9411734849301193e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6689
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.44444465637207,
      "epoch": 50.298507462686565,
      "grad_norm": 0.0,
      "learning_rate": 2.940532448223296e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6690
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.86111068725586,
      "epoch": 50.30597014925373,
      "grad_norm": 0.0,
      "learning_rate": 2.939891381622541e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6691
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.25,
      "epoch": 50.3134328358209,
      "grad_norm": 0.0,
      "learning_rate": 2.9392502851713564e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6692
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 32.4444465637207,
      "epoch": 50.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 2.938609158913247e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6693
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 32.33333206176758,
      "epoch": 50.32835820895522,
      "grad_norm": 0.0,
      "learning_rate": 2.937968002891718e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6694
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.88888931274414,
      "epoch": 50.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 2.9373268171502774e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6695
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.97222328186035,
      "epoch": 50.343283582089555,
      "grad_norm": 23.39864562044052,
      "learning_rate": 2.936685601732436e-07,
      "loss": 0.0026,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 6696
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 32.6944465637207,
      "epoch": 50.350746268656714,
      "grad_norm": 4.775741516567989,
      "learning_rate": 2.936044356681705e-07,
      "loss": -0.0069,
      "reward": 1.5555555820465088,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 6697
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.0,
      "epoch": 50.35820895522388,
      "grad_norm": 0.0,
      "learning_rate": 2.935403082041599e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6698
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 32.4444465637207,
      "epoch": 50.365671641791046,
      "grad_norm": 0.0,
      "learning_rate": 2.934761777855633e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6699
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.41666603088379,
      "epoch": 50.37313432835821,
      "grad_norm": 0.0,
      "learning_rate": 2.934120444167326e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6700
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 32.11111068725586,
      "epoch": 50.38059701492537,
      "grad_norm": 0.0,
      "learning_rate": 2.9334790810201977e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 6701
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.47222328186035,
      "epoch": 50.38805970149254,
      "grad_norm": 0.0,
      "learning_rate": 2.9328376884577696e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 6702
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.52777862548828,
      "epoch": 50.3955223880597,
      "grad_norm": 0.0,
      "learning_rate": 2.9321962665235666e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6703
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 32.9444465637207,
      "epoch": 50.40298507462686,
      "grad_norm": 0.0,
      "learning_rate": 2.9315548152611146e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6704
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.83333396911621,
      "epoch": 50.41044776119403,
      "grad_norm": 0.0,
      "learning_rate": 2.9309133347139406e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6705
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.02777862548828,
      "epoch": 50.417910447761194,
      "grad_norm": 0.0,
      "learning_rate": 2.930271824925576e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6706
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.83333396911621,
      "epoch": 50.42537313432836,
      "grad_norm": 0.0,
      "learning_rate": 2.9296302859395525e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6707
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.5,
      "epoch": 50.43283582089552,
      "grad_norm": 0.0,
      "learning_rate": 2.928988717799404e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6708
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.61111068725586,
      "epoch": 50.440298507462686,
      "grad_norm": 0.0,
      "learning_rate": 2.928347120548665e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6709
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.97222328186035,
      "epoch": 50.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 2.927705494230875e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6710
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.83333396911621,
      "epoch": 50.45522388059702,
      "grad_norm": 0.0,
      "learning_rate": 2.9270638388895736e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6711
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.44444465637207,
      "epoch": 50.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 2.926422154568302e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6712
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.33333396911621,
      "epoch": 50.47014925373134,
      "grad_norm": 0.0,
      "learning_rate": 2.925780441310605e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6713
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.97222328186035,
      "epoch": 50.47761194029851,
      "grad_norm": 0.0,
      "learning_rate": 2.925138699160028e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6714
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.77777862548828,
      "epoch": 50.485074626865675,
      "grad_norm": 5.68858596652415,
      "learning_rate": 2.9244969281601184e-07,
      "loss": -0.0044,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 6715
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.47222328186035,
      "epoch": 50.492537313432834,
      "grad_norm": 0.0,
      "learning_rate": 2.9238551283544264e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6716
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.22222328186035,
      "epoch": 50.5,
      "grad_norm": 0.0,
      "learning_rate": 2.9232132997865034e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6717
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.22222328186035,
      "epoch": 50.507462686567166,
      "grad_norm": 0.0,
      "learning_rate": 2.922571442499903e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6718
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.75,
      "epoch": 50.514925373134325,
      "grad_norm": 0.0,
      "learning_rate": 2.9219295565381806e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6719
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.72222328186035,
      "epoch": 50.52238805970149,
      "grad_norm": 0.0,
      "learning_rate": 2.921287641944894e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6720
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.66666603088379,
      "epoch": 50.52985074626866,
      "grad_norm": 0.0,
      "learning_rate": 2.920645698763603e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6721
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.02777862548828,
      "epoch": 50.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 2.9200037270378675e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6722
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.36111068725586,
      "epoch": 50.54477611940298,
      "grad_norm": 0.0,
      "learning_rate": 2.919361726811253e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6723
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.19444465637207,
      "epoch": 50.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 2.918719698127323e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6724
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.41666603088379,
      "epoch": 50.559701492537314,
      "grad_norm": 45.11414509503481,
      "learning_rate": 2.918077641029646e-07,
      "loss": -0.0114,
      "reward": 1.9166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 6725
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.63888931274414,
      "epoch": 50.56716417910448,
      "grad_norm": 0.0,
      "learning_rate": 2.917435555561789e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6726
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.66666603088379,
      "epoch": 50.57462686567164,
      "grad_norm": 0.0,
      "learning_rate": 2.9167934417673256e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6727
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.30555534362793,
      "epoch": 50.582089552238806,
      "grad_norm": 0.0,
      "learning_rate": 2.916151299689828e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6728
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.63888931274414,
      "epoch": 50.58955223880597,
      "grad_norm": 77.82540698990915,
      "learning_rate": 2.9155091293728697e-07,
      "loss": -0.0056,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 6729
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.5,
      "epoch": 50.59701492537313,
      "grad_norm": 0.0,
      "learning_rate": 2.9148669308600295e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6730
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.80555534362793,
      "epoch": 50.6044776119403,
      "grad_norm": 0.0,
      "learning_rate": 2.914224704194884e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6731
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.02777862548828,
      "epoch": 50.61194029850746,
      "grad_norm": 0.0,
      "learning_rate": 2.913582449421016e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6732
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.44444465637207,
      "epoch": 50.61940298507463,
      "grad_norm": 0.0,
      "learning_rate": 2.9129401665820063e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6733
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.52777862548828,
      "epoch": 50.62686567164179,
      "grad_norm": 0.0,
      "learning_rate": 2.912297855721441e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6734
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.33333396911621,
      "epoch": 50.634328358208954,
      "grad_norm": 0.0,
      "learning_rate": 2.911655516882905e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6735
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.5,
      "epoch": 50.64179104477612,
      "grad_norm": 0.0,
      "learning_rate": 2.911013150109987e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6736
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.30555534362793,
      "epoch": 50.649253731343286,
      "grad_norm": 0.0,
      "learning_rate": 2.9103707554462765e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6737
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.47222328186035,
      "epoch": 50.656716417910445,
      "grad_norm": 0.0,
      "learning_rate": 2.909728332935367e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6738
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.55555534362793,
      "epoch": 50.66417910447761,
      "grad_norm": 0.0,
      "learning_rate": 2.909085882620851e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6739
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.52777862548828,
      "epoch": 50.67164179104478,
      "grad_norm": 0.0,
      "learning_rate": 2.9084434045463254e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6740
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.77777862548828,
      "epoch": 50.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 2.9078008987553875e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6741
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.86111068725586,
      "epoch": 50.6865671641791,
      "grad_norm": 0.0,
      "learning_rate": 2.9071583652916365e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6742
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.08333396911621,
      "epoch": 50.69402985074627,
      "grad_norm": 0.0,
      "learning_rate": 2.906515804198674e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6743
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.22222328186035,
      "epoch": 50.701492537313435,
      "grad_norm": 76.51585037516864,
      "learning_rate": 2.905873215520103e-07,
      "loss": -0.0025,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 6744
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.88888931274414,
      "epoch": 50.708955223880594,
      "grad_norm": 77.35665550285458,
      "learning_rate": 2.9052305992995304e-07,
      "loss": -0.0079,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 6745
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.94444465637207,
      "epoch": 50.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 2.9045879555805605e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6746
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.27777862548828,
      "epoch": 50.723880597014926,
      "grad_norm": 0.0,
      "learning_rate": 2.9039452844068044e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6747
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.80555534362793,
      "epoch": 50.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 2.903302585821873e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6748
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.97222328186035,
      "epoch": 50.73880597014925,
      "grad_norm": 0.0,
      "learning_rate": 2.9026598598693766e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6749
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.52777862548828,
      "epoch": 50.74626865671642,
      "grad_norm": 0.0,
      "learning_rate": 2.9020171065929323e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6750
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.44444465637207,
      "epoch": 50.75373134328358,
      "grad_norm": 0.0,
      "learning_rate": 2.901374326036155e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6751
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.97222328186035,
      "epoch": 50.76119402985075,
      "grad_norm": 0.0,
      "learning_rate": 2.9007315182426634e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6752
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.86111068725586,
      "epoch": 50.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 2.9000886832560773e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6753
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.55555534362793,
      "epoch": 50.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 2.899445821120019e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6754
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.75,
      "epoch": 50.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 2.898802931878112e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6755
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.91666603088379,
      "epoch": 50.791044776119406,
      "grad_norm": 0.0,
      "learning_rate": 2.8981600155739817e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6756
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.16666603088379,
      "epoch": 50.798507462686565,
      "grad_norm": 0.0,
      "learning_rate": 2.897517072251256e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 6757
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.5,
      "epoch": 50.80597014925373,
      "grad_norm": 0.0,
      "learning_rate": 2.896874101953564e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6758
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.44444465637207,
      "epoch": 50.8134328358209,
      "grad_norm": 0.0,
      "learning_rate": 2.896231104724536e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6759
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.80555534362793,
      "epoch": 50.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 2.895588080607806e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6760
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.44444465637207,
      "epoch": 50.82835820895522,
      "grad_norm": 0.0,
      "learning_rate": 2.8949450296470086e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6761
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.86111068725586,
      "epoch": 50.83582089552239,
      "grad_norm": 0.0,
      "learning_rate": 2.8943019518857805e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6762
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.47222328186035,
      "epoch": 50.843283582089555,
      "grad_norm": 0.0,
      "learning_rate": 2.893658847367759e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6763
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.22222328186035,
      "epoch": 50.850746268656714,
      "grad_norm": 0.0,
      "learning_rate": 2.893015716136585e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6764
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.80555534362793,
      "epoch": 50.85820895522388,
      "grad_norm": 0.0,
      "learning_rate": 2.8923725582359005e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6765
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.88888931274414,
      "epoch": 50.865671641791046,
      "grad_norm": 0.0,
      "learning_rate": 2.891729373709349e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6766
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 33.02777862548828,
      "epoch": 50.87313432835821,
      "grad_norm": 0.0,
      "learning_rate": 2.8910861626005773e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6767
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.30555534362793,
      "epoch": 50.88059701492537,
      "grad_norm": 0.0,
      "learning_rate": 2.8904429249532306e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6768
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.61111068725586,
      "epoch": 50.88805970149254,
      "grad_norm": 0.0,
      "learning_rate": 2.8897996608109617e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6769
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.63888931274414,
      "epoch": 50.8955223880597,
      "grad_norm": 0.0,
      "learning_rate": 2.889156370217417e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6770
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.86111068725586,
      "epoch": 50.90298507462687,
      "grad_norm": 0.0,
      "learning_rate": 2.888513053216253e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6771
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.44444465637207,
      "epoch": 50.91044776119403,
      "grad_norm": 0.0,
      "learning_rate": 2.8878697098511234e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6772
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.11111068725586,
      "epoch": 50.917910447761194,
      "grad_norm": 0.0,
      "learning_rate": 2.887226340165683e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6773
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.72222328186035,
      "epoch": 50.92537313432836,
      "grad_norm": 0.0,
      "learning_rate": 2.886582944203592e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6774
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.52777862548828,
      "epoch": 50.93283582089552,
      "grad_norm": 0.0,
      "learning_rate": 2.8859395220085105e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6775
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.47222328186035,
      "epoch": 50.940298507462686,
      "grad_norm": 0.0,
      "learning_rate": 2.885296073624098e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6776
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.25,
      "epoch": 50.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 2.8846525990940194e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6777
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.88888931274414,
      "epoch": 50.95522388059702,
      "grad_norm": 0.0,
      "learning_rate": 2.8840090984619404e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6778
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 32.47222137451172,
      "epoch": 50.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 2.883365571771528e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6779
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.55555534362793,
      "epoch": 50.97014925373134,
      "grad_norm": 0.0,
      "learning_rate": 2.88272201906645e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6780
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.44444465637207,
      "epoch": 50.97761194029851,
      "grad_norm": 0.0,
      "learning_rate": 2.8820784403903787e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6781
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.88888931274414,
      "epoch": 50.985074626865675,
      "grad_norm": 0.0,
      "learning_rate": 2.881434835786985e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6782
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.83333396911621,
      "epoch": 50.992537313432834,
      "grad_norm": 0.0,
      "learning_rate": 2.880791205299943e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6783
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.33333396911621,
      "epoch": 51.007462686567166,
      "grad_norm": 0.0,
      "learning_rate": 2.88014754897293e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6784
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.0,
      "epoch": 51.014925373134325,
      "grad_norm": 0.0,
      "learning_rate": 2.879503866849622e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6785
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.19444465637207,
      "epoch": 51.02238805970149,
      "grad_norm": 0.0,
      "learning_rate": 2.8788601589737e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6786
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.72222328186035,
      "epoch": 51.02985074626866,
      "grad_norm": 0.0,
      "learning_rate": 2.878216425388843e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6787
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.44444465637207,
      "epoch": 51.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 2.8775726661387354e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6788
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.75,
      "epoch": 51.04477611940298,
      "grad_norm": 0.0,
      "learning_rate": 2.8769288812670633e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6789
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.58333396911621,
      "epoch": 51.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 2.8762850708175093e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6790
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.30555534362793,
      "epoch": 51.059701492537314,
      "grad_norm": 0.0,
      "learning_rate": 2.875641234833765e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6791
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.08333396911621,
      "epoch": 51.06716417910448,
      "grad_norm": 0.0,
      "learning_rate": 2.8749973733595185e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6792
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.58333396911621,
      "epoch": 51.07462686567164,
      "grad_norm": 0.0,
      "learning_rate": 2.874353486438461e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6793
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.52777862548828,
      "epoch": 51.082089552238806,
      "grad_norm": 0.0,
      "learning_rate": 2.873709574114287e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6794
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 32.02777862548828,
      "epoch": 51.08955223880597,
      "grad_norm": 0.0,
      "learning_rate": 2.87306563643069e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6795
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.38888931274414,
      "epoch": 51.09701492537314,
      "grad_norm": 0.0,
      "learning_rate": 2.8724216734313696e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6796
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.41666603088379,
      "epoch": 51.1044776119403,
      "grad_norm": 0.0,
      "learning_rate": 2.8717776851600205e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 6797
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.25,
      "epoch": 51.11194029850746,
      "grad_norm": 0.0,
      "learning_rate": 2.8711336716603457e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6798
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.36111068725586,
      "epoch": 51.11940298507463,
      "grad_norm": 0.0,
      "learning_rate": 2.870489632976046e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6799
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.75,
      "epoch": 51.12686567164179,
      "grad_norm": 0.0,
      "learning_rate": 2.8698455691508247e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6800
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.13888931274414,
      "epoch": 51.134328358208954,
      "grad_norm": 0.0,
      "learning_rate": 2.8692014802283875e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6801
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.13888931274414,
      "epoch": 51.14179104477612,
      "grad_norm": 0.0,
      "learning_rate": 2.8685573662524415e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6802
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.36111068725586,
      "epoch": 51.149253731343286,
      "grad_norm": 17.636066389558582,
      "learning_rate": 2.867913227266696e-07,
      "loss": 0.0112,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 6803
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.61111068725586,
      "epoch": 51.156716417910445,
      "grad_norm": 0.0,
      "learning_rate": 2.8672690633148595e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6804
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.66666603088379,
      "epoch": 51.16417910447761,
      "grad_norm": 0.0,
      "learning_rate": 2.866624874440645e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6805
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.66666603088379,
      "epoch": 51.17164179104478,
      "grad_norm": 0.0,
      "learning_rate": 2.865980660687768e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6806
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.88888931274414,
      "epoch": 51.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 2.865336422099941e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6807
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.83333396911621,
      "epoch": 51.1865671641791,
      "grad_norm": 0.0,
      "learning_rate": 2.8646921587208835e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6808
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.94444465637207,
      "epoch": 51.19402985074627,
      "grad_norm": 0.0,
      "learning_rate": 2.8640478705943135e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6809
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.66666603088379,
      "epoch": 51.201492537313435,
      "grad_norm": 65.77959192605812,
      "learning_rate": 2.8634035577639503e-07,
      "loss": -0.0138,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 6810
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.27777862548828,
      "epoch": 51.208955223880594,
      "grad_norm": 0.0,
      "learning_rate": 2.8627592202735183e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6811
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.61111068725586,
      "epoch": 51.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 2.8621148581667397e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 6812
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.61111068725586,
      "epoch": 51.223880597014926,
      "grad_norm": 0.0,
      "learning_rate": 2.861470471487342e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 6813
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.05555534362793,
      "epoch": 51.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 2.8608260602790503e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6814
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.16666603088379,
      "epoch": 51.23880597014925,
      "grad_norm": 0.0,
      "learning_rate": 2.8601816245855936e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6815
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.41666603088379,
      "epoch": 51.24626865671642,
      "grad_norm": 0.0,
      "learning_rate": 2.8595371644507036e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6816
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.83333396911621,
      "epoch": 51.25373134328358,
      "grad_norm": 0.0,
      "learning_rate": 2.8588926799181117e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6817
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.30555534362793,
      "epoch": 51.26119402985075,
      "grad_norm": 0.0,
      "learning_rate": 2.858248171031553e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6818
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.38888931274414,
      "epoch": 51.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 2.857603637834761e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6819
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.38888931274414,
      "epoch": 51.276119402985074,
      "grad_norm": 0.0,
      "learning_rate": 2.856959080371474e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6820
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.94444465637207,
      "epoch": 51.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 2.8563144986854304e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6821
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.72222328186035,
      "epoch": 51.291044776119406,
      "grad_norm": 0.0,
      "learning_rate": 2.8556698928203706e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6822
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.38888931274414,
      "epoch": 51.298507462686565,
      "grad_norm": 0.0,
      "learning_rate": 2.855025262820038e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6823
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.94444465637207,
      "epoch": 51.30597014925373,
      "grad_norm": 0.0,
      "learning_rate": 2.854380608728175e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 6824
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.41666603088379,
      "epoch": 51.3134328358209,
      "grad_norm": 0.0,
      "learning_rate": 2.853735930588527e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6825
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.97222328186035,
      "epoch": 51.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 2.85309122844484e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6826
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.69444465637207,
      "epoch": 51.32835820895522,
      "grad_norm": 0.0,
      "learning_rate": 2.852446502340865e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6827
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.61111068725586,
      "epoch": 51.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 2.8518017523203506e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6828
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.97222328186035,
      "epoch": 51.343283582089555,
      "grad_norm": 0.0,
      "learning_rate": 2.851156978427049e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6829
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.25,
      "epoch": 51.350746268656714,
      "grad_norm": 0.0,
      "learning_rate": 2.850512180704715e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6830
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.88888931274414,
      "epoch": 51.35820895522388,
      "grad_norm": 0.0,
      "learning_rate": 2.8498673591971004e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6831
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.77777862548828,
      "epoch": 51.365671641791046,
      "grad_norm": 0.0,
      "learning_rate": 2.8492225139479655e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6832
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.08333396911621,
      "epoch": 51.37313432835821,
      "grad_norm": 0.0,
      "learning_rate": 2.848577645001067e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6833
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.63888931274414,
      "epoch": 51.38059701492537,
      "grad_norm": 0.0,
      "learning_rate": 2.8479327524001633e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6834
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.91666603088379,
      "epoch": 51.38805970149254,
      "grad_norm": 0.0,
      "learning_rate": 2.847287836189019e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6835
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.05555534362793,
      "epoch": 51.3955223880597,
      "grad_norm": 0.0,
      "learning_rate": 2.8466428964113946e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6836
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.36111068725586,
      "epoch": 51.40298507462686,
      "grad_norm": 0.0,
      "learning_rate": 2.845997933111057e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6837
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.97222328186035,
      "epoch": 51.41044776119403,
      "grad_norm": 0.0,
      "learning_rate": 2.8453529463317715e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6838
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.38888931274414,
      "epoch": 51.417910447761194,
      "grad_norm": 0.0,
      "learning_rate": 2.8447079361173055e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6839
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.36111068725586,
      "epoch": 51.42537313432836,
      "grad_norm": 0.0,
      "learning_rate": 2.84406290251143e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6840
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.66666603088379,
      "epoch": 51.43283582089552,
      "grad_norm": 0.0,
      "learning_rate": 2.8434178455579144e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6841
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.88888931274414,
      "epoch": 51.440298507462686,
      "grad_norm": 0.0,
      "learning_rate": 2.8427727653005323e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6842
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.02777862548828,
      "epoch": 51.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 2.8421276617830573e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6843
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.83333396911621,
      "epoch": 51.45522388059702,
      "grad_norm": 0.0,
      "learning_rate": 2.8414825350492664e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6844
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.11111068725586,
      "epoch": 51.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 2.840837385142936e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6845
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.33333396911621,
      "epoch": 51.47014925373134,
      "grad_norm": 0.0,
      "learning_rate": 2.840192212107846e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6846
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.66666603088379,
      "epoch": 51.47761194029851,
      "grad_norm": 0.0,
      "learning_rate": 2.8395470159877765e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6847
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.86111068725586,
      "epoch": 51.485074626865675,
      "grad_norm": 0.0,
      "learning_rate": 2.838901796826509e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6848
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.86111068725586,
      "epoch": 51.492537313432834,
      "grad_norm": 0.0,
      "learning_rate": 2.8382565546678274e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6849
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 33.36111068725586,
      "epoch": 51.5,
      "grad_norm": 0.0,
      "learning_rate": 2.837611289555518e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6850
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.80555534362793,
      "epoch": 51.507462686567166,
      "grad_norm": 0.0,
      "learning_rate": 2.8369660015333666e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6851
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.33333396911621,
      "epoch": 51.514925373134325,
      "grad_norm": 0.0,
      "learning_rate": 2.836320690645162e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6852
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.83333396911621,
      "epoch": 51.52238805970149,
      "grad_norm": 0.0,
      "learning_rate": 2.8356753569346936e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 6853
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.75,
      "epoch": 51.52985074626866,
      "grad_norm": 0.0,
      "learning_rate": 2.8350300004457537e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6854
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.83333396911621,
      "epoch": 51.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 2.834384621222135e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6855
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.47222328186035,
      "epoch": 51.54477611940298,
      "grad_norm": 0.0,
      "learning_rate": 2.8337392193076317e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6856
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.22222328186035,
      "epoch": 51.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 2.833093794746041e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6857
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.19444465637207,
      "epoch": 51.559701492537314,
      "grad_norm": 0.0,
      "learning_rate": 2.832448347581158e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6858
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.19444465637207,
      "epoch": 51.56716417910448,
      "grad_norm": 0.0,
      "learning_rate": 2.831802877856785e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6859
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.41666603088379,
      "epoch": 51.57462686567164,
      "grad_norm": 0.0,
      "learning_rate": 2.83115738561672e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6860
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.86111068725586,
      "epoch": 51.582089552238806,
      "grad_norm": 0.0,
      "learning_rate": 2.830511870904767e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6861
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.16666603088379,
      "epoch": 51.58955223880597,
      "grad_norm": 0.0,
      "learning_rate": 2.8298663337647294e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6862
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.44444465637207,
      "epoch": 51.59701492537313,
      "grad_norm": 0.0,
      "learning_rate": 2.8292207742404117e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6863
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.47222328186035,
      "epoch": 51.6044776119403,
      "grad_norm": 0.0,
      "learning_rate": 2.828575192375621e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6864
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.77777862548828,
      "epoch": 51.61194029850746,
      "grad_norm": 0.0,
      "learning_rate": 2.827929588214167e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6865
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.41666603088379,
      "epoch": 51.61940298507463,
      "grad_norm": 0.0,
      "learning_rate": 2.827283961799857e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6866
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.13888931274414,
      "epoch": 51.62686567164179,
      "grad_norm": 0.0,
      "learning_rate": 2.8266383131765053e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6867
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.61111068725586,
      "epoch": 51.634328358208954,
      "grad_norm": 0.0,
      "learning_rate": 2.825992642387922e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6868
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.19444465637207,
      "epoch": 51.64179104477612,
      "grad_norm": 0.0,
      "learning_rate": 2.825346949477923e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6869
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.13888931274414,
      "epoch": 51.649253731343286,
      "grad_norm": 0.0,
      "learning_rate": 2.824701234490323e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6870
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.11111068725586,
      "epoch": 51.656716417910445,
      "grad_norm": 0.0,
      "learning_rate": 2.8240554974689406e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6871
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.97222328186035,
      "epoch": 51.66417910447761,
      "grad_norm": 0.0,
      "learning_rate": 2.8234097384575944e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6872
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.41666603088379,
      "epoch": 51.67164179104478,
      "grad_norm": 0.0,
      "learning_rate": 2.8227639575001036e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6873
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.33333396911621,
      "epoch": 51.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 2.822118154640292e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6874
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.02777862548828,
      "epoch": 51.6865671641791,
      "grad_norm": 0.0,
      "learning_rate": 2.821472329921981e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6875
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.66666603088379,
      "epoch": 51.69402985074627,
      "grad_norm": 0.0,
      "learning_rate": 2.820826483388996e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6876
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.58333396911621,
      "epoch": 51.701492537313435,
      "grad_norm": 0.0,
      "learning_rate": 2.820180615085163e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6877
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.08333396911621,
      "epoch": 51.708955223880594,
      "grad_norm": 0.0,
      "learning_rate": 2.8195347250543107e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6878
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.33333396911621,
      "epoch": 51.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 2.8188888133402676e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6879
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 32.58333206176758,
      "epoch": 51.723880597014926,
      "grad_norm": 0.0,
      "learning_rate": 2.818242879986864e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 6880
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.66666603088379,
      "epoch": 51.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 2.8175969250379333e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6881
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.72222328186035,
      "epoch": 51.73880597014925,
      "grad_norm": 0.0,
      "learning_rate": 2.816950948537309e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6882
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.94444465637207,
      "epoch": 51.74626865671642,
      "grad_norm": 0.0,
      "learning_rate": 2.816304950528824e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6883
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.30555534362793,
      "epoch": 51.75373134328358,
      "grad_norm": 0.0,
      "learning_rate": 2.8156589310563176e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6884
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.25,
      "epoch": 51.76119402985075,
      "grad_norm": 0.0,
      "learning_rate": 2.815012890163626e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6885
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.72222328186035,
      "epoch": 51.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 2.81436682789459e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6886
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 32.5,
      "epoch": 51.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 2.813720744293049e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6887
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.80555534362793,
      "epoch": 51.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 2.813074639402846e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6888
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.66666603088379,
      "epoch": 51.791044776119406,
      "grad_norm": 0.0,
      "learning_rate": 2.8124285132678257e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6889
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 32.11111068725586,
      "epoch": 51.798507462686565,
      "grad_norm": 0.0,
      "learning_rate": 2.811782365931832e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6890
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.44444465637207,
      "epoch": 51.80597014925373,
      "grad_norm": 0.0,
      "learning_rate": 2.811136197438713e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6891
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.36111068725586,
      "epoch": 51.8134328358209,
      "grad_norm": 0.0,
      "learning_rate": 2.810490007832315e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6892
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.11111068725586,
      "epoch": 51.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 2.809843797156488e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6893
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.77777862548828,
      "epoch": 51.82835820895522,
      "grad_norm": 77.18656494660722,
      "learning_rate": 2.809197565455084e-07,
      "loss": 0.0009,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 6894
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.66666603088379,
      "epoch": 51.83582089552239,
      "grad_norm": 0.0,
      "learning_rate": 2.8085513127719556e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6895
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.11111068725586,
      "epoch": 51.843283582089555,
      "grad_norm": 0.0,
      "learning_rate": 2.807905039150956e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6896
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.16666603088379,
      "epoch": 51.850746268656714,
      "grad_norm": 0.0,
      "learning_rate": 2.807258744635939e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6897
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.05555534362793,
      "epoch": 51.85820895522388,
      "grad_norm": 0.0,
      "learning_rate": 2.806612429270764e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6898
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.5,
      "epoch": 51.865671641791046,
      "grad_norm": 0.0,
      "learning_rate": 2.805966093099287e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6899
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.83333396911621,
      "epoch": 51.87313432835821,
      "grad_norm": 0.0,
      "learning_rate": 2.805319736165368e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6900
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.83333396911621,
      "epoch": 51.88059701492537,
      "grad_norm": 0.0,
      "learning_rate": 2.8046733585128684e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6901
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.11111068725586,
      "epoch": 51.88805970149254,
      "grad_norm": 0.0,
      "learning_rate": 2.8040269601856504e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6902
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.75,
      "epoch": 51.8955223880597,
      "grad_norm": 0.0,
      "learning_rate": 2.8033805412275775e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6903
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.38888931274414,
      "epoch": 51.90298507462687,
      "grad_norm": 0.0,
      "learning_rate": 2.8027341016825144e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6904
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 33.08333206176758,
      "epoch": 51.91044776119403,
      "grad_norm": 0.0,
      "learning_rate": 2.8020876415943284e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6905
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.30555534362793,
      "epoch": 51.917910447761194,
      "grad_norm": 0.0,
      "learning_rate": 2.801441161006887e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6906
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.61111068725586,
      "epoch": 51.92537313432836,
      "grad_norm": 0.0,
      "learning_rate": 2.8007946599640585e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6907
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.02777862548828,
      "epoch": 51.93283582089552,
      "grad_norm": 0.0,
      "learning_rate": 2.800148138509716e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6908
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.41666603088379,
      "epoch": 51.940298507462686,
      "grad_norm": 17.61227454409188,
      "learning_rate": 2.79950159668773e-07,
      "loss": 0.0106,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 6909
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.19444465637207,
      "epoch": 51.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 2.798855034541973e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6910
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.66666603088379,
      "epoch": 51.95522388059702,
      "grad_norm": 0.0,
      "learning_rate": 2.798208452116322e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6911
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.80555534362793,
      "epoch": 51.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 2.7975618494546515e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6912
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.25,
      "epoch": 51.97014925373134,
      "grad_norm": 49.96207368961045,
      "learning_rate": 2.7969152266008404e-07,
      "loss": 0.0153,
      "reward": 1.9166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 6913
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 33.6944465637207,
      "epoch": 51.97761194029851,
      "grad_norm": 0.0,
      "learning_rate": 2.796268583598766e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6914
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.52777862548828,
      "epoch": 51.985074626865675,
      "grad_norm": 0.0,
      "learning_rate": 2.7956219204923104e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6915
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.58333396911621,
      "epoch": 51.992537313432834,
      "grad_norm": 0.0,
      "learning_rate": 2.794975237325354e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6916
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 32.41666793823242,
      "epoch": 52.007462686567166,
      "grad_norm": 0.0,
      "learning_rate": 2.7943285341417797e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6917
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.44444465637207,
      "epoch": 52.014925373134325,
      "grad_norm": 0.0,
      "learning_rate": 2.7936818109854737e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6918
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.16666603088379,
      "epoch": 52.02238805970149,
      "grad_norm": 0.0,
      "learning_rate": 2.79303506790032e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6919
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.55555534362793,
      "epoch": 52.02985074626866,
      "grad_norm": 0.0,
      "learning_rate": 2.7923883049302066e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6920
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.36111068725586,
      "epoch": 52.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 2.79174152211902e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6921
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.02777862548828,
      "epoch": 52.04477611940298,
      "grad_norm": 0.0,
      "learning_rate": 2.791094719510653e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6922
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.30555534362793,
      "epoch": 52.05223880597015,
      "grad_norm": 14.429365288777,
      "learning_rate": 2.790447897148995e-07,
      "loss": 0.0005,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 6923
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.55555534362793,
      "epoch": 52.059701492537314,
      "grad_norm": 0.0,
      "learning_rate": 2.789801055077939e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6924
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.91666603088379,
      "epoch": 52.06716417910448,
      "grad_norm": 0.0,
      "learning_rate": 2.789154193341379e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6925
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.11111068725586,
      "epoch": 52.07462686567164,
      "grad_norm": 0.0,
      "learning_rate": 2.788507311983209e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6926
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.58333396911621,
      "epoch": 52.082089552238806,
      "grad_norm": 0.0,
      "learning_rate": 2.787860411047326e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 6927
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.80555534362793,
      "epoch": 52.08955223880597,
      "grad_norm": 0.0,
      "learning_rate": 2.787213490577629e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6928
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.27777862548828,
      "epoch": 52.09701492537314,
      "grad_norm": 0.0,
      "learning_rate": 2.7865665506180156e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6929
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.69444465637207,
      "epoch": 52.1044776119403,
      "grad_norm": 0.0,
      "learning_rate": 2.785919591212387e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6930
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.58333396911621,
      "epoch": 52.11194029850746,
      "grad_norm": 0.0,
      "learning_rate": 2.785272612404645e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6931
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.69444465637207,
      "epoch": 52.11940298507463,
      "grad_norm": 0.0,
      "learning_rate": 2.7846256142386926e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6932
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.58333396911621,
      "epoch": 52.12686567164179,
      "grad_norm": 40.613270280595415,
      "learning_rate": 2.7839785967584343e-07,
      "loss": -0.0101,
      "reward": 1.9444444179534912,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.944444477558136,
      "rewards/format_reward": 1.0,
      "step": 6933
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.33333396911621,
      "epoch": 52.134328358208954,
      "grad_norm": 0.0,
      "learning_rate": 2.783331560007775e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6934
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.97222328186035,
      "epoch": 52.14179104477612,
      "grad_norm": 0.0,
      "learning_rate": 2.7826845040306233e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6935
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.02777862548828,
      "epoch": 52.149253731343286,
      "grad_norm": 0.0,
      "learning_rate": 2.7820374288708867e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6936
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.83333396911621,
      "epoch": 52.156716417910445,
      "grad_norm": 0.0,
      "learning_rate": 2.781390334572474e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6937
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.91666603088379,
      "epoch": 52.16417910447761,
      "grad_norm": 0.0,
      "learning_rate": 2.7807432211792976e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6938
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.0,
      "epoch": 52.17164179104478,
      "grad_norm": 0.0,
      "learning_rate": 2.7800960887352686e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6939
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.02777862548828,
      "epoch": 52.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 2.7794489372843015e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6940
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.08333396911621,
      "epoch": 52.1865671641791,
      "grad_norm": 0.0,
      "learning_rate": 2.77880176687031e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6941
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.02777862548828,
      "epoch": 52.19402985074627,
      "grad_norm": 0.0,
      "learning_rate": 2.778154577537211e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6942
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.30555534362793,
      "epoch": 52.201492537313435,
      "grad_norm": 0.0,
      "learning_rate": 2.7775073693289226e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6943
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.16666603088379,
      "epoch": 52.208955223880594,
      "grad_norm": 0.0,
      "learning_rate": 2.776860142289361e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6944
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.41666603088379,
      "epoch": 52.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 2.776212896462449e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6945
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.44444465637207,
      "epoch": 52.223880597014926,
      "grad_norm": 0.0,
      "learning_rate": 2.775565631892106e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6946
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.97222328186035,
      "epoch": 52.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 2.7749183486222556e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6947
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.97222328186035,
      "epoch": 52.23880597014925,
      "grad_norm": 0.0,
      "learning_rate": 2.77427104669682e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6948
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.83333396911621,
      "epoch": 52.24626865671642,
      "grad_norm": 0.0,
      "learning_rate": 2.773623726159726e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6949
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.16666603088379,
      "epoch": 52.25373134328358,
      "grad_norm": 0.0,
      "learning_rate": 2.772976387054899e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6950
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.25,
      "epoch": 52.26119402985075,
      "grad_norm": 0.0,
      "learning_rate": 2.7723290294262664e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6951
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.83333396911621,
      "epoch": 52.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 2.771681653317757e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6952
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.80555534362793,
      "epoch": 52.276119402985074,
      "grad_norm": 0.0,
      "learning_rate": 2.7710342587733015e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6953
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.38888931274414,
      "epoch": 52.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 2.770386845836831e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6954
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.72222328186035,
      "epoch": 52.291044776119406,
      "grad_norm": 0.0,
      "learning_rate": 2.769739414552277e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6955
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.33333396911621,
      "epoch": 52.298507462686565,
      "grad_norm": 0.0,
      "learning_rate": 2.7690919649635755e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6956
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.22222328186035,
      "epoch": 52.30597014925373,
      "grad_norm": 0.0,
      "learning_rate": 2.76844449711466e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6957
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.83333396911621,
      "epoch": 52.3134328358209,
      "grad_norm": 0.0,
      "learning_rate": 2.767797011049466e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6958
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.05555534362793,
      "epoch": 52.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 2.7671495068119327e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6959
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.86111068725586,
      "epoch": 52.32835820895522,
      "grad_norm": 0.0,
      "learning_rate": 2.766501984445999e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 6960
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.80555534362793,
      "epoch": 52.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 2.765854443995602e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6961
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.25,
      "epoch": 52.343283582089555,
      "grad_norm": 0.0,
      "learning_rate": 2.7652068855046866e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6962
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.66666603088379,
      "epoch": 52.350746268656714,
      "grad_norm": 0.0,
      "learning_rate": 2.764559309017194e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6963
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.13888931274414,
      "epoch": 52.35820895522388,
      "grad_norm": 0.0,
      "learning_rate": 2.763911714577066e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6964
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.13888931274414,
      "epoch": 52.365671641791046,
      "grad_norm": 0.0,
      "learning_rate": 2.76326410222825e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6965
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.63888931274414,
      "epoch": 52.37313432835821,
      "grad_norm": 0.0,
      "learning_rate": 2.7626164720146907e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6966
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.55555534362793,
      "epoch": 52.38059701492537,
      "grad_norm": 0.0,
      "learning_rate": 2.7619688239803356e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6967
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.38888931274414,
      "epoch": 52.38805970149254,
      "grad_norm": 0.0,
      "learning_rate": 2.761321158169134e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6968
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.77777862548828,
      "epoch": 52.3955223880597,
      "grad_norm": 0.0,
      "learning_rate": 2.760673474625034e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6969
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.66666603088379,
      "epoch": 52.40298507462686,
      "grad_norm": 0.0,
      "learning_rate": 2.7600257733919886e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6970
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.36111068725586,
      "epoch": 52.41044776119403,
      "grad_norm": 0.0,
      "learning_rate": 2.7593780545139476e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6971
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.41666603088379,
      "epoch": 52.417910447761194,
      "grad_norm": 0.0,
      "learning_rate": 2.7587303180348664e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6972
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.13888931274414,
      "epoch": 52.42537313432836,
      "grad_norm": 0.0,
      "learning_rate": 2.7580825639986986e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6973
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.61111068725586,
      "epoch": 52.43283582089552,
      "grad_norm": 0.0,
      "learning_rate": 2.7574347924494004e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6974
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.52777862548828,
      "epoch": 52.440298507462686,
      "grad_norm": 0.0,
      "learning_rate": 2.756787003430927e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6975
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.91666603088379,
      "epoch": 52.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 2.756139196987239e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6976
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.25,
      "epoch": 52.45522388059702,
      "grad_norm": 0.0,
      "learning_rate": 2.755491373162294e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6977
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.30555534362793,
      "epoch": 52.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 2.754843532000052e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6978
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.47222328186035,
      "epoch": 52.47014925373134,
      "grad_norm": 0.0,
      "learning_rate": 2.7541956735444764e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6979
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.83333396911621,
      "epoch": 52.47761194029851,
      "grad_norm": 0.0,
      "learning_rate": 2.7535477978395293e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6980
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.02777862548828,
      "epoch": 52.485074626865675,
      "grad_norm": 0.0,
      "learning_rate": 2.7528999049291747e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6981
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.22222328186035,
      "epoch": 52.492537313432834,
      "grad_norm": 0.0,
      "learning_rate": 2.7522519948573757e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6982
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.22222328186035,
      "epoch": 52.5,
      "grad_norm": 0.0,
      "learning_rate": 2.7516040676681017e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6983
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.11111068725586,
      "epoch": 52.507462686567166,
      "grad_norm": 0.0,
      "learning_rate": 2.7509561234053185e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6984
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.16666603088379,
      "epoch": 52.514925373134325,
      "grad_norm": 0.0,
      "learning_rate": 2.7503081621129945e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6985
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.13888931274414,
      "epoch": 52.52238805970149,
      "grad_norm": 0.0,
      "learning_rate": 2.749660183835101e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6986
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.86111068725586,
      "epoch": 52.52985074626866,
      "grad_norm": 0.0,
      "learning_rate": 2.7490121886156076e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6987
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.08333396911621,
      "epoch": 52.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 2.748364176498486e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6988
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.58333396911621,
      "epoch": 52.54477611940298,
      "grad_norm": 0.0,
      "learning_rate": 2.7477161475277104e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 6989
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.16666603088379,
      "epoch": 52.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 2.747068101747255e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6990
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.80555534362793,
      "epoch": 52.559701492537314,
      "grad_norm": 0.0,
      "learning_rate": 2.7464200392010954e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6991
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.58333396911621,
      "epoch": 52.56716417910448,
      "grad_norm": 0.0,
      "learning_rate": 2.745771959933208e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6992
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.02777862548828,
      "epoch": 52.57462686567164,
      "grad_norm": 0.0,
      "learning_rate": 2.74512386398757e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6993
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.5,
      "epoch": 52.582089552238806,
      "grad_norm": 0.0,
      "learning_rate": 2.744475751408162e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6994
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.88888931274414,
      "epoch": 52.58955223880597,
      "grad_norm": 0.0,
      "learning_rate": 2.743827622238961e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6995
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.47222328186035,
      "epoch": 52.59701492537313,
      "grad_norm": 0.0,
      "learning_rate": 2.743179476523952e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6996
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.41666603088379,
      "epoch": 52.6044776119403,
      "grad_norm": 0.0,
      "learning_rate": 2.742531314307114e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6997
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.52777862548828,
      "epoch": 52.61194029850746,
      "grad_norm": 0.0,
      "learning_rate": 2.7418831356324326e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 6998
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.52777862548828,
      "epoch": 52.61940298507463,
      "grad_norm": 0.0,
      "learning_rate": 2.7412349405438914e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 6999
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.02777862548828,
      "epoch": 52.62686567164179,
      "grad_norm": 0.0,
      "learning_rate": 2.7405867290854756e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7000
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.30555534362793,
      "epoch": 52.634328358208954,
      "grad_norm": 0.0,
      "learning_rate": 2.739938501301173e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7001
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.41666603088379,
      "epoch": 52.64179104477612,
      "grad_norm": 0.0,
      "learning_rate": 2.739290257234971e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7002
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.58333396911621,
      "epoch": 52.649253731343286,
      "grad_norm": 0.0,
      "learning_rate": 2.738641996930858e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7003
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.13888931274414,
      "epoch": 52.656716417910445,
      "grad_norm": 0.0,
      "learning_rate": 2.7379937204328246e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 7004
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.55555534362793,
      "epoch": 52.66417910447761,
      "grad_norm": 0.0,
      "learning_rate": 2.737345427784862e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7005
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.25,
      "epoch": 52.67164179104478,
      "grad_norm": 0.0,
      "learning_rate": 2.7366971190309626e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7006
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.63888931274414,
      "epoch": 52.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 2.7360487942151195e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7007
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.80555534362793,
      "epoch": 52.6865671641791,
      "grad_norm": 1.4196200079991332,
      "learning_rate": 2.735400453381327e-07,
      "loss": 0.0088,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 7008
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.30555534362793,
      "epoch": 52.69402985074627,
      "grad_norm": 0.0,
      "learning_rate": 2.7347520965735805e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7009
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.63888931274414,
      "epoch": 52.701492537313435,
      "grad_norm": 0.0,
      "learning_rate": 2.734103723835877e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7010
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.47222328186035,
      "epoch": 52.708955223880594,
      "grad_norm": 0.0,
      "learning_rate": 2.733455335212214e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7011
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.83333396911621,
      "epoch": 52.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 2.7328069307465907e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7012
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.86111068725586,
      "epoch": 52.723880597014926,
      "grad_norm": 0.0,
      "learning_rate": 2.732158510483006e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7013
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.16666603088379,
      "epoch": 52.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 2.731510074465462e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7014
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.33333396911621,
      "epoch": 52.73880597014925,
      "grad_norm": 0.0,
      "learning_rate": 2.7308616227379596e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7015
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.72222328186035,
      "epoch": 52.74626865671642,
      "grad_norm": 0.0,
      "learning_rate": 2.7302131553445026e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7016
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.97222328186035,
      "epoch": 52.75373134328358,
      "grad_norm": 0.0,
      "learning_rate": 2.7295646723290947e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7017
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.47222328186035,
      "epoch": 52.76119402985075,
      "grad_norm": 0.0,
      "learning_rate": 2.728916173735742e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7018
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.63888931274414,
      "epoch": 52.76865671641791,
      "grad_norm": 21.356814479924605,
      "learning_rate": 2.7282676596084485e-07,
      "loss": 0.0072,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 7019
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.66666603088379,
      "epoch": 52.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 2.727619129991224e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7020
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.13888931274414,
      "epoch": 52.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 2.7269705849280755e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7021
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.47222328186035,
      "epoch": 52.791044776119406,
      "grad_norm": 0.0,
      "learning_rate": 2.726322024463012e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7022
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.80555534362793,
      "epoch": 52.798507462686565,
      "grad_norm": 0.0,
      "learning_rate": 2.7256734486400453e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7023
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.80555534362793,
      "epoch": 52.80597014925373,
      "grad_norm": 0.0,
      "learning_rate": 2.7250248575031857e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7024
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.88888931274414,
      "epoch": 52.8134328358209,
      "grad_norm": 0.0,
      "learning_rate": 2.724376251096447e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7025
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.91666603088379,
      "epoch": 52.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 2.7237276294638405e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7026
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.44444465637207,
      "epoch": 52.82835820895522,
      "grad_norm": 0.0,
      "learning_rate": 2.723078992649383e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7027
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.80555534362793,
      "epoch": 52.83582089552239,
      "grad_norm": 5.34604809971555,
      "learning_rate": 2.72243034069709e-07,
      "loss": -0.008,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 7028
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.63888931274414,
      "epoch": 52.843283582089555,
      "grad_norm": 47.53925175761194,
      "learning_rate": 2.7217816736509763e-07,
      "loss": 0.006,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 7029
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.66666603088379,
      "epoch": 52.850746268656714,
      "grad_norm": 0.0,
      "learning_rate": 2.721132991555061e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7030
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.22222328186035,
      "epoch": 52.85820895522388,
      "grad_norm": 0.0,
      "learning_rate": 2.720484294453363e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7031
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.58333396911621,
      "epoch": 52.865671641791046,
      "grad_norm": 0.0,
      "learning_rate": 2.7198355823899005e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7032
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.66666603088379,
      "epoch": 52.87313432835821,
      "grad_norm": 28.432714463682377,
      "learning_rate": 2.7191868554086956e-07,
      "loss": 0.0063,
      "reward": 1.9444444179534912,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.944444477558136,
      "rewards/format_reward": 1.0,
      "step": 7033
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.77777862548828,
      "epoch": 52.88059701492537,
      "grad_norm": 0.0,
      "learning_rate": 2.7185381135537696e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7034
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.22222328186035,
      "epoch": 52.88805970149254,
      "grad_norm": 0.0,
      "learning_rate": 2.717889356869146e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7035
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.94444465637207,
      "epoch": 52.8955223880597,
      "grad_norm": 0.0,
      "learning_rate": 2.7172405853988467e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7036
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.72222328186035,
      "epoch": 52.90298507462687,
      "grad_norm": 0.0,
      "learning_rate": 2.716591799186898e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7037
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.41666603088379,
      "epoch": 52.91044776119403,
      "grad_norm": 0.0,
      "learning_rate": 2.715942998277325e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 7038
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.19444465637207,
      "epoch": 52.917910447761194,
      "grad_norm": 0.0,
      "learning_rate": 2.7152941827141546e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7039
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.58333396911621,
      "epoch": 52.92537313432836,
      "grad_norm": 0.0,
      "learning_rate": 2.714645352541415e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7040
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.91666603088379,
      "epoch": 52.93283582089552,
      "grad_norm": 0.0,
      "learning_rate": 2.7139965078031344e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7041
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.36111068725586,
      "epoch": 52.940298507462686,
      "grad_norm": 0.0,
      "learning_rate": 2.713347648543342e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7042
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.55555534362793,
      "epoch": 52.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 2.7126987748060697e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7043
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.52777862548828,
      "epoch": 52.95522388059702,
      "grad_norm": 0.0,
      "learning_rate": 2.712049886635348e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7044
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.58333396911621,
      "epoch": 52.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 2.7114009840752117e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7045
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.5,
      "epoch": 52.97014925373134,
      "grad_norm": 0.0,
      "learning_rate": 2.710752067169692e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7046
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.27777862548828,
      "epoch": 52.97761194029851,
      "grad_norm": 0.0,
      "learning_rate": 2.710103135962824e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7047
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.30555534362793,
      "epoch": 52.985074626865675,
      "grad_norm": 0.0,
      "learning_rate": 2.709454190498644e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7048
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.25,
      "epoch": 52.992537313432834,
      "grad_norm": 0.0,
      "learning_rate": 2.7088052308211883e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7049
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.66666603088379,
      "epoch": 53.007462686567166,
      "grad_norm": 0.0,
      "learning_rate": 2.708156256974494e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7050
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.47222328186035,
      "epoch": 53.014925373134325,
      "grad_norm": 0.0,
      "learning_rate": 2.7075072690026007e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7051
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.52777862548828,
      "epoch": 53.02238805970149,
      "grad_norm": 0.0,
      "learning_rate": 2.7068582669495474e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7052
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.02777862548828,
      "epoch": 53.02985074626866,
      "grad_norm": 0.0,
      "learning_rate": 2.706209250859373e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7053
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.44444465637207,
      "epoch": 53.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 2.705560220776121e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7054
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.69444465637207,
      "epoch": 53.04477611940298,
      "grad_norm": 0.0,
      "learning_rate": 2.7049111767438324e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7055
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.27777862548828,
      "epoch": 53.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 2.7042621188065506e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7056
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.63888931274414,
      "epoch": 53.059701492537314,
      "grad_norm": 0.0,
      "learning_rate": 2.7036130470083206e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 7057
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.5,
      "epoch": 53.06716417910448,
      "grad_norm": 0.0,
      "learning_rate": 2.702963961393187e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7058
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.86111068725586,
      "epoch": 53.07462686567164,
      "grad_norm": 0.0,
      "learning_rate": 2.702314862005195e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7059
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.91666603088379,
      "epoch": 53.082089552238806,
      "grad_norm": 0.0,
      "learning_rate": 2.7016657488883927e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7060
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.91666603088379,
      "epoch": 53.08955223880597,
      "grad_norm": 0.0,
      "learning_rate": 2.701016622086827e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7061
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.38888931274414,
      "epoch": 53.09701492537314,
      "grad_norm": 0.0,
      "learning_rate": 2.7003674816445495e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7062
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.11111068725586,
      "epoch": 53.1044776119403,
      "grad_norm": 0.0,
      "learning_rate": 2.699718327605606e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7063
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.0,
      "epoch": 53.11194029850746,
      "grad_norm": 0.0,
      "learning_rate": 2.6990691600140496e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7064
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.58333396911621,
      "epoch": 53.11940298507463,
      "grad_norm": 0.0,
      "learning_rate": 2.698419978913932e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7065
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.36111068725586,
      "epoch": 53.12686567164179,
      "grad_norm": 0.0,
      "learning_rate": 2.6977707843493047e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7066
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.33333396911621,
      "epoch": 53.134328358208954,
      "grad_norm": 0.0,
      "learning_rate": 2.6971215763642216e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7067
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.22222328186035,
      "epoch": 53.14179104477612,
      "grad_norm": 0.0,
      "learning_rate": 2.6964723550027376e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7068
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.66666603088379,
      "epoch": 53.149253731343286,
      "grad_norm": 0.0,
      "learning_rate": 2.695823120308908e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7069
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.22222328186035,
      "epoch": 53.156716417910445,
      "grad_norm": 0.0,
      "learning_rate": 2.695173872326787e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7070
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.41666603088379,
      "epoch": 53.16417910447761,
      "grad_norm": 0.0,
      "learning_rate": 2.694524611100434e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7071
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.83333396911621,
      "epoch": 53.17164179104478,
      "grad_norm": 0.0,
      "learning_rate": 2.693875336673907e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7072
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.69444465637207,
      "epoch": 53.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 2.693226049091263e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7073
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.52777862548828,
      "epoch": 53.1865671641791,
      "grad_norm": 0.0,
      "learning_rate": 2.6925767483965635e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7074
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.69444465637207,
      "epoch": 53.19402985074627,
      "grad_norm": 0.0,
      "learning_rate": 2.6919274346338683e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7075
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.30555534362793,
      "epoch": 53.201492537313435,
      "grad_norm": 0.0,
      "learning_rate": 2.6912781078472385e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7076
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.47222328186035,
      "epoch": 53.208955223880594,
      "grad_norm": 175.7124802094267,
      "learning_rate": 2.690628768080738e-07,
      "loss": -0.0,
      "reward": 1.9166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 7077
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.25,
      "epoch": 53.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 2.6899794153784277e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7078
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.19444465637207,
      "epoch": 53.223880597014926,
      "grad_norm": 2201.0504664643986,
      "learning_rate": 2.6893300497843757e-07,
      "loss": -0.0071,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 7079
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.41666603088379,
      "epoch": 53.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 2.688680671342643e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7080
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.94444465637207,
      "epoch": 53.23880597014925,
      "grad_norm": 0.0,
      "learning_rate": 2.688031280097298e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7081
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.27777862548828,
      "epoch": 53.24626865671642,
      "grad_norm": 0.0,
      "learning_rate": 2.687381876092407e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7082
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.58333396911621,
      "epoch": 53.25373134328358,
      "grad_norm": 0.0,
      "learning_rate": 2.6867324593720363e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7083
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.47222328186035,
      "epoch": 53.26119402985075,
      "grad_norm": 0.0,
      "learning_rate": 2.686083029980257e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7084
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.69444465637207,
      "epoch": 53.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 2.6854335879611356e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7085
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.25,
      "epoch": 53.276119402985074,
      "grad_norm": 0.0,
      "learning_rate": 2.684784133358745e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7086
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.11111068725586,
      "epoch": 53.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 2.6841346662171544e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7087
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.41666603088379,
      "epoch": 53.291044776119406,
      "grad_norm": 0.0,
      "learning_rate": 2.6834851865804366e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7088
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.11111068725586,
      "epoch": 53.298507462686565,
      "grad_norm": 0.0,
      "learning_rate": 2.682835694492665e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7089
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.86111068725586,
      "epoch": 53.30597014925373,
      "grad_norm": 0.0,
      "learning_rate": 2.682186189997911e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 7090
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.52777862548828,
      "epoch": 53.3134328358209,
      "grad_norm": 0.0,
      "learning_rate": 2.681536673140252e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7091
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.91666603088379,
      "epoch": 53.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 2.680887143963761e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7092
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.30555534362793,
      "epoch": 53.32835820895522,
      "grad_norm": 18.45003615470874,
      "learning_rate": 2.6802376025125154e-07,
      "loss": -0.0043,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 7093
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.94444465637207,
      "epoch": 53.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 2.679588048830593e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7094
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.33333396911621,
      "epoch": 53.343283582089555,
      "grad_norm": 0.0,
      "learning_rate": 2.6789384829620687e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7095
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.63888931274414,
      "epoch": 53.350746268656714,
      "grad_norm": 0.0,
      "learning_rate": 2.678288904951025e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7096
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.22222328186035,
      "epoch": 53.35820895522388,
      "grad_norm": 0.0,
      "learning_rate": 2.677639314841538e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7097
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.75,
      "epoch": 53.365671641791046,
      "grad_norm": 0.0,
      "learning_rate": 2.676989712677689e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7098
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.77777862548828,
      "epoch": 53.37313432835821,
      "grad_norm": 0.0,
      "learning_rate": 2.676340098503561e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7099
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.61111068725586,
      "epoch": 53.38059701492537,
      "grad_norm": 0.0,
      "learning_rate": 2.6756904723632324e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7100
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.22222328186035,
      "epoch": 53.38805970149254,
      "grad_norm": 0.0,
      "learning_rate": 2.675040834300789e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7101
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.47222328186035,
      "epoch": 53.3955223880597,
      "grad_norm": 0.0,
      "learning_rate": 2.674391184360313e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7102
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.13888931274414,
      "epoch": 53.40298507462686,
      "grad_norm": 0.0,
      "learning_rate": 2.6737415225858896e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7103
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.25,
      "epoch": 53.41044776119403,
      "grad_norm": 0.0,
      "learning_rate": 2.673091849021603e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7104
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.44444465637207,
      "epoch": 53.417910447761194,
      "grad_norm": 0.0,
      "learning_rate": 2.6724421637115395e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7105
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.27777862548828,
      "epoch": 53.42537313432836,
      "grad_norm": 0.0,
      "learning_rate": 2.671792466699787e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7106
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.02777862548828,
      "epoch": 53.43283582089552,
      "grad_norm": 0.0,
      "learning_rate": 2.671142758030431e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7107
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.5,
      "epoch": 53.440298507462686,
      "grad_norm": 0.0,
      "learning_rate": 2.670493037747561e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7108
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.38888931274414,
      "epoch": 53.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 2.669843305895265e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7109
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.52777862548828,
      "epoch": 53.45522388059702,
      "grad_norm": 0.0,
      "learning_rate": 2.6691935625176355e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7110
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.38888931274414,
      "epoch": 53.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 2.6685438076587606e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7111
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.61111068725586,
      "epoch": 53.47014925373134,
      "grad_norm": 0.0,
      "learning_rate": 2.6678940413627334e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7112
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.44444465637207,
      "epoch": 53.47761194029851,
      "grad_norm": 0.0,
      "learning_rate": 2.667244263673646e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7113
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.72222328186035,
      "epoch": 53.485074626865675,
      "grad_norm": 0.0,
      "learning_rate": 2.6665944746355894e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7114
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.69444465637207,
      "epoch": 53.492537313432834,
      "grad_norm": 0.0,
      "learning_rate": 2.66594467429266e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7115
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.05555534362793,
      "epoch": 53.5,
      "grad_norm": 0.0,
      "learning_rate": 2.665294862688951e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7116
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.52777862548828,
      "epoch": 53.507462686567166,
      "grad_norm": 0.0,
      "learning_rate": 2.664645039868558e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7117
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.22222328186035,
      "epoch": 53.514925373134325,
      "grad_norm": 0.0,
      "learning_rate": 2.663995205875577e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7118
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.30555534362793,
      "epoch": 53.52238805970149,
      "grad_norm": 0.0,
      "learning_rate": 2.663345360754105e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7119
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.91666603088379,
      "epoch": 53.52985074626866,
      "grad_norm": 0.0,
      "learning_rate": 2.66269550454824e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7120
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.47222328186035,
      "epoch": 53.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 2.66204563730208e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7121
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.33333396911621,
      "epoch": 53.54477611940298,
      "grad_norm": 0.0,
      "learning_rate": 2.661395759059723e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7122
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.16666603088379,
      "epoch": 53.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 2.6607458698652716e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7123
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.97222328186035,
      "epoch": 53.559701492537314,
      "grad_norm": 0.0,
      "learning_rate": 2.6600959697628234e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7124
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.61111068725586,
      "epoch": 53.56716417910448,
      "grad_norm": 0.0,
      "learning_rate": 2.659446058796481e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7125
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.02777862548828,
      "epoch": 53.57462686567164,
      "grad_norm": 0.0,
      "learning_rate": 2.6587961370103466e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7126
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.02777862548828,
      "epoch": 53.582089552238806,
      "grad_norm": 0.0,
      "learning_rate": 2.658146204448524e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7127
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.97222328186035,
      "epoch": 53.58955223880597,
      "grad_norm": 0.0,
      "learning_rate": 2.6574962611551145e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7128
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.63888931274414,
      "epoch": 53.59701492537313,
      "grad_norm": 0.0,
      "learning_rate": 2.6568463071742234e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7129
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.02777862548828,
      "epoch": 53.6044776119403,
      "grad_norm": 0.0,
      "learning_rate": 2.6561963425499574e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7130
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.41666603088379,
      "epoch": 53.61194029850746,
      "grad_norm": 0.0,
      "learning_rate": 2.655546367326419e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7131
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.41666603088379,
      "epoch": 53.61940298507463,
      "grad_norm": 0.0,
      "learning_rate": 2.654896381547716e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7132
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.91666603088379,
      "epoch": 53.62686567164179,
      "grad_norm": 0.0,
      "learning_rate": 2.654246385257957e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7133
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.86111068725586,
      "epoch": 53.634328358208954,
      "grad_norm": 0.0,
      "learning_rate": 2.6535963785012477e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7134
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.25,
      "epoch": 53.64179104477612,
      "grad_norm": 0.0,
      "learning_rate": 2.6529463613216985e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7135
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.86111068725586,
      "epoch": 53.649253731343286,
      "grad_norm": 12.480924303386663,
      "learning_rate": 2.652296333763417e-07,
      "loss": -0.0028,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 7136
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.02777862548828,
      "epoch": 53.656716417910445,
      "grad_norm": 0.0,
      "learning_rate": 2.651646295870514e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7137
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.25,
      "epoch": 53.66417910447761,
      "grad_norm": 0.0,
      "learning_rate": 2.650996247687101e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7138
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.16666603088379,
      "epoch": 53.67164179104478,
      "grad_norm": 0.0,
      "learning_rate": 2.650346189257288e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7139
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.41666603088379,
      "epoch": 53.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 2.6496961206251875e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7140
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.83333396911621,
      "epoch": 53.6865671641791,
      "grad_norm": 0.0,
      "learning_rate": 2.6490460418349123e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7141
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.25,
      "epoch": 53.69402985074627,
      "grad_norm": 0.0,
      "learning_rate": 2.6483959529305767e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7142
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.83333396911621,
      "epoch": 53.701492537313435,
      "grad_norm": 0.0,
      "learning_rate": 2.6477458539562936e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7143
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.22222328186035,
      "epoch": 53.708955223880594,
      "grad_norm": 0.0,
      "learning_rate": 2.647095744956178e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7144
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.72222328186035,
      "epoch": 53.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 2.646445625974347e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7145
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.88888931274414,
      "epoch": 53.723880597014926,
      "grad_norm": 0.0,
      "learning_rate": 2.645795497054914e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7146
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.47222328186035,
      "epoch": 53.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 2.645145358241998e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7147
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.38888931274414,
      "epoch": 53.73880597014925,
      "grad_norm": 0.0,
      "learning_rate": 2.6444952095797163e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7148
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.86111068725586,
      "epoch": 53.74626865671642,
      "grad_norm": 0.0,
      "learning_rate": 2.6438450511121863e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7149
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.44444465637207,
      "epoch": 53.75373134328358,
      "grad_norm": 7.425606252864824,
      "learning_rate": 2.6431948828835275e-07,
      "loss": -0.0111,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 7150
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.69444465637207,
      "epoch": 53.76119402985075,
      "grad_norm": 0.0,
      "learning_rate": 2.642544704937859e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7151
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.5,
      "epoch": 53.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 2.641894517319302e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7152
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.44444465637207,
      "epoch": 53.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 2.6412443200719755e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7153
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.47222328186035,
      "epoch": 53.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 2.640594113240003e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 7154
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.75,
      "epoch": 53.791044776119406,
      "grad_norm": 0.0,
      "learning_rate": 2.6399438968675055e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7155
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.02777862548828,
      "epoch": 53.798507462686565,
      "grad_norm": 0.0,
      "learning_rate": 2.639293670998605e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7156
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.25,
      "epoch": 53.80597014925373,
      "grad_norm": 0.0,
      "learning_rate": 2.6386434356774275e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7157
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.86111068725586,
      "epoch": 53.8134328358209,
      "grad_norm": 0.0,
      "learning_rate": 2.637993190948094e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7158
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.83333396911621,
      "epoch": 53.82089552238806,
      "grad_norm": 33.35942483925461,
      "learning_rate": 2.6373429368547317e-07,
      "loss": 0.0022,
      "reward": 1.9166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 7159
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.61111068725586,
      "epoch": 53.82835820895522,
      "grad_norm": 19.22201332939807,
      "learning_rate": 2.636692673441465e-07,
      "loss": -0.0035,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 7160
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.44444465637207,
      "epoch": 53.83582089552239,
      "grad_norm": 0.0,
      "learning_rate": 2.6360424007524197e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7161
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.11111068725586,
      "epoch": 53.843283582089555,
      "grad_norm": 0.0,
      "learning_rate": 2.6353921188317223e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7162
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.22222328186035,
      "epoch": 53.850746268656714,
      "grad_norm": 0.0,
      "learning_rate": 2.6347418277235004e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7163
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.13888931274414,
      "epoch": 53.85820895522388,
      "grad_norm": 0.0,
      "learning_rate": 2.6340915274718825e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7164
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.80555534362793,
      "epoch": 53.865671641791046,
      "grad_norm": 0.0,
      "learning_rate": 2.6334412181209966e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7165
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.55555534362793,
      "epoch": 53.87313432835821,
      "grad_norm": 0.0,
      "learning_rate": 2.63279089971497e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7166
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.0,
      "epoch": 53.88059701492537,
      "grad_norm": 55.06106774503963,
      "learning_rate": 2.6321405722979357e-07,
      "loss": 0.025,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 7167
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.47222328186035,
      "epoch": 53.88805970149254,
      "grad_norm": 0.0,
      "learning_rate": 2.631490235914022e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7168
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.33333396911621,
      "epoch": 53.8955223880597,
      "grad_norm": 0.0,
      "learning_rate": 2.63083989060736e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7169
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.94444465637207,
      "epoch": 53.90298507462687,
      "grad_norm": 0.0,
      "learning_rate": 2.630189536422081e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7170
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.97222328186035,
      "epoch": 53.91044776119403,
      "grad_norm": 0.0,
      "learning_rate": 2.6295391734023183e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7171
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.63888931274414,
      "epoch": 53.917910447761194,
      "grad_norm": 0.0,
      "learning_rate": 2.6288888015922034e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7172
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.88888931274414,
      "epoch": 53.92537313432836,
      "grad_norm": 0.0,
      "learning_rate": 2.6282384210358703e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7173
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.72222328186035,
      "epoch": 53.93283582089552,
      "grad_norm": 0.0,
      "learning_rate": 2.6275880317774537e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7174
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.13888931274414,
      "epoch": 53.940298507462686,
      "grad_norm": 0.0,
      "learning_rate": 2.626937633861086e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7175
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.58333396911621,
      "epoch": 53.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 2.626287227330904e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7176
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.80555534362793,
      "epoch": 53.95522388059702,
      "grad_norm": 0.0,
      "learning_rate": 2.6256368122310435e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7177
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.61111068725586,
      "epoch": 53.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 2.62498638860564e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7178
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.19444465637207,
      "epoch": 53.97014925373134,
      "grad_norm": 0.0,
      "learning_rate": 2.6243359564988303e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7179
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.63888931274414,
      "epoch": 53.97761194029851,
      "grad_norm": 0.0,
      "learning_rate": 2.623685515954752e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7180
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.36111068725586,
      "epoch": 53.985074626865675,
      "grad_norm": 0.0,
      "learning_rate": 2.623035067017544e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7181
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.916667938232422,
      "epoch": 53.992537313432834,
      "grad_norm": 0.0,
      "learning_rate": 2.622384609731344e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7182
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.44444465637207,
      "epoch": 54.007462686567166,
      "grad_norm": 0.0,
      "learning_rate": 2.621734144140291e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7183
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.05555534362793,
      "epoch": 54.014925373134325,
      "grad_norm": 0.0,
      "learning_rate": 2.621083670288525e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7184
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.16666603088379,
      "epoch": 54.02238805970149,
      "grad_norm": 0.0,
      "learning_rate": 2.6204331882201864e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7185
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.33333396911621,
      "epoch": 54.02985074626866,
      "grad_norm": 0.0,
      "learning_rate": 2.6197826979794155e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 7186
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.86111068725586,
      "epoch": 54.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 2.6191321996103545e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7187
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.13888931274414,
      "epoch": 54.04477611940298,
      "grad_norm": 0.0,
      "learning_rate": 2.618481693157145e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7188
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.05555534362793,
      "epoch": 54.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 2.617831178663929e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7189
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.80555534362793,
      "epoch": 54.059701492537314,
      "grad_norm": 0.0,
      "learning_rate": 2.61718065617485e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7190
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.38888931274414,
      "epoch": 54.06716417910448,
      "grad_norm": 0.0,
      "learning_rate": 2.6165301257340524e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7191
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.55555534362793,
      "epoch": 54.07462686567164,
      "grad_norm": 0.0,
      "learning_rate": 2.615879587385678e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7192
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.52777862548828,
      "epoch": 54.082089552238806,
      "grad_norm": 0.0,
      "learning_rate": 2.615229041173873e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7193
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.27777862548828,
      "epoch": 54.08955223880597,
      "grad_norm": 0.0,
      "learning_rate": 2.614578487142783e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7194
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.41666603088379,
      "epoch": 54.09701492537314,
      "grad_norm": 0.0,
      "learning_rate": 2.613927925336553e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7195
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 33.08333206176758,
      "epoch": 54.1044776119403,
      "grad_norm": 0.0,
      "learning_rate": 2.6132773557993293e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7196
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.66666603088379,
      "epoch": 54.11194029850746,
      "grad_norm": 0.0,
      "learning_rate": 2.6126267785752585e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7197
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.38888931274414,
      "epoch": 54.11940298507463,
      "grad_norm": 0.0,
      "learning_rate": 2.6119761937084884e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7198
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.0,
      "epoch": 54.12686567164179,
      "grad_norm": 0.0,
      "learning_rate": 2.611325601243167e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7199
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.75,
      "epoch": 54.134328358208954,
      "grad_norm": 0.0,
      "learning_rate": 2.610675001223441e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7200
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.41666603088379,
      "epoch": 54.14179104477612,
      "grad_norm": 0.0,
      "learning_rate": 2.610024393693461e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7201
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.77777862548828,
      "epoch": 54.149253731343286,
      "grad_norm": 0.0,
      "learning_rate": 2.609373778697376e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7202
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.80555534362793,
      "epoch": 54.156716417910445,
      "grad_norm": 0.0,
      "learning_rate": 2.608723156279335e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7203
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.30555534362793,
      "epoch": 54.16417910447761,
      "grad_norm": 0.0,
      "learning_rate": 2.608072526483489e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7204
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.58333396911621,
      "epoch": 54.17164179104478,
      "grad_norm": 2.6630788157624803,
      "learning_rate": 2.6074218893539885e-07,
      "loss": 0.0045,
      "reward": 1.6944444179534912,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 7205
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.05555534362793,
      "epoch": 54.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 2.606771244934985e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7206
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.55555534362793,
      "epoch": 54.1865671641791,
      "grad_norm": 0.0,
      "learning_rate": 2.6061205932706304e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7207
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.47222328186035,
      "epoch": 54.19402985074627,
      "grad_norm": 0.0,
      "learning_rate": 2.605469934405078e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7208
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.86111068725586,
      "epoch": 54.201492537313435,
      "grad_norm": 0.0,
      "learning_rate": 2.604819268382479e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7209
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.97222328186035,
      "epoch": 54.208955223880594,
      "grad_norm": 0.0,
      "learning_rate": 2.6041685952469873e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7210
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.05555534362793,
      "epoch": 54.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 2.6035179150427573e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7211
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.55555534362793,
      "epoch": 54.223880597014926,
      "grad_norm": 0.0,
      "learning_rate": 2.602867227813942e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7212
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.47222328186035,
      "epoch": 54.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 2.6022165336046974e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7213
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.08333396911621,
      "epoch": 54.23880597014925,
      "grad_norm": 0.0,
      "learning_rate": 2.601565832459178e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7214
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.97222328186035,
      "epoch": 54.24626865671642,
      "grad_norm": 0.0,
      "learning_rate": 2.6009151244215403e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7215
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.63888931274414,
      "epoch": 54.25373134328358,
      "grad_norm": 0.0,
      "learning_rate": 2.6002644095359396e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7216
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.66666603088379,
      "epoch": 54.26119402985075,
      "grad_norm": 0.0,
      "learning_rate": 2.5996136878465325e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7217
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.5,
      "epoch": 54.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 2.5989629593974764e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7218
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.88888931274414,
      "epoch": 54.276119402985074,
      "grad_norm": 0.0,
      "learning_rate": 2.598312224232929e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7219
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.19444465637207,
      "epoch": 54.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 2.597661482397049e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7220
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.72222328186035,
      "epoch": 54.291044776119406,
      "grad_norm": 0.0,
      "learning_rate": 2.5970107339339927e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7221
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.08333396911621,
      "epoch": 54.298507462686565,
      "grad_norm": 0.0,
      "learning_rate": 2.5963599788879204e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7222
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.97222328186035,
      "epoch": 54.30597014925373,
      "grad_norm": 0.0,
      "learning_rate": 2.595709217302992e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7223
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.38888931274414,
      "epoch": 54.3134328358209,
      "grad_norm": 0.0,
      "learning_rate": 2.595058449223366e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7224
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.91666603088379,
      "epoch": 54.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 2.594407674693204e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 7225
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.58333396911621,
      "epoch": 54.32835820895522,
      "grad_norm": 0.0,
      "learning_rate": 2.5937568937566654e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7226
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.22222328186035,
      "epoch": 54.33582089552239,
      "grad_norm": 11.666108896443445,
      "learning_rate": 2.593106106457912e-07,
      "loss": 0.0239,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 7227
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.77777862548828,
      "epoch": 54.343283582089555,
      "grad_norm": 0.0,
      "learning_rate": 2.5924553128411045e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7228
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.30555534362793,
      "epoch": 54.350746268656714,
      "grad_norm": 0.0,
      "learning_rate": 2.591804512950407e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7229
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.11111068725586,
      "epoch": 54.35820895522388,
      "grad_norm": 0.0,
      "learning_rate": 2.5911537068299797e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7230
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.86111068725586,
      "epoch": 54.365671641791046,
      "grad_norm": 0.0,
      "learning_rate": 2.5905028945239857e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7231
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.22222328186035,
      "epoch": 54.37313432835821,
      "grad_norm": 0.0,
      "learning_rate": 2.5898520760765894e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7232
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.22222328186035,
      "epoch": 54.38059701492537,
      "grad_norm": 0.0,
      "learning_rate": 2.589201251531954e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7233
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.30555534362793,
      "epoch": 54.38805970149254,
      "grad_norm": 0.0,
      "learning_rate": 2.5885504209342423e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 7234
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.97222328186035,
      "epoch": 54.3955223880597,
      "grad_norm": 0.0,
      "learning_rate": 2.58789958432762e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7235
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.58333396911621,
      "epoch": 54.40298507462686,
      "grad_norm": 0.0,
      "learning_rate": 2.5872487417562527e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7236
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.22222328186035,
      "epoch": 54.41044776119403,
      "grad_norm": 0.0,
      "learning_rate": 2.5865978932643034e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7237
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.91666603088379,
      "epoch": 54.417910447761194,
      "grad_norm": 0.0,
      "learning_rate": 2.58594703889594e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7238
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.38888931274414,
      "epoch": 54.42537313432836,
      "grad_norm": 161.13843512567416,
      "learning_rate": 2.585296178695328e-07,
      "loss": -0.0039,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 7239
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.52777862548828,
      "epoch": 54.43283582089552,
      "grad_norm": 0.0,
      "learning_rate": 2.5846453127066337e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7240
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.55555534362793,
      "epoch": 54.440298507462686,
      "grad_norm": 0.0,
      "learning_rate": 2.583994440974023e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7241
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.38888931274414,
      "epoch": 54.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 2.583343563541665e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7242
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.66666603088379,
      "epoch": 54.45522388059702,
      "grad_norm": 0.0,
      "learning_rate": 2.5826926804537263e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7243
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.05555534362793,
      "epoch": 54.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 2.5820417917543745e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7244
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.52777862548828,
      "epoch": 54.47014925373134,
      "grad_norm": 0.0,
      "learning_rate": 2.581390897487779e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7245
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.58333396911621,
      "epoch": 54.47761194029851,
      "grad_norm": 0.0,
      "learning_rate": 2.580739997698108e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7246
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.11111068725586,
      "epoch": 54.485074626865675,
      "grad_norm": 0.0,
      "learning_rate": 2.5800890924295317e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7247
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.97222328186035,
      "epoch": 54.492537313432834,
      "grad_norm": 0.0,
      "learning_rate": 2.5794381817262174e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7248
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.25,
      "epoch": 54.5,
      "grad_norm": 0.0,
      "learning_rate": 2.578787265632337e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7249
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.19444465637207,
      "epoch": 54.507462686567166,
      "grad_norm": 0.0,
      "learning_rate": 2.5781363441920614e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7250
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.44444465637207,
      "epoch": 54.514925373134325,
      "grad_norm": 0.0,
      "learning_rate": 2.577485417449558e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 7251
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.77777862548828,
      "epoch": 54.52238805970149,
      "grad_norm": 0.0,
      "learning_rate": 2.576834485449001e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7252
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.66666603088379,
      "epoch": 54.52985074626866,
      "grad_norm": 0.0,
      "learning_rate": 2.5761835482345606e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7253
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.77777862548828,
      "epoch": 54.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 2.575532605850408e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7254
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.36111068725586,
      "epoch": 54.54477611940298,
      "grad_norm": 0.0,
      "learning_rate": 2.574881658340716e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7255
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.58333396911621,
      "epoch": 54.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 2.5742307057496576e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7256
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.66666603088379,
      "epoch": 54.559701492537314,
      "grad_norm": 0.0,
      "learning_rate": 2.573579748121404e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7257
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.0,
      "epoch": 54.56716417910448,
      "grad_norm": 0.0,
      "learning_rate": 2.5729287855001286e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7258
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.0,
      "epoch": 54.57462686567164,
      "grad_norm": 0.0,
      "learning_rate": 2.572277817930006e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7259
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.05555534362793,
      "epoch": 54.582089552238806,
      "grad_norm": 0.0,
      "learning_rate": 2.5716268454552093e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7260
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.25,
      "epoch": 54.58955223880597,
      "grad_norm": 0.0,
      "learning_rate": 2.5709758681199117e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7261
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.63888931274414,
      "epoch": 54.59701492537313,
      "grad_norm": 0.0,
      "learning_rate": 2.5703248859682894e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7262
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.58333396911621,
      "epoch": 54.6044776119403,
      "grad_norm": 0.0,
      "learning_rate": 2.569673899044516e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7263
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.25,
      "epoch": 54.61194029850746,
      "grad_norm": 0.0,
      "learning_rate": 2.5690229073927667e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 7264
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.47222328186035,
      "epoch": 54.61940298507463,
      "grad_norm": 0.0,
      "learning_rate": 2.5683719110572167e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7265
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.41666603088379,
      "epoch": 54.62686567164179,
      "grad_norm": 0.0,
      "learning_rate": 2.567720910082043e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7266
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.91666603088379,
      "epoch": 54.634328358208954,
      "grad_norm": 74.85677876482825,
      "learning_rate": 2.56706990451142e-07,
      "loss": 0.0012,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 7267
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.94444465637207,
      "epoch": 54.64179104477612,
      "grad_norm": 0.0,
      "learning_rate": 2.5664188943895246e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 7268
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.58333396911621,
      "epoch": 54.649253731343286,
      "grad_norm": 0.0,
      "learning_rate": 2.5657678797605335e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7269
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.08333396911621,
      "epoch": 54.656716417910445,
      "grad_norm": 0.0,
      "learning_rate": 2.565116860668625e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7270
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.91666603088379,
      "epoch": 54.66417910447761,
      "grad_norm": 0.0,
      "learning_rate": 2.5644658371579736e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7271
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.77777862548828,
      "epoch": 54.67164179104478,
      "grad_norm": 0.0,
      "learning_rate": 2.563814809272759e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7272
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.55555534362793,
      "epoch": 54.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 2.563163777057159e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7273
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.75,
      "epoch": 54.6865671641791,
      "grad_norm": 0.0,
      "learning_rate": 2.562512740555351e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7274
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.66666603088379,
      "epoch": 54.69402985074627,
      "grad_norm": 0.0,
      "learning_rate": 2.561861699811513e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7275
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.63888931274414,
      "epoch": 54.701492537313435,
      "grad_norm": 0.0,
      "learning_rate": 2.561210654869825e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 7276
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.38888931274414,
      "epoch": 54.708955223880594,
      "grad_norm": 0.0,
      "learning_rate": 2.5605596057744654e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7277
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.91666603088379,
      "epoch": 54.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 2.559908552569613e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7278
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.75,
      "epoch": 54.723880597014926,
      "grad_norm": 0.0,
      "learning_rate": 2.559257495299448e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7279
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.02777862548828,
      "epoch": 54.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 2.5586064340081516e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7280
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.47222328186035,
      "epoch": 54.73880597014925,
      "grad_norm": 0.0,
      "learning_rate": 2.557955368739901e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7281
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.88888931274414,
      "epoch": 54.74626865671642,
      "grad_norm": 0.0,
      "learning_rate": 2.5573042995388784e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7282
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.25,
      "epoch": 54.75373134328358,
      "grad_norm": 0.0,
      "learning_rate": 2.556653226449264e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7283
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.83333396911621,
      "epoch": 54.76119402985075,
      "grad_norm": 0.0,
      "learning_rate": 2.55600214951524e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7284
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.44444465637207,
      "epoch": 54.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 2.555351068780985e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7285
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.52777862548828,
      "epoch": 54.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 2.5546999842906834e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7286
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.63888931274414,
      "epoch": 54.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 2.554048896088515e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7287
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.61111068725586,
      "epoch": 54.791044776119406,
      "grad_norm": 0.0,
      "learning_rate": 2.5533978042186614e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7288
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.72222328186035,
      "epoch": 54.798507462686565,
      "grad_norm": 0.0,
      "learning_rate": 2.552746708725307e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7289
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.0,
      "epoch": 54.80597014925373,
      "grad_norm": 0.0,
      "learning_rate": 2.552095609652632e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7290
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.22222328186035,
      "epoch": 54.8134328358209,
      "grad_norm": 0.0,
      "learning_rate": 2.5514445070448206e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7291
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.11111068725586,
      "epoch": 54.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 2.550793400946054e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7292
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 22.75,
      "epoch": 54.82835820895522,
      "grad_norm": 0.0,
      "learning_rate": 2.550142291400517e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7293
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.61111068725586,
      "epoch": 54.83582089552239,
      "grad_norm": 0.0,
      "learning_rate": 2.549491178452393e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7294
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.88888931274414,
      "epoch": 54.843283582089555,
      "grad_norm": 0.0,
      "learning_rate": 2.5488400621458647e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7295
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.86111068725586,
      "epoch": 54.850746268656714,
      "grad_norm": 0.0,
      "learning_rate": 2.5481889425251165e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7296
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.52777862548828,
      "epoch": 54.85820895522388,
      "grad_norm": 0.0,
      "learning_rate": 2.547537819634332e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7297
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.63888931274414,
      "epoch": 54.865671641791046,
      "grad_norm": 0.0,
      "learning_rate": 2.5468866935176956e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7298
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.22222328186035,
      "epoch": 54.87313432835821,
      "grad_norm": 0.0,
      "learning_rate": 2.546235564219393e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7299
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.63888931274414,
      "epoch": 54.88059701492537,
      "grad_norm": 0.0,
      "learning_rate": 2.545584431783607e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7300
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.16666603088379,
      "epoch": 54.88805970149254,
      "grad_norm": 0.0,
      "learning_rate": 2.5449332962545257e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7301
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.86111068725586,
      "epoch": 54.8955223880597,
      "grad_norm": 0.0,
      "learning_rate": 2.54428215767633e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7302
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.44444465637207,
      "epoch": 54.90298507462687,
      "grad_norm": 0.0,
      "learning_rate": 2.543631016093209e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7303
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.58333396911621,
      "epoch": 54.91044776119403,
      "grad_norm": 0.0,
      "learning_rate": 2.542979871549346e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7304
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.02777862548828,
      "epoch": 54.917910447761194,
      "grad_norm": 0.0,
      "learning_rate": 2.542328724088927e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7305
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.97222328186035,
      "epoch": 54.92537313432836,
      "grad_norm": 0.0,
      "learning_rate": 2.54167757375614e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 7306
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.22222328186035,
      "epoch": 54.93283582089552,
      "grad_norm": 30.15673253588032,
      "learning_rate": 2.5410264205951686e-07,
      "loss": -0.0087,
      "reward": 1.9444444179534912,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.944444477558136,
      "rewards/format_reward": 1.0,
      "step": 7307
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.41666603088379,
      "epoch": 54.940298507462686,
      "grad_norm": 0.0,
      "learning_rate": 2.5403752646502007e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7308
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.52777862548828,
      "epoch": 54.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 2.5397241059654217e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7309
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.05555534362793,
      "epoch": 54.95522388059702,
      "grad_norm": 0.0,
      "learning_rate": 2.5390729445850196e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7310
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.61111068725586,
      "epoch": 54.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 2.538421780553181e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7311
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.63888931274414,
      "epoch": 54.97014925373134,
      "grad_norm": 0.0,
      "learning_rate": 2.537770613914092e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7312
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.41666603088379,
      "epoch": 54.97761194029851,
      "grad_norm": 0.0,
      "learning_rate": 2.5371194447119413e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7313
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.72222328186035,
      "epoch": 54.985074626865675,
      "grad_norm": 0.0,
      "learning_rate": 2.536468272990916e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7314
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.58333396911621,
      "epoch": 54.992537313432834,
      "grad_norm": 0.0,
      "learning_rate": 2.535817098795202e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7315
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.80555534362793,
      "epoch": 55.007462686567166,
      "grad_norm": 0.0,
      "learning_rate": 2.5351659221689897e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7316
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.27777862548828,
      "epoch": 55.014925373134325,
      "grad_norm": 0.0,
      "learning_rate": 2.5345147431564655e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7317
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.63888931274414,
      "epoch": 55.02238805970149,
      "grad_norm": 0.0,
      "learning_rate": 2.533863561801819e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7318
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.05555534362793,
      "epoch": 55.02985074626866,
      "grad_norm": 0.0,
      "learning_rate": 2.533212378149236e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7319
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.44444465637207,
      "epoch": 55.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 2.532561192242907e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7320
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.72222328186035,
      "epoch": 55.04477611940298,
      "grad_norm": 0.0,
      "learning_rate": 2.5319100041270196e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7321
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.97222328186035,
      "epoch": 55.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 2.5312588138457623e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7322
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.88888931274414,
      "epoch": 55.059701492537314,
      "grad_norm": 0.0,
      "learning_rate": 2.5306076214433254e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7323
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.69444465637207,
      "epoch": 55.06716417910448,
      "grad_norm": 0.0,
      "learning_rate": 2.529956426963897e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7324
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.55555534362793,
      "epoch": 55.07462686567164,
      "grad_norm": 0.0,
      "learning_rate": 2.529305230451666e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7325
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.55555534362793,
      "epoch": 55.082089552238806,
      "grad_norm": 0.0,
      "learning_rate": 2.528654031950822e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7326
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.25,
      "epoch": 55.08955223880597,
      "grad_norm": 0.0,
      "learning_rate": 2.528002831505554e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7327
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.63888931274414,
      "epoch": 55.09701492537314,
      "grad_norm": 0.0,
      "learning_rate": 2.527351629160053e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7328
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.5,
      "epoch": 55.1044776119403,
      "grad_norm": 0.0,
      "learning_rate": 2.526700424958507e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7329
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.80555534362793,
      "epoch": 55.11194029850746,
      "grad_norm": 0.0,
      "learning_rate": 2.526049218945107e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7330
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.25,
      "epoch": 55.11940298507463,
      "grad_norm": 0.0,
      "learning_rate": 2.5253980111640427e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7331
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.72222328186035,
      "epoch": 55.12686567164179,
      "grad_norm": 0.0,
      "learning_rate": 2.5247468016595034e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7332
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.94444465637207,
      "epoch": 55.134328358208954,
      "grad_norm": 0.0,
      "learning_rate": 2.5240955904756806e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 7333
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.77777862548828,
      "epoch": 55.14179104477612,
      "grad_norm": 0.0,
      "learning_rate": 2.5234443776567633e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7334
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.25,
      "epoch": 55.149253731343286,
      "grad_norm": 568.307988373198,
      "learning_rate": 2.5227931632469434e-07,
      "loss": -0.0146,
      "reward": 1.8055555820465088,
      "reward_std": 0.11970558762550354,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 7335
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.05555534362793,
      "epoch": 55.156716417910445,
      "grad_norm": 0.0,
      "learning_rate": 2.522141947290409e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7336
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.30555534362793,
      "epoch": 55.16417910447761,
      "grad_norm": 0.0,
      "learning_rate": 2.521490729831354e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7337
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.61111068725586,
      "epoch": 55.17164179104478,
      "grad_norm": 0.0,
      "learning_rate": 2.520839510913966e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7338
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.63888931274414,
      "epoch": 55.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 2.520188290582438e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7339
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.80555534362793,
      "epoch": 55.1865671641791,
      "grad_norm": 0.0,
      "learning_rate": 2.5195370688809597e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7340
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.11111068725586,
      "epoch": 55.19402985074627,
      "grad_norm": 0.0,
      "learning_rate": 2.518885845853722e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7341
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.52777862548828,
      "epoch": 55.201492537313435,
      "grad_norm": 0.0,
      "learning_rate": 2.518234621544917e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7342
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.66666603088379,
      "epoch": 55.208955223880594,
      "grad_norm": 0.0,
      "learning_rate": 2.5175833959987364e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7343
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.80555534362793,
      "epoch": 55.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 2.51693216925937e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7344
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.36111068725586,
      "epoch": 55.223880597014926,
      "grad_norm": 0.0,
      "learning_rate": 2.5162809413710097e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7345
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.25,
      "epoch": 55.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 2.5156297123778464e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7346
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.75,
      "epoch": 55.23880597014925,
      "grad_norm": 0.0,
      "learning_rate": 2.514978482324073e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7347
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.41666603088379,
      "epoch": 55.24626865671642,
      "grad_norm": 0.0,
      "learning_rate": 2.5143272512538794e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7348
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.80555534362793,
      "epoch": 55.25373134328358,
      "grad_norm": 0.0,
      "learning_rate": 2.5136760192114583e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7349
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.38888931274414,
      "epoch": 55.26119402985075,
      "grad_norm": 0.0,
      "learning_rate": 2.513024786241001e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7350
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 22.66666603088379,
      "epoch": 55.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 2.5123735523866996e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7351
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.41666603088379,
      "epoch": 55.276119402985074,
      "grad_norm": 18.25374354158413,
      "learning_rate": 2.5117223176927467e-07,
      "loss": 0.0141,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 7352
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.80555534362793,
      "epoch": 55.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 2.511071082203332e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7353
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.80555534362793,
      "epoch": 55.291044776119406,
      "grad_norm": 0.0,
      "learning_rate": 2.51041984596265e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7354
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.44444465637207,
      "epoch": 55.298507462686565,
      "grad_norm": 0.0,
      "learning_rate": 2.50976860901489e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7355
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.86111068725586,
      "epoch": 55.30597014925373,
      "grad_norm": 0.0,
      "learning_rate": 2.5091173714042463e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7356
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.69444465637207,
      "epoch": 55.3134328358209,
      "grad_norm": 0.0,
      "learning_rate": 2.50846613317491e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7357
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.77777862548828,
      "epoch": 55.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 2.5078148943710736e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7358
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.25,
      "epoch": 55.32835820895522,
      "grad_norm": 0.0,
      "learning_rate": 2.507163655036929e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7359
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.22222328186035,
      "epoch": 55.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 2.506512415216669e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7360
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.83333396911621,
      "epoch": 55.343283582089555,
      "grad_norm": 0.0,
      "learning_rate": 2.5058611749544844e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7361
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.08333396911621,
      "epoch": 55.350746268656714,
      "grad_norm": 0.0,
      "learning_rate": 2.5052099342945703e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7362
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.91666603088379,
      "epoch": 55.35820895522388,
      "grad_norm": 0.0,
      "learning_rate": 2.5045586932811153e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7363
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.16666603088379,
      "epoch": 55.365671641791046,
      "grad_norm": 0.0,
      "learning_rate": 2.503907451958315e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7364
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.58333396911621,
      "epoch": 55.37313432835821,
      "grad_norm": 0.0,
      "learning_rate": 2.503256210370359e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7365
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.22222328186035,
      "epoch": 55.38059701492537,
      "grad_norm": 0.0,
      "learning_rate": 2.5026049685614413e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7366
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.97222328186035,
      "epoch": 55.38805970149254,
      "grad_norm": 0.0,
      "learning_rate": 2.5019537265757544e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7367
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.97222328186035,
      "epoch": 55.3955223880597,
      "grad_norm": 0.0,
      "learning_rate": 2.5013024844574905e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7368
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.75,
      "epoch": 55.40298507462686,
      "grad_norm": 0.0,
      "learning_rate": 2.500651242250842e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7369
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.61111068725586,
      "epoch": 55.41044776119403,
      "grad_norm": 0.0,
      "learning_rate": 2.5e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7370
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.66666603088379,
      "epoch": 55.417910447761194,
      "grad_norm": 0.0,
      "learning_rate": 2.4993487577491584e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7371
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.91666603088379,
      "epoch": 55.42537313432836,
      "grad_norm": 0.0,
      "learning_rate": 2.498697515542509e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7372
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.44444465637207,
      "epoch": 55.43283582089552,
      "grad_norm": 0.0,
      "learning_rate": 2.498046273424245e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7373
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.66666603088379,
      "epoch": 55.440298507462686,
      "grad_norm": 0.0,
      "learning_rate": 2.4973950314385585e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7374
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.91666603088379,
      "epoch": 55.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 2.496743789629641e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7375
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.27777862548828,
      "epoch": 55.45522388059702,
      "grad_norm": 0.0,
      "learning_rate": 2.4960925480416854e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7376
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.08333396911621,
      "epoch": 55.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 2.4954413067188845e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7377
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.66666603088379,
      "epoch": 55.47014925373134,
      "grad_norm": 0.0,
      "learning_rate": 2.49479006570543e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7378
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.47222328186035,
      "epoch": 55.47761194029851,
      "grad_norm": 0.0,
      "learning_rate": 2.494138825045515e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7379
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.77777862548828,
      "epoch": 55.485074626865675,
      "grad_norm": 0.0,
      "learning_rate": 2.4934875847833305e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7380
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.08333396911621,
      "epoch": 55.492537313432834,
      "grad_norm": 0.0,
      "learning_rate": 2.492836344963071e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7381
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.97222328186035,
      "epoch": 55.5,
      "grad_norm": 0.0,
      "learning_rate": 2.492185105628927e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7382
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.69444465637207,
      "epoch": 55.507462686567166,
      "grad_norm": 79.05526923117176,
      "learning_rate": 2.49153386682509e-07,
      "loss": -0.0064,
      "reward": 1.75,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_reward": 1.0,
      "step": 7383
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.30555534362793,
      "epoch": 55.514925373134325,
      "grad_norm": 47.80671608415831,
      "learning_rate": 2.490882628595754e-07,
      "loss": 0.0106,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 7384
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.11111068725586,
      "epoch": 55.52238805970149,
      "grad_norm": 0.0,
      "learning_rate": 2.49023139098511e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7385
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.52777862548828,
      "epoch": 55.52985074626866,
      "grad_norm": 0.0,
      "learning_rate": 2.4895801540373505e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7386
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.58333396911621,
      "epoch": 55.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 2.488928917796668e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7387
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.36111068725586,
      "epoch": 55.54477611940298,
      "grad_norm": 0.0,
      "learning_rate": 2.488277682307254e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7388
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.77777862548828,
      "epoch": 55.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 2.4876264476133007e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7389
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.94444465637207,
      "epoch": 55.559701492537314,
      "grad_norm": 0.0,
      "learning_rate": 2.486975213758999e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7390
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.80555534362793,
      "epoch": 55.56716417910448,
      "grad_norm": 0.0,
      "learning_rate": 2.486323980788542e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7391
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.77777862548828,
      "epoch": 55.57462686567164,
      "grad_norm": 0.0,
      "learning_rate": 2.485672748746121e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7392
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.16666603088379,
      "epoch": 55.582089552238806,
      "grad_norm": 0.0,
      "learning_rate": 2.4850215176759275e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7393
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.80555534362793,
      "epoch": 55.58955223880597,
      "grad_norm": 0.0,
      "learning_rate": 2.4843702876221545e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7394
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.0,
      "epoch": 55.59701492537313,
      "grad_norm": 0.0,
      "learning_rate": 2.4837190586289906e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7395
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.83333396911621,
      "epoch": 55.6044776119403,
      "grad_norm": 0.0,
      "learning_rate": 2.4830678307406303e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7396
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.25,
      "epoch": 55.61194029850746,
      "grad_norm": 0.0,
      "learning_rate": 2.482416604001264e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7397
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.5,
      "epoch": 55.61940298507463,
      "grad_norm": 0.0,
      "learning_rate": 2.4817653784550826e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7398
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.05555534362793,
      "epoch": 55.62686567164179,
      "grad_norm": 0.0,
      "learning_rate": 2.481114154146277e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 7399
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.27777862548828,
      "epoch": 55.634328358208954,
      "grad_norm": 0.0,
      "learning_rate": 2.4804629311190396e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 7400
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.02777862548828,
      "epoch": 55.64179104477612,
      "grad_norm": 0.0,
      "learning_rate": 2.479811709417563e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7401
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.5,
      "epoch": 55.649253731343286,
      "grad_norm": 0.0,
      "learning_rate": 2.479160489086034e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7402
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.44444465637207,
      "epoch": 55.656716417910445,
      "grad_norm": 0.0,
      "learning_rate": 2.4785092701686465e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7403
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.36111068725586,
      "epoch": 55.66417910447761,
      "grad_norm": 0.0,
      "learning_rate": 2.4778580527095906e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7404
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.75,
      "epoch": 55.67164179104478,
      "grad_norm": 0.0,
      "learning_rate": 2.477206836753057e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7405
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.25,
      "epoch": 55.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 2.4765556223432365e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7406
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.72222328186035,
      "epoch": 55.6865671641791,
      "grad_norm": 0.0,
      "learning_rate": 2.475904409524319e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7407
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.94444465637207,
      "epoch": 55.69402985074627,
      "grad_norm": 0.0,
      "learning_rate": 2.4752531983404963e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7408
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.05555534362793,
      "epoch": 55.701492537313435,
      "grad_norm": 0.0,
      "learning_rate": 2.4746019888359576e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7409
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.16666603088379,
      "epoch": 55.708955223880594,
      "grad_norm": 0.0,
      "learning_rate": 2.4739507810548926e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7410
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.47222328186035,
      "epoch": 55.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 2.473299575041493e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7411
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.5,
      "epoch": 55.723880597014926,
      "grad_norm": 0.0,
      "learning_rate": 2.472648370839947e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7412
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.19444465637207,
      "epoch": 55.73134328358209,
      "grad_norm": 779.8740122269362,
      "learning_rate": 2.471997168494445e-07,
      "loss": -0.0098,
      "reward": 1.9166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 7413
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.88888931274414,
      "epoch": 55.73880597014925,
      "grad_norm": 0.0,
      "learning_rate": 2.471345968049178e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7414
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.11111068725586,
      "epoch": 55.74626865671642,
      "grad_norm": 0.0,
      "learning_rate": 2.4706947695483346e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7415
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.94444465637207,
      "epoch": 55.75373134328358,
      "grad_norm": 0.0,
      "learning_rate": 2.470043573036104e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7416
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.52777862548828,
      "epoch": 55.76119402985075,
      "grad_norm": 0.0,
      "learning_rate": 2.469392378556675e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7417
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.36111068725586,
      "epoch": 55.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 2.4687411861542375e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7418
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.52777862548828,
      "epoch": 55.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 2.4680899958729807e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7419
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.66666603088379,
      "epoch": 55.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 2.467438807757093e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7420
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.97222328186035,
      "epoch": 55.791044776119406,
      "grad_norm": 0.0,
      "learning_rate": 2.4667876218507637e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7421
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.94444465637207,
      "epoch": 55.798507462686565,
      "grad_norm": 0.0,
      "learning_rate": 2.466136438198182e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7422
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.83333396911621,
      "epoch": 55.80597014925373,
      "grad_norm": 0.0,
      "learning_rate": 2.4654852568435343e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7423
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.94444465637207,
      "epoch": 55.8134328358209,
      "grad_norm": 0.0,
      "learning_rate": 2.46483407783101e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7424
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.91666603088379,
      "epoch": 55.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 2.464182901204798e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7425
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.97222328186035,
      "epoch": 55.82835820895522,
      "grad_norm": 0.0,
      "learning_rate": 2.4635317270090843e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7426
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.72222328186035,
      "epoch": 55.83582089552239,
      "grad_norm": 0.0,
      "learning_rate": 2.4628805552880585e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7427
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.08333396911621,
      "epoch": 55.843283582089555,
      "grad_norm": 0.0,
      "learning_rate": 2.4622293860859085e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7428
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.44444465637207,
      "epoch": 55.850746268656714,
      "grad_norm": 0.0,
      "learning_rate": 2.4615782194468194e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7429
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.66666603088379,
      "epoch": 55.85820895522388,
      "grad_norm": 0.0,
      "learning_rate": 2.4609270554149807e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7430
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.38888931274414,
      "epoch": 55.865671641791046,
      "grad_norm": 0.0,
      "learning_rate": 2.460275894034578e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7431
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.16666603088379,
      "epoch": 55.87313432835821,
      "grad_norm": 0.0,
      "learning_rate": 2.459624735349799e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7432
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 22.91666603088379,
      "epoch": 55.88059701492537,
      "grad_norm": 0.0,
      "learning_rate": 2.458973579404831e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7433
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.72222328186035,
      "epoch": 55.88805970149254,
      "grad_norm": 0.0,
      "learning_rate": 2.45832242624386e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7434
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.08333396911621,
      "epoch": 55.8955223880597,
      "grad_norm": 0.0,
      "learning_rate": 2.4576712759110725e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7435
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.22222328186035,
      "epoch": 55.90298507462687,
      "grad_norm": 0.0,
      "learning_rate": 2.457020128450654e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7436
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.08333396911621,
      "epoch": 55.91044776119403,
      "grad_norm": 0.0,
      "learning_rate": 2.456368983906791e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7437
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.22222328186035,
      "epoch": 55.917910447761194,
      "grad_norm": 0.0,
      "learning_rate": 2.45571784232367e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7438
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.66666603088379,
      "epoch": 55.92537313432836,
      "grad_norm": 0.0,
      "learning_rate": 2.4550667037454746e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7439
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.41666603088379,
      "epoch": 55.93283582089552,
      "grad_norm": 0.0,
      "learning_rate": 2.454415568216392e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7440
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.08333396911621,
      "epoch": 55.940298507462686,
      "grad_norm": 0.0,
      "learning_rate": 2.4537644357806066e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7441
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.30555534362793,
      "epoch": 55.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 2.453113306482304e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7442
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.55555534362793,
      "epoch": 55.95522388059702,
      "grad_norm": 0.0,
      "learning_rate": 2.452462180365669e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7443
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.91666603088379,
      "epoch": 55.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 2.451811057474884e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7444
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.22222328186035,
      "epoch": 55.97014925373134,
      "grad_norm": 0.0,
      "learning_rate": 2.451159937854136e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7445
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.19444465637207,
      "epoch": 55.97761194029851,
      "grad_norm": 0.0,
      "learning_rate": 2.450508821547607e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 7446
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.27777862548828,
      "epoch": 55.985074626865675,
      "grad_norm": 0.0,
      "learning_rate": 2.449857708599483e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7447
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.25,
      "epoch": 55.992537313432834,
      "grad_norm": 0.0,
      "learning_rate": 2.449206599053946e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7448
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.05555534362793,
      "epoch": 56.007462686567166,
      "grad_norm": 0.0,
      "learning_rate": 2.4485554929551803e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7449
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.25,
      "epoch": 56.014925373134325,
      "grad_norm": 0.0,
      "learning_rate": 2.447904390347369e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7450
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.16666603088379,
      "epoch": 56.02238805970149,
      "grad_norm": 0.0,
      "learning_rate": 2.4472532912746934e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7451
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.16666603088379,
      "epoch": 56.02985074626866,
      "grad_norm": 0.0,
      "learning_rate": 2.4466021957813384e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7452
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.63888931274414,
      "epoch": 56.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 2.445951103911485e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7453
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.44444465637207,
      "epoch": 56.04477611940298,
      "grad_norm": 0.0,
      "learning_rate": 2.445300015709317e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7454
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.33333396911621,
      "epoch": 56.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 2.444648931219014e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7455
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.25,
      "epoch": 56.059701492537314,
      "grad_norm": 0.0,
      "learning_rate": 2.4439978504847607e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7456
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.80555534362793,
      "epoch": 56.06716417910448,
      "grad_norm": 0.0,
      "learning_rate": 2.443346773550736e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7457
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.19444465637207,
      "epoch": 56.07462686567164,
      "grad_norm": 0.0,
      "learning_rate": 2.4426957004611213e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7458
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.44444465637207,
      "epoch": 56.082089552238806,
      "grad_norm": 0.0,
      "learning_rate": 2.4420446312600993e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7459
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.52777862548828,
      "epoch": 56.08955223880597,
      "grad_norm": 0.0,
      "learning_rate": 2.4413935659918487e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7460
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.25,
      "epoch": 56.09701492537314,
      "grad_norm": 0.0,
      "learning_rate": 2.440742504700551e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7461
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.66666603088379,
      "epoch": 56.1044776119403,
      "grad_norm": 0.0,
      "learning_rate": 2.440091447430387e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7462
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.25,
      "epoch": 56.11194029850746,
      "grad_norm": 0.0,
      "learning_rate": 2.4394403942255354e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7463
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.80555534362793,
      "epoch": 56.11940298507463,
      "grad_norm": 0.0,
      "learning_rate": 2.438789345130175e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7464
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.61111068725586,
      "epoch": 56.12686567164179,
      "grad_norm": 0.0,
      "learning_rate": 2.4381383001884874e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7465
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.61111068725586,
      "epoch": 56.134328358208954,
      "grad_norm": 0.0,
      "learning_rate": 2.4374872594446495e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7466
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.19444465637207,
      "epoch": 56.14179104477612,
      "grad_norm": 0.0,
      "learning_rate": 2.436836222942841e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7467
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.72222328186035,
      "epoch": 56.149253731343286,
      "grad_norm": 0.0,
      "learning_rate": 2.4361851907272406e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7468
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.33333396911621,
      "epoch": 56.156716417910445,
      "grad_norm": 0.0,
      "learning_rate": 2.435534162842026e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7469
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.77777862548828,
      "epoch": 56.16417910447761,
      "grad_norm": 0.0,
      "learning_rate": 2.434883139331376e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7470
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.75,
      "epoch": 56.17164179104478,
      "grad_norm": 0.0,
      "learning_rate": 2.434232120239466e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7471
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.77777862548828,
      "epoch": 56.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 2.433581105610476e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7472
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.66666603088379,
      "epoch": 56.1865671641791,
      "grad_norm": 0.0,
      "learning_rate": 2.43293009548858e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7473
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.02777862548828,
      "epoch": 56.19402985074627,
      "grad_norm": 0.0,
      "learning_rate": 2.432279089917957e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7474
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.75,
      "epoch": 56.201492537313435,
      "grad_norm": 0.0,
      "learning_rate": 2.4316280889427826e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7475
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.44444465637207,
      "epoch": 56.208955223880594,
      "grad_norm": 0.0,
      "learning_rate": 2.4309770926072336e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7476
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.72222328186035,
      "epoch": 56.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 2.4303261009554846e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7477
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.88888931274414,
      "epoch": 56.223880597014926,
      "grad_norm": 0.0,
      "learning_rate": 2.4296751140317104e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7478
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.13888931274414,
      "epoch": 56.23134328358209,
      "grad_norm": 43.61172487663402,
      "learning_rate": 2.429024131880088e-07,
      "loss": 0.0075,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 7479
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.44444465637207,
      "epoch": 56.23880597014925,
      "grad_norm": 0.0,
      "learning_rate": 2.428373154544791e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7480
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.05555534362793,
      "epoch": 56.24626865671642,
      "grad_norm": 0.0,
      "learning_rate": 2.427722182069994e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7481
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.38888931274414,
      "epoch": 56.25373134328358,
      "grad_norm": 0.0,
      "learning_rate": 2.4270712144998707e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7482
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.88888931274414,
      "epoch": 56.26119402985075,
      "grad_norm": 0.0,
      "learning_rate": 2.426420251878596e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7483
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.86111068725586,
      "epoch": 56.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 2.425769294250343e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7484
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.16666603088379,
      "epoch": 56.276119402985074,
      "grad_norm": 0.0,
      "learning_rate": 2.4251183416592836e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7485
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.47222328186035,
      "epoch": 56.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 2.424467394149592e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7486
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.08333396911621,
      "epoch": 56.291044776119406,
      "grad_norm": 0.0,
      "learning_rate": 2.423816451765439e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7487
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.52777862548828,
      "epoch": 56.298507462686565,
      "grad_norm": 0.0,
      "learning_rate": 2.423165514550999e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7488
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.86111068725586,
      "epoch": 56.30597014925373,
      "grad_norm": 0.0,
      "learning_rate": 2.4225145825504415e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7489
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.97222328186035,
      "epoch": 56.3134328358209,
      "grad_norm": 0.0,
      "learning_rate": 2.42186365580794e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7490
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.13888931274414,
      "epoch": 56.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 2.4212127343676625e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7491
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.66666603088379,
      "epoch": 56.32835820895522,
      "grad_norm": 0.0,
      "learning_rate": 2.4205618182737824e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7492
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.5,
      "epoch": 56.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 2.4199109075704686e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7493
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.36111068725586,
      "epoch": 56.343283582089555,
      "grad_norm": 0.0,
      "learning_rate": 2.419260002301892e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7494
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.5,
      "epoch": 56.350746268656714,
      "grad_norm": 0.0,
      "learning_rate": 2.41860910251222e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7495
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.69444465637207,
      "epoch": 56.35820895522388,
      "grad_norm": 0.0,
      "learning_rate": 2.417958208245625e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7496
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.44444465637207,
      "epoch": 56.365671641791046,
      "grad_norm": 0.0,
      "learning_rate": 2.4173073195462745e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7497
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.88888931274414,
      "epoch": 56.37313432835821,
      "grad_norm": 0.0,
      "learning_rate": 2.416656436458335e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7498
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.52777862548828,
      "epoch": 56.38059701492537,
      "grad_norm": 0.0,
      "learning_rate": 2.4160055590259767e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 7499
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.33333396911621,
      "epoch": 56.38805970149254,
      "grad_norm": 0.0,
      "learning_rate": 2.4153546872933666e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7500
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.38888931274414,
      "epoch": 56.3955223880597,
      "grad_norm": 0.0,
      "learning_rate": 2.414703821304672e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7501
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.66666603088379,
      "epoch": 56.40298507462686,
      "grad_norm": 0.0,
      "learning_rate": 2.414052961104059e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7502
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.11111068725586,
      "epoch": 56.41044776119403,
      "grad_norm": 0.0,
      "learning_rate": 2.413402106735696e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7503
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.0,
      "epoch": 56.417910447761194,
      "grad_norm": 0.0,
      "learning_rate": 2.412751258243748e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7504
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.33333396911621,
      "epoch": 56.42537313432836,
      "grad_norm": 0.0,
      "learning_rate": 2.4121004156723797e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7505
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.33333396911621,
      "epoch": 56.43283582089552,
      "grad_norm": 0.0,
      "learning_rate": 2.411449579065758e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7506
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.25,
      "epoch": 56.440298507462686,
      "grad_norm": 0.0,
      "learning_rate": 2.410798748468046e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7507
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.61111068725586,
      "epoch": 56.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 2.410147923923411e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7508
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.97222328186035,
      "epoch": 56.45522388059702,
      "grad_norm": 0.0,
      "learning_rate": 2.409497105476014e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7509
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.05555534362793,
      "epoch": 56.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 2.408846293170021e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7510
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.80555534362793,
      "epoch": 56.47014925373134,
      "grad_norm": 0.0,
      "learning_rate": 2.408195487049594e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7511
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.05555534362793,
      "epoch": 56.47761194029851,
      "grad_norm": 0.0,
      "learning_rate": 2.407544687158895e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7512
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.27777862548828,
      "epoch": 56.485074626865675,
      "grad_norm": 0.0,
      "learning_rate": 2.406893893542088e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7513
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.47222328186035,
      "epoch": 56.492537313432834,
      "grad_norm": 0.0,
      "learning_rate": 2.406243106243335e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7514
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.44444465637207,
      "epoch": 56.5,
      "grad_norm": 0.0,
      "learning_rate": 2.4055923253067964e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7515
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.55555534362793,
      "epoch": 56.507462686567166,
      "grad_norm": 0.0,
      "learning_rate": 2.4049415507766333e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7516
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.80555534362793,
      "epoch": 56.514925373134325,
      "grad_norm": 0.0,
      "learning_rate": 2.4042907826970083e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7517
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.38888931274414,
      "epoch": 56.52238805970149,
      "grad_norm": 0.0,
      "learning_rate": 2.40364002111208e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 7518
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.97222328186035,
      "epoch": 56.52985074626866,
      "grad_norm": 0.0,
      "learning_rate": 2.4029892660660076e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7519
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.27777862548828,
      "epoch": 56.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 2.4023385176029515e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7520
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.25,
      "epoch": 56.54477611940298,
      "grad_norm": 0.0,
      "learning_rate": 2.4016877757670706e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7521
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.91666603088379,
      "epoch": 56.55223880597015,
      "grad_norm": 119.94593412438357,
      "learning_rate": 2.401037040602523e-07,
      "loss": -0.0118,
      "reward": 1.9166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 7522
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.05555534362793,
      "epoch": 56.559701492537314,
      "grad_norm": 0.0,
      "learning_rate": 2.400386312153467e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7523
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.44444465637207,
      "epoch": 56.56716417910448,
      "grad_norm": 0.0,
      "learning_rate": 2.3997355904640607e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7524
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.97222328186035,
      "epoch": 56.57462686567164,
      "grad_norm": 149.83081153582546,
      "learning_rate": 2.39908487557846e-07,
      "loss": -0.0197,
      "reward": 1.6944444179534912,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.694444477558136,
      "rewards/format_reward": 1.0,
      "step": 7525
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.41666603088379,
      "epoch": 56.582089552238806,
      "grad_norm": 0.0,
      "learning_rate": 2.3984341675408216e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7526
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.88888931274414,
      "epoch": 56.58955223880597,
      "grad_norm": 0.0,
      "learning_rate": 2.3977834663953023e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7527
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.55555534362793,
      "epoch": 56.59701492537313,
      "grad_norm": 0.0,
      "learning_rate": 2.397132772186058e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7528
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 22.88888931274414,
      "epoch": 56.6044776119403,
      "grad_norm": 0.0,
      "learning_rate": 2.3964820849572425e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7529
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.52777862548828,
      "epoch": 56.61194029850746,
      "grad_norm": 0.0,
      "learning_rate": 2.3958314047530125e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7530
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.05555534362793,
      "epoch": 56.61940298507463,
      "grad_norm": 0.0,
      "learning_rate": 2.395180731617522e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7531
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.44444465637207,
      "epoch": 56.62686567164179,
      "grad_norm": 0.0,
      "learning_rate": 2.3945300655949225e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7532
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.91666603088379,
      "epoch": 56.634328358208954,
      "grad_norm": 0.0,
      "learning_rate": 2.3938794067293694e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7533
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.13888931274414,
      "epoch": 56.64179104477612,
      "grad_norm": 0.0,
      "learning_rate": 2.393228755065015e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7534
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.91666603088379,
      "epoch": 56.649253731343286,
      "grad_norm": 9.954644235394328,
      "learning_rate": 2.392578110646012e-07,
      "loss": -0.0012,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 7535
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.58333396911621,
      "epoch": 56.656716417910445,
      "grad_norm": 0.0,
      "learning_rate": 2.391927473516511e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7536
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.5,
      "epoch": 56.66417910447761,
      "grad_norm": 0.0,
      "learning_rate": 2.3912768437206654e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7537
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.47222328186035,
      "epoch": 56.67164179104478,
      "grad_norm": 0.0,
      "learning_rate": 2.390626221302625e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7538
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.11111068725586,
      "epoch": 56.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 2.3899756063065393e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7539
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.58333396911621,
      "epoch": 56.6865671641791,
      "grad_norm": 0.0,
      "learning_rate": 2.3893249987765594e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7540
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.5,
      "epoch": 56.69402985074627,
      "grad_norm": 0.0,
      "learning_rate": 2.3886743987568336e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7541
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.22222328186035,
      "epoch": 56.701492537313435,
      "grad_norm": 0.0,
      "learning_rate": 2.388023806291512e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7542
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.91666603088379,
      "epoch": 56.708955223880594,
      "grad_norm": 0.0,
      "learning_rate": 2.387373221424741e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7543
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.52777862548828,
      "epoch": 56.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 2.386722644200671e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7544
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.72222328186035,
      "epoch": 56.723880597014926,
      "grad_norm": 46.65292680252098,
      "learning_rate": 2.3860720746634476e-07,
      "loss": 0.0019,
      "reward": 1.9444444179534912,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.944444477558136,
      "rewards/format_reward": 1.0,
      "step": 7545
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.88888931274414,
      "epoch": 56.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 2.385421512857217e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7546
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.55555534362793,
      "epoch": 56.73880597014925,
      "grad_norm": 0.0,
      "learning_rate": 2.384770958826127e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7547
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.47222328186035,
      "epoch": 56.74626865671642,
      "grad_norm": 0.0,
      "learning_rate": 2.3841204126143221e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7548
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.36111068725586,
      "epoch": 56.75373134328358,
      "grad_norm": 0.0,
      "learning_rate": 2.383469874265948e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7549
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.36111068725586,
      "epoch": 56.76119402985075,
      "grad_norm": 0.0,
      "learning_rate": 2.3828193438251496e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7550
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.05555534362793,
      "epoch": 56.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 2.3821688213360713e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7551
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.19444465637207,
      "epoch": 56.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 2.381518306842855e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7552
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.55555534362793,
      "epoch": 56.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 2.3808678003896458e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7553
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.0,
      "epoch": 56.791044776119406,
      "grad_norm": 0.0,
      "learning_rate": 2.380217302020584e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7554
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.41666603088379,
      "epoch": 56.798507462686565,
      "grad_norm": 0.0,
      "learning_rate": 2.3795668117798137e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7555
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.47222328186035,
      "epoch": 56.80597014925373,
      "grad_norm": 0.0,
      "learning_rate": 2.3789163297114748e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7556
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.36111068725586,
      "epoch": 56.8134328358209,
      "grad_norm": 0.0,
      "learning_rate": 2.378265855859709e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7557
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.52777862548828,
      "epoch": 56.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 2.3776153902686567e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7558
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.22222328186035,
      "epoch": 56.82835820895522,
      "grad_norm": 0.0,
      "learning_rate": 2.3769649329824562e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7559
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.77777862548828,
      "epoch": 56.83582089552239,
      "grad_norm": 158.11488439287652,
      "learning_rate": 2.3763144840452478e-07,
      "loss": 0.0182,
      "reward": 1.6111111640930176,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.6111111044883728,
      "rewards/format_reward": 1.0,
      "step": 7560
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.41666603088379,
      "epoch": 56.843283582089555,
      "grad_norm": 0.0,
      "learning_rate": 2.3756640435011697e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7561
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.16666603088379,
      "epoch": 56.850746268656714,
      "grad_norm": 0.0,
      "learning_rate": 2.3750136113943604e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7562
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.30555534362793,
      "epoch": 56.85820895522388,
      "grad_norm": 0.0,
      "learning_rate": 2.3743631877689563e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7563
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.38888931274414,
      "epoch": 56.865671641791046,
      "grad_norm": 0.0,
      "learning_rate": 2.3737127726690957e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 7564
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.47222328186035,
      "epoch": 56.87313432835821,
      "grad_norm": 0.0,
      "learning_rate": 2.3730623661389142e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7565
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.13888931274414,
      "epoch": 56.88059701492537,
      "grad_norm": 0.0,
      "learning_rate": 2.372411968222547e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7566
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.5,
      "epoch": 56.88805970149254,
      "grad_norm": 0.0,
      "learning_rate": 2.3717615789641298e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7567
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.5,
      "epoch": 56.8955223880597,
      "grad_norm": 0.0,
      "learning_rate": 2.3711111984077964e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7568
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.75,
      "epoch": 56.90298507462687,
      "grad_norm": 0.0,
      "learning_rate": 2.370460826597682e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7569
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.80555534362793,
      "epoch": 56.91044776119403,
      "grad_norm": 0.0,
      "learning_rate": 2.3698104635779186e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7570
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.44444465637207,
      "epoch": 56.917910447761194,
      "grad_norm": 0.0,
      "learning_rate": 2.3691601093926402e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7571
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.47222328186035,
      "epoch": 56.92537313432836,
      "grad_norm": 0.0,
      "learning_rate": 2.368509764085979e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7572
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.11111068725586,
      "epoch": 56.93283582089552,
      "grad_norm": 0.0,
      "learning_rate": 2.3678594277020646e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7573
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.11111068725586,
      "epoch": 56.940298507462686,
      "grad_norm": 0.0,
      "learning_rate": 2.3672091002850299e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7574
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.69444465637207,
      "epoch": 56.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 2.366558781879004e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7575
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.02777862548828,
      "epoch": 56.95522388059702,
      "grad_norm": 0.0,
      "learning_rate": 2.3659084725281176e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7576
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.08333396911621,
      "epoch": 56.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 2.3652581722764988e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7577
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.13888931274414,
      "epoch": 56.97014925373134,
      "grad_norm": 0.0,
      "learning_rate": 2.3646078811682767e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7578
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.97222328186035,
      "epoch": 56.97761194029851,
      "grad_norm": 0.0,
      "learning_rate": 2.3639575992475811e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7579
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.16666603088379,
      "epoch": 56.985074626865675,
      "grad_norm": 0.0,
      "learning_rate": 2.3633073265585354e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7580
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.33333396911621,
      "epoch": 56.992537313432834,
      "grad_norm": 0.0,
      "learning_rate": 2.362657063145268e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7581
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.22222328186035,
      "epoch": 57.007462686567166,
      "grad_norm": 0.0,
      "learning_rate": 2.3620068090519056e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7582
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.5,
      "epoch": 57.014925373134325,
      "grad_norm": 0.0,
      "learning_rate": 2.3613565643225729e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7583
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.5,
      "epoch": 57.02238805970149,
      "grad_norm": 0.0,
      "learning_rate": 2.3607063290013946e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7584
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.58333396911621,
      "epoch": 57.02985074626866,
      "grad_norm": 0.0,
      "learning_rate": 2.3600561031324956e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7585
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.16666603088379,
      "epoch": 57.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 2.3594058867599976e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7586
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.94444465637207,
      "epoch": 57.04477611940298,
      "grad_norm": 0.0,
      "learning_rate": 2.3587556799280245e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7587
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.11111068725586,
      "epoch": 57.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 2.358105482680698e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7588
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.25,
      "epoch": 57.059701492537314,
      "grad_norm": 0.0,
      "learning_rate": 2.3574552950621406e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7589
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.27777862548828,
      "epoch": 57.06716417910448,
      "grad_norm": 0.0,
      "learning_rate": 2.356805117116472e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7590
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.75,
      "epoch": 57.07462686567164,
      "grad_norm": 0.0,
      "learning_rate": 2.3561549488878135e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7591
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.13888931274414,
      "epoch": 57.082089552238806,
      "grad_norm": 0.0,
      "learning_rate": 2.3555047904202843e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7592
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.80555534362793,
      "epoch": 57.08955223880597,
      "grad_norm": 0.0,
      "learning_rate": 2.3548546417580016e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7593
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.66666603088379,
      "epoch": 57.09701492537314,
      "grad_norm": 0.0,
      "learning_rate": 2.354204502945086e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7594
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.83333396911621,
      "epoch": 57.1044776119403,
      "grad_norm": 0.0,
      "learning_rate": 2.3535543740256533e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7595
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.13888931274414,
      "epoch": 57.11194029850746,
      "grad_norm": 0.0,
      "learning_rate": 2.3529042550438217e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7596
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.19444465637207,
      "epoch": 57.11940298507463,
      "grad_norm": 0.0,
      "learning_rate": 2.3522541460437062e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7597
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.08333396911621,
      "epoch": 57.12686567164179,
      "grad_norm": 0.0,
      "learning_rate": 2.351604047069423e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7598
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.63888931274414,
      "epoch": 57.134328358208954,
      "grad_norm": 0.0,
      "learning_rate": 2.350953958165088e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7599
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.77777862548828,
      "epoch": 57.14179104477612,
      "grad_norm": 0.0,
      "learning_rate": 2.3503038793748125e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7600
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.36111068725586,
      "epoch": 57.149253731343286,
      "grad_norm": 0.0,
      "learning_rate": 2.3496538107427126e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7601
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.11111068725586,
      "epoch": 57.156716417910445,
      "grad_norm": 0.0,
      "learning_rate": 2.3490037523128992e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7602
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.30555534362793,
      "epoch": 57.16417910447761,
      "grad_norm": 0.0,
      "learning_rate": 2.3483537041294856e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7603
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.88888931274414,
      "epoch": 57.17164179104478,
      "grad_norm": 0.0,
      "learning_rate": 2.3477036662365827e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7604
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.36111068725586,
      "epoch": 57.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 2.3470536386783018e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7605
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.27777862548828,
      "epoch": 57.1865671641791,
      "grad_norm": 0.0,
      "learning_rate": 2.3464036214987529e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7606
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.11111068725586,
      "epoch": 57.19402985074627,
      "grad_norm": 0.0,
      "learning_rate": 2.3457536147420434e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7607
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.88888931274414,
      "epoch": 57.201492537313435,
      "grad_norm": 0.0,
      "learning_rate": 2.345103618452284e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7608
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.38888931274414,
      "epoch": 57.208955223880594,
      "grad_norm": 0.0,
      "learning_rate": 2.3444536326735814e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7609
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.0,
      "epoch": 57.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 2.343803657450043e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7610
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.69444465637207,
      "epoch": 57.223880597014926,
      "grad_norm": 0.0,
      "learning_rate": 2.343153692825776e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7611
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.77777862548828,
      "epoch": 57.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 2.3425037388448848e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7612
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.05555534362793,
      "epoch": 57.23880597014925,
      "grad_norm": 0.0,
      "learning_rate": 2.3418537955514764e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7613
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.19444465637207,
      "epoch": 57.24626865671642,
      "grad_norm": 0.0,
      "learning_rate": 2.3412038629896534e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7614
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.38888931274414,
      "epoch": 57.25373134328358,
      "grad_norm": 0.0,
      "learning_rate": 2.3405539412035185e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7615
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.75,
      "epoch": 57.26119402985075,
      "grad_norm": 0.0,
      "learning_rate": 2.3399040302371766e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7616
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.66666603088379,
      "epoch": 57.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 2.3392541301347284e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7617
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.5,
      "epoch": 57.276119402985074,
      "grad_norm": 0.0,
      "learning_rate": 2.3386042409402763e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7618
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.63888931274414,
      "epoch": 57.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 2.337954362697921e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 7619
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.0,
      "epoch": 57.291044776119406,
      "grad_norm": 0.0,
      "learning_rate": 2.33730449545176e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7620
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.05555534362793,
      "epoch": 57.298507462686565,
      "grad_norm": 0.0,
      "learning_rate": 2.3366546392458951e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7621
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.36111068725586,
      "epoch": 57.30597014925373,
      "grad_norm": 0.0,
      "learning_rate": 2.336004794124423e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7622
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.77777862548828,
      "epoch": 57.3134328358209,
      "grad_norm": 0.0,
      "learning_rate": 2.3353549601314424e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7623
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.63888931274414,
      "epoch": 57.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 2.334705137311049e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7624
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.25,
      "epoch": 57.32835820895522,
      "grad_norm": 0.0,
      "learning_rate": 2.33405532570734e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7625
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.97222328186035,
      "epoch": 57.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 2.3334055253644112e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7626
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.27777862548828,
      "epoch": 57.343283582089555,
      "grad_norm": 0.0,
      "learning_rate": 2.332755736326355e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7627
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.44444465637207,
      "epoch": 57.350746268656714,
      "grad_norm": 0.0,
      "learning_rate": 2.3321059586372672e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7628
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.27777862548828,
      "epoch": 57.35820895522388,
      "grad_norm": 0.0,
      "learning_rate": 2.331456192341239e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7629
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.86111068725586,
      "epoch": 57.365671641791046,
      "grad_norm": 0.0,
      "learning_rate": 2.3308064374823648e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7630
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.36111068725586,
      "epoch": 57.37313432835821,
      "grad_norm": 0.0,
      "learning_rate": 2.330156694104734e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7631
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.44444465637207,
      "epoch": 57.38059701492537,
      "grad_norm": 0.0,
      "learning_rate": 2.3295069622524394e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7632
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.44444465637207,
      "epoch": 57.38805970149254,
      "grad_norm": 0.0,
      "learning_rate": 2.3288572419695701e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7633
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.38888931274414,
      "epoch": 57.3955223880597,
      "grad_norm": 0.0,
      "learning_rate": 2.3282075333002137e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7634
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.41666603088379,
      "epoch": 57.40298507462686,
      "grad_norm": 0.0,
      "learning_rate": 2.3275578362884608e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7635
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.61111068725586,
      "epoch": 57.41044776119403,
      "grad_norm": 0.0,
      "learning_rate": 2.3269081509783968e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7636
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.02777862548828,
      "epoch": 57.417910447761194,
      "grad_norm": 0.0,
      "learning_rate": 2.3262584774141104e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7637
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.44444465637207,
      "epoch": 57.42537313432836,
      "grad_norm": 0.0,
      "learning_rate": 2.3256088156396868e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7638
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.41666603088379,
      "epoch": 57.43283582089552,
      "grad_norm": 0.0,
      "learning_rate": 2.3249591656992104e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7639
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.88888931274414,
      "epoch": 57.440298507462686,
      "grad_norm": 0.0,
      "learning_rate": 2.3243095276367684e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7640
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.77777862548828,
      "epoch": 57.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 2.3236599014964403e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7641
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.22222328186035,
      "epoch": 57.45522388059702,
      "grad_norm": 0.0,
      "learning_rate": 2.3230102873223108e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7642
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.66666603088379,
      "epoch": 57.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 2.3223606851584627e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7643
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.33333396911621,
      "epoch": 57.47014925373134,
      "grad_norm": 0.0,
      "learning_rate": 2.3217110950489754e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7644
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.77777862548828,
      "epoch": 57.47761194029851,
      "grad_norm": 0.0,
      "learning_rate": 2.3210615170379308e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7645
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.66666603088379,
      "epoch": 57.485074626865675,
      "grad_norm": 0.0,
      "learning_rate": 2.320411951169407e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7646
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.77777862548828,
      "epoch": 57.492537313432834,
      "grad_norm": 0.0,
      "learning_rate": 2.319762397487484e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7647
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.11111068725586,
      "epoch": 57.5,
      "grad_norm": 0.0,
      "learning_rate": 2.319112856036239e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7648
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.36111068725586,
      "epoch": 57.507462686567166,
      "grad_norm": 0.0,
      "learning_rate": 2.318463326859748e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7649
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.08333396911621,
      "epoch": 57.514925373134325,
      "grad_norm": 0.0,
      "learning_rate": 2.3178138100020888e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7650
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.52777862548828,
      "epoch": 57.52238805970149,
      "grad_norm": 0.0,
      "learning_rate": 2.3171643055073352e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7651
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.94444465637207,
      "epoch": 57.52985074626866,
      "grad_norm": 0.0,
      "learning_rate": 2.3165148134195634e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7652
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.05555534362793,
      "epoch": 57.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 2.315865333782845e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7653
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.27777862548828,
      "epoch": 57.54477611940298,
      "grad_norm": 0.0,
      "learning_rate": 2.3152158666412556e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7654
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.02777862548828,
      "epoch": 57.55223880597015,
      "grad_norm": 135.81032185091289,
      "learning_rate": 2.3145664120388647e-07,
      "loss": -0.0063,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 7655
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.86111068725586,
      "epoch": 57.559701492537314,
      "grad_norm": 0.0,
      "learning_rate": 2.3139169700197435e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7656
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.91666603088379,
      "epoch": 57.56716417910448,
      "grad_norm": 0.0,
      "learning_rate": 2.3132675406279637e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7657
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.55555534362793,
      "epoch": 57.57462686567164,
      "grad_norm": 0.0,
      "learning_rate": 2.3126181239075933e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7658
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.22222328186035,
      "epoch": 57.582089552238806,
      "grad_norm": 0.0,
      "learning_rate": 2.3119687199027023e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7659
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.38888931274414,
      "epoch": 57.58955223880597,
      "grad_norm": 0.0,
      "learning_rate": 2.3113193286573575e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7660
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.44444465637207,
      "epoch": 57.59701492537313,
      "grad_norm": 0.0,
      "learning_rate": 2.3106699502156252e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7661
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.61111068725586,
      "epoch": 57.6044776119403,
      "grad_norm": 0.0,
      "learning_rate": 2.310020584621572e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7662
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.16666603088379,
      "epoch": 57.61194029850746,
      "grad_norm": 0.0,
      "learning_rate": 2.3093712319192625e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7663
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.11111068725586,
      "epoch": 57.61940298507463,
      "grad_norm": 0.0,
      "learning_rate": 2.3087218921527618e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7664
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.83333396911621,
      "epoch": 57.62686567164179,
      "grad_norm": 0.0,
      "learning_rate": 2.308072565366132e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7665
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.88888931274414,
      "epoch": 57.634328358208954,
      "grad_norm": 0.0,
      "learning_rate": 2.307423251603437e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7666
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.36111068725586,
      "epoch": 57.64179104477612,
      "grad_norm": 0.0,
      "learning_rate": 2.3067739509087377e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7667
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.47222328186035,
      "epoch": 57.649253731343286,
      "grad_norm": 0.0,
      "learning_rate": 2.3061246633260937e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7668
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.91666603088379,
      "epoch": 57.656716417910445,
      "grad_norm": 0.0,
      "learning_rate": 2.305475388899566e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7669
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.33333396911621,
      "epoch": 57.66417910447761,
      "grad_norm": 0.0,
      "learning_rate": 2.3048261276732128e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7670
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.44444465637207,
      "epoch": 57.67164179104478,
      "grad_norm": 0.0,
      "learning_rate": 2.304176879691092e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7671
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.38888931274414,
      "epoch": 57.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 2.3035276449972621e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7672
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.16666603088379,
      "epoch": 57.6865671641791,
      "grad_norm": 0.0,
      "learning_rate": 2.3028784236357776e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7673
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.19444465637207,
      "epoch": 57.69402985074627,
      "grad_norm": 0.0,
      "learning_rate": 2.3022292156506956e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7674
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.58333396911621,
      "epoch": 57.701492537313435,
      "grad_norm": 0.0,
      "learning_rate": 2.3015800210860685e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7675
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.08333396911621,
      "epoch": 57.708955223880594,
      "grad_norm": 0.0,
      "learning_rate": 2.3009308399859505e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7676
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.27777862548828,
      "epoch": 57.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 2.300281672394394e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7677
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.44444465637207,
      "epoch": 57.723880597014926,
      "grad_norm": 0.0,
      "learning_rate": 2.299632518355451e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7678
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.16666603088379,
      "epoch": 57.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 2.2989833779131723e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7679
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.38888931274414,
      "epoch": 57.73880597014925,
      "grad_norm": 0.0,
      "learning_rate": 2.2983342511116068e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7680
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.36111068725586,
      "epoch": 57.74626865671642,
      "grad_norm": 0.0,
      "learning_rate": 2.2976851379948052e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7681
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.19444465637207,
      "epoch": 57.75373134328358,
      "grad_norm": 0.0,
      "learning_rate": 2.297036038606814e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7682
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.33333396911621,
      "epoch": 57.76119402985075,
      "grad_norm": 0.0,
      "learning_rate": 2.2963869529916792e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7683
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.11111068725586,
      "epoch": 57.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 2.2957378811934492e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7684
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.44444465637207,
      "epoch": 57.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 2.295088823256167e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7685
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.69444465637207,
      "epoch": 57.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 2.294439779223879e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7686
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.44444465637207,
      "epoch": 57.791044776119406,
      "grad_norm": 0.0,
      "learning_rate": 2.2937907491406262e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7687
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.61111068725586,
      "epoch": 57.798507462686565,
      "grad_norm": 0.0,
      "learning_rate": 2.2931417330504531e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7688
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.27777862548828,
      "epoch": 57.80597014925373,
      "grad_norm": 0.0,
      "learning_rate": 2.2924927309973996e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7689
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.25,
      "epoch": 57.8134328358209,
      "grad_norm": 0.0,
      "learning_rate": 2.2918437430255056e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7690
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.75,
      "epoch": 57.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 2.291194769178812e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7691
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.11111068725586,
      "epoch": 57.82835820895522,
      "grad_norm": 0.0,
      "learning_rate": 2.290545809501356e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7692
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.13888931274414,
      "epoch": 57.83582089552239,
      "grad_norm": 0.0,
      "learning_rate": 2.289896864037176e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7693
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.13888931274414,
      "epoch": 57.843283582089555,
      "grad_norm": 0.0,
      "learning_rate": 2.289247932830308e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7694
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.55555534362793,
      "epoch": 57.850746268656714,
      "grad_norm": 0.0,
      "learning_rate": 2.2885990159247888e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7695
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.66666603088379,
      "epoch": 57.85820895522388,
      "grad_norm": 0.0,
      "learning_rate": 2.2879501133646517e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7696
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.16666603088379,
      "epoch": 57.865671641791046,
      "grad_norm": 0.0,
      "learning_rate": 2.2873012251939304e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7697
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.16666603088379,
      "epoch": 57.87313432835821,
      "grad_norm": 0.0,
      "learning_rate": 2.2866523514566579e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7698
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.13888931274414,
      "epoch": 57.88059701492537,
      "grad_norm": 0.0,
      "learning_rate": 2.2860034921968656e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7699
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.80555534362793,
      "epoch": 57.88805970149254,
      "grad_norm": 0.0,
      "learning_rate": 2.2853546474585848e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7700
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.47222328186035,
      "epoch": 57.8955223880597,
      "grad_norm": 0.0,
      "learning_rate": 2.2847058172858455e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7701
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.41666603088379,
      "epoch": 57.90298507462687,
      "grad_norm": 0.0,
      "learning_rate": 2.2840570017226753e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7702
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.72222328186035,
      "epoch": 57.91044776119403,
      "grad_norm": 0.0,
      "learning_rate": 2.2834082008131021e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7703
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.94444465637207,
      "epoch": 57.917910447761194,
      "grad_norm": 0.0,
      "learning_rate": 2.2827594146011536e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7704
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.0,
      "epoch": 57.92537313432836,
      "grad_norm": 0.0,
      "learning_rate": 2.2821106431308543e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7705
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.72222328186035,
      "epoch": 57.93283582089552,
      "grad_norm": 0.0,
      "learning_rate": 2.2814618864462302e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7706
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.44444465637207,
      "epoch": 57.940298507462686,
      "grad_norm": 0.0,
      "learning_rate": 2.280813144591304e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7707
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.80555534362793,
      "epoch": 57.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 2.2801644176100998e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7708
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.47222328186035,
      "epoch": 57.95522388059702,
      "grad_norm": 0.0,
      "learning_rate": 2.279515705546638e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7709
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.91666603088379,
      "epoch": 57.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 2.2788670084449392e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7710
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.91666603088379,
      "epoch": 57.97014925373134,
      "grad_norm": 0.0,
      "learning_rate": 2.278218326349024e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7711
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.05555534362793,
      "epoch": 57.97761194029851,
      "grad_norm": 0.0,
      "learning_rate": 2.2775696593029104e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7712
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.88888931274414,
      "epoch": 57.985074626865675,
      "grad_norm": 0.0,
      "learning_rate": 2.2769210073506167e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7713
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.5,
      "epoch": 57.992537313432834,
      "grad_norm": 0.0,
      "learning_rate": 2.2762723705361585e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7714
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.05555534362793,
      "epoch": 58.007462686567166,
      "grad_norm": 0.0,
      "learning_rate": 2.2756237489035536e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 7715
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.19444465637207,
      "epoch": 58.014925373134325,
      "grad_norm": 0.0,
      "learning_rate": 2.2749751424968146e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7716
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.25,
      "epoch": 58.02238805970149,
      "grad_norm": 0.0,
      "learning_rate": 2.274326551359955e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7717
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.61111068725586,
      "epoch": 58.02985074626866,
      "grad_norm": 0.0,
      "learning_rate": 2.273677975536988e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7718
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.11111068725586,
      "epoch": 58.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 2.2730294150719248e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7719
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.08333396911621,
      "epoch": 58.04477611940298,
      "grad_norm": 0.0,
      "learning_rate": 2.2723808700087762e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7720
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.25,
      "epoch": 58.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 2.2717323403915512e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7721
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.55555534362793,
      "epoch": 58.059701492537314,
      "grad_norm": 0.0,
      "learning_rate": 2.271083826264259e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7722
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.25,
      "epoch": 58.06716417910448,
      "grad_norm": 0.0,
      "learning_rate": 2.2704353276709056e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7723
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.02777862548828,
      "epoch": 58.07462686567164,
      "grad_norm": 0.0,
      "learning_rate": 2.2697868446554974e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 7724
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.97222328186035,
      "epoch": 58.082089552238806,
      "grad_norm": 0.0,
      "learning_rate": 2.2691383772620408e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7725
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.94444465637207,
      "epoch": 58.08955223880597,
      "grad_norm": 0.0,
      "learning_rate": 2.268489925534538e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7726
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.69444465637207,
      "epoch": 58.09701492537314,
      "grad_norm": 0.0,
      "learning_rate": 2.2678414895169933e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7727
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.61111068725586,
      "epoch": 58.1044776119403,
      "grad_norm": 0.0,
      "learning_rate": 2.267193069253409e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 7728
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.27777862548828,
      "epoch": 58.11194029850746,
      "grad_norm": 0.0,
      "learning_rate": 2.266544664787786e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7729
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.13888931274414,
      "epoch": 58.11940298507463,
      "grad_norm": 0.0,
      "learning_rate": 2.265896276164123e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7730
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.86111068725586,
      "epoch": 58.12686567164179,
      "grad_norm": 0.0,
      "learning_rate": 2.2652479034264198e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7731
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.19444465637207,
      "epoch": 58.134328358208954,
      "grad_norm": 0.0,
      "learning_rate": 2.2645995466186733e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7732
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.72222328186035,
      "epoch": 58.14179104477612,
      "grad_norm": 0.0,
      "learning_rate": 2.2639512057848808e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7733
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.38888931274414,
      "epoch": 58.149253731343286,
      "grad_norm": 0.0,
      "learning_rate": 2.2633028809690372e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7734
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.16666603088379,
      "epoch": 58.156716417910445,
      "grad_norm": 0.0,
      "learning_rate": 2.2626545722151382e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 7735
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.0,
      "epoch": 58.16417910447761,
      "grad_norm": 0.0,
      "learning_rate": 2.2620062795671757e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7736
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.61111068725586,
      "epoch": 58.17164179104478,
      "grad_norm": 0.0,
      "learning_rate": 2.261358003069142e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7737
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.94444465637207,
      "epoch": 58.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 2.2607097427650295e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7738
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.19444465637207,
      "epoch": 58.1865671641791,
      "grad_norm": 0.0,
      "learning_rate": 2.2600614986988267e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7739
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.30555534362793,
      "epoch": 58.19402985074627,
      "grad_norm": 0.0,
      "learning_rate": 2.2594132709145242e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7740
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.63888931274414,
      "epoch": 58.201492537313435,
      "grad_norm": 0.0,
      "learning_rate": 2.2587650594561084e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7741
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.30555534362793,
      "epoch": 58.208955223880594,
      "grad_norm": 0.0,
      "learning_rate": 2.2581168643675677e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7742
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.69444465637207,
      "epoch": 58.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 2.2574686856928863e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7743
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.16666603088379,
      "epoch": 58.223880597014926,
      "grad_norm": 0.0,
      "learning_rate": 2.2568205234760485e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7744
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.77777862548828,
      "epoch": 58.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 2.2561723777610385e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7745
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.38888931274414,
      "epoch": 58.23880597014925,
      "grad_norm": 0.0,
      "learning_rate": 2.2555242485918386e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7746
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.86111068725586,
      "epoch": 58.24626865671642,
      "grad_norm": 0.0,
      "learning_rate": 2.25487613601243e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7747
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.36111068725586,
      "epoch": 58.25373134328358,
      "grad_norm": 0.0,
      "learning_rate": 2.2542280400667917e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7748
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.52777862548828,
      "epoch": 58.26119402985075,
      "grad_norm": 0.0,
      "learning_rate": 2.253579960798905e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7749
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.83333396911621,
      "epoch": 58.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 2.252931898252745e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7750
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.77777862548828,
      "epoch": 58.276119402985074,
      "grad_norm": 0.0,
      "learning_rate": 2.2522838524722894e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7751
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.27777862548828,
      "epoch": 58.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 2.2516358235015139e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7752
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.16666603088379,
      "epoch": 58.291044776119406,
      "grad_norm": 0.0,
      "learning_rate": 2.2509878113843925e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7753
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.0,
      "epoch": 58.298507462686565,
      "grad_norm": 0.0,
      "learning_rate": 2.250339816164899e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7754
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.08333396911621,
      "epoch": 58.30597014925373,
      "grad_norm": 0.0,
      "learning_rate": 2.2496918378870047e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7755
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.91666603088379,
      "epoch": 58.3134328358209,
      "grad_norm": 0.0,
      "learning_rate": 2.2490438765946818e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7756
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.72222328186035,
      "epoch": 58.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 2.248395932331899e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7757
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.25,
      "epoch": 58.32835820895522,
      "grad_norm": 0.0,
      "learning_rate": 2.2477480051426238e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7758
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.5,
      "epoch": 58.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 2.2471000950708258e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7759
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.05555534362793,
      "epoch": 58.343283582089555,
      "grad_norm": 0.0,
      "learning_rate": 2.2464522021604707e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7760
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.27777862548828,
      "epoch": 58.350746268656714,
      "grad_norm": 0.0,
      "learning_rate": 2.2458043264555226e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7761
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.77777862548828,
      "epoch": 58.35820895522388,
      "grad_norm": 0.0,
      "learning_rate": 2.245156467999947e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 7762
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.61111068725586,
      "epoch": 58.365671641791046,
      "grad_norm": 0.0,
      "learning_rate": 2.2445086268377066e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7763
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.44444465637207,
      "epoch": 58.37313432835821,
      "grad_norm": 0.0,
      "learning_rate": 2.243860803012761e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7764
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.44444465637207,
      "epoch": 58.38059701492537,
      "grad_norm": 0.0,
      "learning_rate": 2.2432129965690726e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7765
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.97222328186035,
      "epoch": 58.38805970149254,
      "grad_norm": 0.0,
      "learning_rate": 2.2425652075505997e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 7766
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.25,
      "epoch": 58.3955223880597,
      "grad_norm": 0.0,
      "learning_rate": 2.2419174360013012e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7767
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.94444465637207,
      "epoch": 58.40298507462686,
      "grad_norm": 0.0,
      "learning_rate": 2.2412696819651328e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7768
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.58333396911621,
      "epoch": 58.41044776119403,
      "grad_norm": 0.0,
      "learning_rate": 2.2406219454860516e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7769
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.13888931274414,
      "epoch": 58.417910447761194,
      "grad_norm": 0.0,
      "learning_rate": 2.239974226608012e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7770
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.91666603088379,
      "epoch": 58.42537313432836,
      "grad_norm": 0.0,
      "learning_rate": 2.2393265253749657e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7771
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.77777862548828,
      "epoch": 58.43283582089552,
      "grad_norm": 0.0,
      "learning_rate": 2.2386788418308665e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7772
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.41666603088379,
      "epoch": 58.440298507462686,
      "grad_norm": 0.0,
      "learning_rate": 2.238031176019664e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7773
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.47222328186035,
      "epoch": 58.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 2.2373835279853096e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7774
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.52777862548828,
      "epoch": 58.45522388059702,
      "grad_norm": 0.0,
      "learning_rate": 2.2367358977717498e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7775
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.19444465637207,
      "epoch": 58.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 2.2360882854229343e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7776
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.11111068725586,
      "epoch": 58.47014925373134,
      "grad_norm": 0.0,
      "learning_rate": 2.2354406909828072e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7777
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.69444465637207,
      "epoch": 58.47761194029851,
      "grad_norm": 0.0,
      "learning_rate": 2.2347931144953135e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7778
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.69444465637207,
      "epoch": 58.485074626865675,
      "grad_norm": 0.0,
      "learning_rate": 2.2341455560043979e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7779
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.22222328186035,
      "epoch": 58.492537313432834,
      "grad_norm": 0.0,
      "learning_rate": 2.2334980155540018e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7780
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.58333396911621,
      "epoch": 58.5,
      "grad_norm": 0.0,
      "learning_rate": 2.2328504931880673e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7781
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.27777862548828,
      "epoch": 58.507462686567166,
      "grad_norm": 0.0,
      "learning_rate": 2.2322029889505334e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7782
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.55555534362793,
      "epoch": 58.514925373134325,
      "grad_norm": 0.0,
      "learning_rate": 2.231555502885341e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7783
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.25,
      "epoch": 58.52238805970149,
      "grad_norm": 0.0,
      "learning_rate": 2.230908035036425e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7784
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.83333396911621,
      "epoch": 58.52985074626866,
      "grad_norm": 0.0,
      "learning_rate": 2.2302605854477223e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7785
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.25,
      "epoch": 58.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 2.2296131541631694e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7786
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.25,
      "epoch": 58.54477611940298,
      "grad_norm": 0.0,
      "learning_rate": 2.2289657412266983e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7787
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.61111068725586,
      "epoch": 58.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 2.228318346682242e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7788
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.27777862548828,
      "epoch": 58.559701492537314,
      "grad_norm": 0.0,
      "learning_rate": 2.2276709705737333e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7789
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.61111068725586,
      "epoch": 58.56716417910448,
      "grad_norm": 0.0,
      "learning_rate": 2.2270236129451017e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7790
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.63888931274414,
      "epoch": 58.57462686567164,
      "grad_norm": 0.0,
      "learning_rate": 2.226376273840274e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7791
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.36111068725586,
      "epoch": 58.582089552238806,
      "grad_norm": 0.0,
      "learning_rate": 2.22572895330318e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7792
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.36111068725586,
      "epoch": 58.58955223880597,
      "grad_norm": 0.0,
      "learning_rate": 2.2250816513777445e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7793
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.80555534362793,
      "epoch": 58.59701492537313,
      "grad_norm": 0.0,
      "learning_rate": 2.2244343681078938e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7794
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.63888931274414,
      "epoch": 58.6044776119403,
      "grad_norm": 0.0,
      "learning_rate": 2.2237871035375504e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7795
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.63888931274414,
      "epoch": 58.61194029850746,
      "grad_norm": 0.0,
      "learning_rate": 2.2231398577106385e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7796
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.11111068725586,
      "epoch": 58.61940298507463,
      "grad_norm": 0.0,
      "learning_rate": 2.2224926306710785e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7797
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.22222328186035,
      "epoch": 58.62686567164179,
      "grad_norm": 0.0,
      "learning_rate": 2.2218454224627886e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7798
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.25,
      "epoch": 58.634328358208954,
      "grad_norm": 0.0,
      "learning_rate": 2.22119823312969e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7799
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.41666603088379,
      "epoch": 58.64179104477612,
      "grad_norm": 0.0,
      "learning_rate": 2.2205510627156988e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7800
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.83333396911621,
      "epoch": 58.649253731343286,
      "grad_norm": 0.0,
      "learning_rate": 2.2199039112647314e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7801
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.11111068725586,
      "epoch": 58.656716417910445,
      "grad_norm": 0.0,
      "learning_rate": 2.2192567788207022e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7802
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.66666603088379,
      "epoch": 58.66417910447761,
      "grad_norm": 0.0,
      "learning_rate": 2.2186096654275257e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7803
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.69444465637207,
      "epoch": 58.67164179104478,
      "grad_norm": 0.0,
      "learning_rate": 2.217962571129114e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7804
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.88888931274414,
      "epoch": 58.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 2.2173154959693768e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7805
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.19444465637207,
      "epoch": 58.6865671641791,
      "grad_norm": 0.0,
      "learning_rate": 2.2166684399922246e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7806
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.55555534362793,
      "epoch": 58.69402985074627,
      "grad_norm": 0.0,
      "learning_rate": 2.2160214032415658e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7807
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.72222328186035,
      "epoch": 58.701492537313435,
      "grad_norm": 0.0,
      "learning_rate": 2.2153743857613072e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7808
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.33333396911621,
      "epoch": 58.708955223880594,
      "grad_norm": 0.0,
      "learning_rate": 2.2147273875953547e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7809
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.22222328186035,
      "epoch": 58.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 2.214080408787613e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7810
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.47222328186035,
      "epoch": 58.723880597014926,
      "grad_norm": 0.0,
      "learning_rate": 2.2134334493819847e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7811
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.25,
      "epoch": 58.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 2.2127865094223713e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7812
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.88888931274414,
      "epoch": 58.73880597014925,
      "grad_norm": 0.0,
      "learning_rate": 2.212139588952674e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7813
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.41666603088379,
      "epoch": 58.74626865671642,
      "grad_norm": 0.0,
      "learning_rate": 2.211492688016791e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7814
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.33333396911621,
      "epoch": 58.75373134328358,
      "grad_norm": 0.0,
      "learning_rate": 2.2108458066586214e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7815
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.02777862548828,
      "epoch": 58.76119402985075,
      "grad_norm": 0.0,
      "learning_rate": 2.2101989449220604e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7816
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.19444465637207,
      "epoch": 58.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 2.209552102851005e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7817
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.61111068725586,
      "epoch": 58.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 2.208905280489347e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7818
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.33333396911621,
      "epoch": 58.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 2.2082584778809795e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7819
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.47222328186035,
      "epoch": 58.791044776119406,
      "grad_norm": 0.0,
      "learning_rate": 2.2076116950697937e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7820
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.36111068725586,
      "epoch": 58.798507462686565,
      "grad_norm": 0.0,
      "learning_rate": 2.20696493209968e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7821
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.08333396911621,
      "epoch": 58.80597014925373,
      "grad_norm": 0.0,
      "learning_rate": 2.2063181890145258e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7822
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.94444465637207,
      "epoch": 58.8134328358209,
      "grad_norm": 0.0,
      "learning_rate": 2.2056714658582195e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7823
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.11111068725586,
      "epoch": 58.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 2.2050247626746466e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7824
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.02777862548828,
      "epoch": 58.82835820895522,
      "grad_norm": 0.0,
      "learning_rate": 2.2043780795076899e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7825
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.75,
      "epoch": 58.83582089552239,
      "grad_norm": 0.0,
      "learning_rate": 2.203731416401234e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7826
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.86111068725586,
      "epoch": 58.843283582089555,
      "grad_norm": 0.0,
      "learning_rate": 2.20308477339916e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7827
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.69444465637207,
      "epoch": 58.850746268656714,
      "grad_norm": 0.0,
      "learning_rate": 2.2024381505453483e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 7828
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.38888931274414,
      "epoch": 58.85820895522388,
      "grad_norm": 17.494635583506394,
      "learning_rate": 2.2017915478836777e-07,
      "loss": -0.0098,
      "reward": 1.9166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 7829
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.30555534362793,
      "epoch": 58.865671641791046,
      "grad_norm": 0.0,
      "learning_rate": 2.2011449654580263e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7830
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.05555534362793,
      "epoch": 58.87313432835821,
      "grad_norm": 0.0,
      "learning_rate": 2.200498403312271e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7831
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.52777862548828,
      "epoch": 58.88059701492537,
      "grad_norm": 0.0,
      "learning_rate": 2.1998518614902841e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7832
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.36111068725586,
      "epoch": 58.88805970149254,
      "grad_norm": 0.0,
      "learning_rate": 2.1992053400359412e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7833
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.86111068725586,
      "epoch": 58.8955223880597,
      "grad_norm": 0.0,
      "learning_rate": 2.1985588389931132e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7834
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.36111068725586,
      "epoch": 58.90298507462687,
      "grad_norm": 0.0,
      "learning_rate": 2.1979123584056717e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7835
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.05555534362793,
      "epoch": 58.91044776119403,
      "grad_norm": 0.0,
      "learning_rate": 2.197265898317485e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7836
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.47222328186035,
      "epoch": 58.917910447761194,
      "grad_norm": 0.0,
      "learning_rate": 2.1966194587724223e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 7837
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.86111068725586,
      "epoch": 58.92537313432836,
      "grad_norm": 0.0,
      "learning_rate": 2.19597303981435e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7838
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.69444465637207,
      "epoch": 58.93283582089552,
      "grad_norm": 0.0,
      "learning_rate": 2.1953266414871316e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7839
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.75,
      "epoch": 58.940298507462686,
      "grad_norm": 0.0,
      "learning_rate": 2.194680263834632e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7840
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.19444465637207,
      "epoch": 58.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 2.194033906900713e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7841
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.19444465637207,
      "epoch": 58.95522388059702,
      "grad_norm": 0.0,
      "learning_rate": 2.1933875707292363e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7842
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.33333396911621,
      "epoch": 58.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 2.1927412553640605e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7843
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.5,
      "epoch": 58.97014925373134,
      "grad_norm": 0.0,
      "learning_rate": 2.1920949608490443e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7844
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.08333396911621,
      "epoch": 58.97761194029851,
      "grad_norm": 0.0,
      "learning_rate": 2.191448687228045e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7845
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.25,
      "epoch": 58.985074626865675,
      "grad_norm": 0.0,
      "learning_rate": 2.1908024345449155e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7846
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.33333396911621,
      "epoch": 58.992537313432834,
      "grad_norm": 0.0,
      "learning_rate": 2.1901562028435122e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7847
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.27777862548828,
      "epoch": 59.007462686567166,
      "grad_norm": 0.0,
      "learning_rate": 2.1895099921676855e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7848
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.08333396911621,
      "epoch": 59.014925373134325,
      "grad_norm": 0.0,
      "learning_rate": 2.1888638025612873e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7849
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.80555534362793,
      "epoch": 59.02238805970149,
      "grad_norm": 0.0,
      "learning_rate": 2.1882176340681678e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7850
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.36111068725586,
      "epoch": 59.02985074626866,
      "grad_norm": 0.0,
      "learning_rate": 2.187571486732175e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7851
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.72222328186035,
      "epoch": 59.03731343283582,
      "grad_norm": 134.7363813736043,
      "learning_rate": 2.186925360597154e-07,
      "loss": -0.0282,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 7852
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 22.55555534362793,
      "epoch": 59.04477611940298,
      "grad_norm": 0.0,
      "learning_rate": 2.1862792557069515e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7853
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.11111068725586,
      "epoch": 59.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 2.1856331721054106e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7854
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.66666603088379,
      "epoch": 59.059701492537314,
      "grad_norm": 0.0,
      "learning_rate": 2.184987109836374e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7855
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.47222328186035,
      "epoch": 59.06716417910448,
      "grad_norm": 0.0,
      "learning_rate": 2.1843410689436822e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7856
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.58333396911621,
      "epoch": 59.07462686567164,
      "grad_norm": 0.0,
      "learning_rate": 2.1836950494711756e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7857
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.0,
      "epoch": 59.082089552238806,
      "grad_norm": 0.0,
      "learning_rate": 2.183049051462692e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7858
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.16666603088379,
      "epoch": 59.08955223880597,
      "grad_norm": 0.0,
      "learning_rate": 2.1824030749620665e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7859
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.25,
      "epoch": 59.09701492537314,
      "grad_norm": 0.0,
      "learning_rate": 2.1817571200131358e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7860
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.77777862548828,
      "epoch": 59.1044776119403,
      "grad_norm": 0.0,
      "learning_rate": 2.1811111866597324e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7861
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.88888931274414,
      "epoch": 59.11194029850746,
      "grad_norm": 0.0,
      "learning_rate": 2.1804652749456893e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7862
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.08333396911621,
      "epoch": 59.11940298507463,
      "grad_norm": 0.0,
      "learning_rate": 2.1798193849148365e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7863
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.05555534362793,
      "epoch": 59.12686567164179,
      "grad_norm": 0.0,
      "learning_rate": 2.1791735166110044e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7864
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.5,
      "epoch": 59.134328358208954,
      "grad_norm": 0.0,
      "learning_rate": 2.17852767007802e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7865
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.61111068725586,
      "epoch": 59.14179104477612,
      "grad_norm": 0.0,
      "learning_rate": 2.1778818453597087e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7866
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.52777862548828,
      "epoch": 59.149253731343286,
      "grad_norm": 0.0,
      "learning_rate": 2.1772360424998964e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7867
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.22222328186035,
      "epoch": 59.156716417910445,
      "grad_norm": 0.0,
      "learning_rate": 2.1765902615424056e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7868
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.44444465637207,
      "epoch": 59.16417910447761,
      "grad_norm": 0.0,
      "learning_rate": 2.175944502531059e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 7869
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.22222328186035,
      "epoch": 59.17164179104478,
      "grad_norm": 0.0,
      "learning_rate": 2.1752987655096763e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7870
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.11111068725586,
      "epoch": 59.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 2.174653050522077e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7871
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.02777862548828,
      "epoch": 59.1865671641791,
      "grad_norm": 0.0,
      "learning_rate": 2.1740073576120788e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7872
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.63888931274414,
      "epoch": 59.19402985074627,
      "grad_norm": 0.0,
      "learning_rate": 2.1733616868234953e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7873
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.66666603088379,
      "epoch": 59.201492537313435,
      "grad_norm": 0.0,
      "learning_rate": 2.1727160382001427e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7874
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.19444465637207,
      "epoch": 59.208955223880594,
      "grad_norm": 0.0,
      "learning_rate": 2.1720704117858333e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7875
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.80555534362793,
      "epoch": 59.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 2.1714248076243785e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7876
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.58333396911621,
      "epoch": 59.223880597014926,
      "grad_norm": 0.0,
      "learning_rate": 2.170779225759588e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7877
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.13888931274414,
      "epoch": 59.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 2.1701336662352704e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7878
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.47222328186035,
      "epoch": 59.23880597014925,
      "grad_norm": 0.0,
      "learning_rate": 2.1694881290952338e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7879
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.83333396911621,
      "epoch": 59.24626865671642,
      "grad_norm": 0.0,
      "learning_rate": 2.1688426143832803e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7880
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.25,
      "epoch": 59.25373134328358,
      "grad_norm": 0.0,
      "learning_rate": 2.1681971221432154e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7881
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.94444465637207,
      "epoch": 59.26119402985075,
      "grad_norm": 0.0,
      "learning_rate": 2.167551652418842e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7882
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.58333396911621,
      "epoch": 59.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 2.1669062052539594e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7883
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.75,
      "epoch": 59.276119402985074,
      "grad_norm": 0.0,
      "learning_rate": 2.166260780692368e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7884
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.30555534362793,
      "epoch": 59.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 2.165615378777864e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7885
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.69444465637207,
      "epoch": 59.291044776119406,
      "grad_norm": 0.0,
      "learning_rate": 2.164969999554246e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7886
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.05555534362793,
      "epoch": 59.298507462686565,
      "grad_norm": 0.0,
      "learning_rate": 2.1643246430653061e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7887
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.80555534362793,
      "epoch": 59.30597014925373,
      "grad_norm": 0.0,
      "learning_rate": 2.163679309354838e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7888
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.11111068725586,
      "epoch": 59.3134328358209,
      "grad_norm": 0.0,
      "learning_rate": 2.1630339984666334e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7889
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.25,
      "epoch": 59.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 2.1623887104444815e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7890
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.19444465637207,
      "epoch": 59.32835820895522,
      "grad_norm": 0.0,
      "learning_rate": 2.1617434453321724e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7891
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.22222328186035,
      "epoch": 59.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 2.161098203173492e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7892
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.30555534362793,
      "epoch": 59.343283582089555,
      "grad_norm": 0.0,
      "learning_rate": 2.160452984012224e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7893
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.80555534362793,
      "epoch": 59.350746268656714,
      "grad_norm": 0.0,
      "learning_rate": 2.1598077878921545e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7894
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.16666603088379,
      "epoch": 59.35820895522388,
      "grad_norm": 0.0,
      "learning_rate": 2.1591626148570635e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7895
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.86111068725586,
      "epoch": 59.365671641791046,
      "grad_norm": 0.0,
      "learning_rate": 2.1585174649507336e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7896
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.02777862548828,
      "epoch": 59.37313432835821,
      "grad_norm": 0.0,
      "learning_rate": 2.1578723382169422e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7897
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.86111068725586,
      "epoch": 59.38059701492537,
      "grad_norm": 0.0,
      "learning_rate": 2.1572272346994678e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7898
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.88888931274414,
      "epoch": 59.38805970149254,
      "grad_norm": 3.8961041409829695,
      "learning_rate": 2.1565821544420864e-07,
      "loss": 0.0113,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 7899
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.05555534362793,
      "epoch": 59.3955223880597,
      "grad_norm": 0.0,
      "learning_rate": 2.1559370974885703e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7900
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.19444465637207,
      "epoch": 59.40298507462686,
      "grad_norm": 0.0,
      "learning_rate": 2.1552920638826942e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7901
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.16666603088379,
      "epoch": 59.41044776119403,
      "grad_norm": 0.0,
      "learning_rate": 2.1546470536682286e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7902
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.94444465637207,
      "epoch": 59.417910447761194,
      "grad_norm": 0.0,
      "learning_rate": 2.1540020668889427e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7903
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.55555534362793,
      "epoch": 59.42537313432836,
      "grad_norm": 0.0,
      "learning_rate": 2.1533571035886043e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7904
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.47222328186035,
      "epoch": 59.43283582089552,
      "grad_norm": 0.0,
      "learning_rate": 2.152712163810981e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7905
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.33333396911621,
      "epoch": 59.440298507462686,
      "grad_norm": 0.0,
      "learning_rate": 2.152067247599837e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7906
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.88888931274414,
      "epoch": 59.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 2.1514223549989342e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7907
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.55555534362793,
      "epoch": 59.45522388059702,
      "grad_norm": 0.0,
      "learning_rate": 2.1507774860520348e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7908
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.44444465637207,
      "epoch": 59.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 2.1501326408028993e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7909
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.13888931274414,
      "epoch": 59.47014925373134,
      "grad_norm": 0.0,
      "learning_rate": 2.1494878192952853e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7910
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.58333396911621,
      "epoch": 59.47761194029851,
      "grad_norm": 0.0,
      "learning_rate": 2.1488430215729507e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7911
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.30555534362793,
      "epoch": 59.485074626865675,
      "grad_norm": 0.0,
      "learning_rate": 2.1481982476796487e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7912
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.66666603088379,
      "epoch": 59.492537313432834,
      "grad_norm": 0.0,
      "learning_rate": 2.1475534976591352e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7913
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.22222328186035,
      "epoch": 59.5,
      "grad_norm": 0.0,
      "learning_rate": 2.1469087715551602e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7914
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.88888931274414,
      "epoch": 59.507462686567166,
      "grad_norm": 0.0,
      "learning_rate": 2.1462640694114736e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7915
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.33333396911621,
      "epoch": 59.514925373134325,
      "grad_norm": 0.0,
      "learning_rate": 2.1456193912718256e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7916
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.86111068725586,
      "epoch": 59.52238805970149,
      "grad_norm": 0.0,
      "learning_rate": 2.144974737179962e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7917
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.58333396911621,
      "epoch": 59.52985074626866,
      "grad_norm": 0.0,
      "learning_rate": 2.1443301071796287e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7918
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.58333396911621,
      "epoch": 59.53731343283582,
      "grad_norm": 44.31809251688957,
      "learning_rate": 2.143685501314569e-07,
      "loss": 0.0063,
      "reward": 1.9444444179534912,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.944444477558136,
      "rewards/format_reward": 1.0,
      "step": 7919
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.94444465637207,
      "epoch": 59.54477611940298,
      "grad_norm": 0.0,
      "learning_rate": 2.1430409196285266e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7920
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.94444465637207,
      "epoch": 59.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 2.1423963621652396e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7921
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.83333396911621,
      "epoch": 59.559701492537314,
      "grad_norm": 0.0,
      "learning_rate": 2.1417518289684475e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7922
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.97222328186035,
      "epoch": 59.56716417910448,
      "grad_norm": 0.0,
      "learning_rate": 2.141107320081888e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7923
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.13888931274414,
      "epoch": 59.57462686567164,
      "grad_norm": 0.0,
      "learning_rate": 2.140462835549296e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7924
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.27777862548828,
      "epoch": 59.582089552238806,
      "grad_norm": 0.0,
      "learning_rate": 2.1398183754144062e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7925
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.36111068725586,
      "epoch": 59.58955223880597,
      "grad_norm": 0.0,
      "learning_rate": 2.1391739397209508e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7926
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.75,
      "epoch": 59.59701492537313,
      "grad_norm": 0.0,
      "learning_rate": 2.1385295285126588e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7927
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.88888931274414,
      "epoch": 59.6044776119403,
      "grad_norm": 0.0,
      "learning_rate": 2.13788514183326e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7928
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.08333396911621,
      "epoch": 59.61194029850746,
      "grad_norm": 0.0,
      "learning_rate": 2.1372407797264815e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7929
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.61111068725586,
      "epoch": 59.61940298507463,
      "grad_norm": 0.0,
      "learning_rate": 2.1365964422360495e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7930
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.27777862548828,
      "epoch": 59.62686567164179,
      "grad_norm": 0.0,
      "learning_rate": 2.1359521294056868e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7931
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.91666603088379,
      "epoch": 59.634328358208954,
      "grad_norm": 0.0,
      "learning_rate": 2.1353078412791168e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7932
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.27777862548828,
      "epoch": 59.64179104477612,
      "grad_norm": 0.0,
      "learning_rate": 2.1346635779000596e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7933
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.27777862548828,
      "epoch": 59.649253731343286,
      "grad_norm": 0.0,
      "learning_rate": 2.134019339312233e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7934
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.19444465637207,
      "epoch": 59.656716417910445,
      "grad_norm": 0.0,
      "learning_rate": 2.1333751255593552e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7935
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.5,
      "epoch": 59.66417910447761,
      "grad_norm": 0.0,
      "learning_rate": 2.1327309366851408e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7936
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.27777862548828,
      "epoch": 59.67164179104478,
      "grad_norm": 0.0,
      "learning_rate": 2.1320867727333042e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7937
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.61111068725586,
      "epoch": 59.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 2.1314426337475582e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7938
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.75,
      "epoch": 59.6865671641791,
      "grad_norm": 0.0,
      "learning_rate": 2.1307985197716118e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 7939
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.02777862548828,
      "epoch": 59.69402985074627,
      "grad_norm": 0.0,
      "learning_rate": 2.1301544308491754e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7940
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.63888931274414,
      "epoch": 59.701492537313435,
      "grad_norm": 0.0,
      "learning_rate": 2.1295103670239544e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7941
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.30555534362793,
      "epoch": 59.708955223880594,
      "grad_norm": 0.0,
      "learning_rate": 2.128866328339654e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7942
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.5,
      "epoch": 59.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 2.1282223148399792e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7943
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.33333396911621,
      "epoch": 59.723880597014926,
      "grad_norm": 0.0,
      "learning_rate": 2.1275783265686304e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7944
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.72222328186035,
      "epoch": 59.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 2.126934363569309e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7945
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.13888931274414,
      "epoch": 59.73880597014925,
      "grad_norm": 0.0,
      "learning_rate": 2.1262904258857126e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7946
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.27777862548828,
      "epoch": 59.74626865671642,
      "grad_norm": 0.0,
      "learning_rate": 2.1256465135615393e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7947
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.69444465637207,
      "epoch": 59.75373134328358,
      "grad_norm": 0.0,
      "learning_rate": 2.125002626640482e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7948
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.27777862548828,
      "epoch": 59.76119402985075,
      "grad_norm": 0.0,
      "learning_rate": 2.124358765166235e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7949
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.38888931274414,
      "epoch": 59.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 2.1237149291824902e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7950
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 22.83333396911621,
      "epoch": 59.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 2.123071118732937e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7951
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.69444465637207,
      "epoch": 59.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 2.1224273338612636e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7952
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.41666603088379,
      "epoch": 59.791044776119406,
      "grad_norm": 0.0,
      "learning_rate": 2.121783574611156e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7953
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.94444465637207,
      "epoch": 59.798507462686565,
      "grad_norm": 0.0,
      "learning_rate": 2.121139841026301e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7954
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.83333396911621,
      "epoch": 59.80597014925373,
      "grad_norm": 0.0,
      "learning_rate": 2.1204961331503783e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7955
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.08333396911621,
      "epoch": 59.8134328358209,
      "grad_norm": 0.0,
      "learning_rate": 2.1198524510270705e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7956
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.72222328186035,
      "epoch": 59.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 2.1192087947000574e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7957
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.33333396911621,
      "epoch": 59.82835820895522,
      "grad_norm": 0.0,
      "learning_rate": 2.1185651642130154e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7958
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.83333396911621,
      "epoch": 59.83582089552239,
      "grad_norm": 0.0,
      "learning_rate": 2.1179215596096216e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7959
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.47222328186035,
      "epoch": 59.843283582089555,
      "grad_norm": 0.0,
      "learning_rate": 2.1172779809335495e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7960
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.33333396911621,
      "epoch": 59.850746268656714,
      "grad_norm": 0.0,
      "learning_rate": 2.1166344282284727e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7961
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.88888931274414,
      "epoch": 59.85820895522388,
      "grad_norm": 0.0,
      "learning_rate": 2.11599090153806e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7962
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.58333396911621,
      "epoch": 59.865671641791046,
      "grad_norm": 0.0,
      "learning_rate": 2.1153474009059807e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7963
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.55555534362793,
      "epoch": 59.87313432835821,
      "grad_norm": 0.0,
      "learning_rate": 2.1147039263759025e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7964
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.36111068725586,
      "epoch": 59.88059701492537,
      "grad_norm": 0.0,
      "learning_rate": 2.11406047799149e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7965
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.22222328186035,
      "epoch": 59.88805970149254,
      "grad_norm": 0.0,
      "learning_rate": 2.1134170557964072e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7966
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.63888931274414,
      "epoch": 59.8955223880597,
      "grad_norm": 0.0,
      "learning_rate": 2.1127736598343174e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7967
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.44444465637207,
      "epoch": 59.90298507462687,
      "grad_norm": 0.0,
      "learning_rate": 2.1121302901488774e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 7968
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.33333396911621,
      "epoch": 59.91044776119403,
      "grad_norm": 0.0,
      "learning_rate": 2.1114869467837467e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7969
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.86111068725586,
      "epoch": 59.917910447761194,
      "grad_norm": 0.0,
      "learning_rate": 2.1108436297825826e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7970
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.75,
      "epoch": 59.92537313432836,
      "grad_norm": 0.0,
      "learning_rate": 2.1102003391890388e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7971
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.44444465637207,
      "epoch": 59.93283582089552,
      "grad_norm": 0.0,
      "learning_rate": 2.1095570750467686e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7972
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.75,
      "epoch": 59.940298507462686,
      "grad_norm": 0.0,
      "learning_rate": 2.1089138373994222e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7973
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.66666603088379,
      "epoch": 59.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 2.1082706262906508e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7974
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.44444465637207,
      "epoch": 59.95522388059702,
      "grad_norm": 0.0,
      "learning_rate": 2.1076274417640998e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7975
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.83333396911621,
      "epoch": 59.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 2.106984283863415e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 7976
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.05555534362793,
      "epoch": 59.97014925373134,
      "grad_norm": 0.0,
      "learning_rate": 2.1063411526322414e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7977
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.30555534362793,
      "epoch": 59.97761194029851,
      "grad_norm": 0.0,
      "learning_rate": 2.1056980481142195e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7978
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.69444465637207,
      "epoch": 59.985074626865675,
      "grad_norm": 0.0,
      "learning_rate": 2.105054970352991e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7979
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.75,
      "epoch": 59.992537313432834,
      "grad_norm": 0.0,
      "learning_rate": 2.104411919392193e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7980
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.52777862548828,
      "epoch": 60.007462686567166,
      "grad_norm": 0.0,
      "learning_rate": 2.1037688952754639e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7981
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.0,
      "epoch": 60.014925373134325,
      "grad_norm": 0.0,
      "learning_rate": 2.1031258980464366e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7982
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.91666603088379,
      "epoch": 60.02238805970149,
      "grad_norm": 0.0,
      "learning_rate": 2.1024829277487441e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7983
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.19444465637207,
      "epoch": 60.02985074626866,
      "grad_norm": 0.0,
      "learning_rate": 2.1018399844260184e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7984
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.05555534362793,
      "epoch": 60.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 2.101197068121888e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7985
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.55555534362793,
      "epoch": 60.04477611940298,
      "grad_norm": 0.0,
      "learning_rate": 2.100554178879981e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7986
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.0,
      "epoch": 60.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 2.0999113167439222e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7987
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.66666603088379,
      "epoch": 60.059701492537314,
      "grad_norm": 0.0,
      "learning_rate": 2.099268481757337e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 7988
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.05555534362793,
      "epoch": 60.06716417910448,
      "grad_norm": 0.0,
      "learning_rate": 2.0986256739638455e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7989
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.25,
      "epoch": 60.07462686567164,
      "grad_norm": 0.0,
      "learning_rate": 2.0979828934070677e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7990
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.16666603088379,
      "epoch": 60.082089552238806,
      "grad_norm": 0.0,
      "learning_rate": 2.0973401401306235e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7991
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.91666603088379,
      "epoch": 60.08955223880597,
      "grad_norm": 0.0,
      "learning_rate": 2.0966974141781275e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7992
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.25,
      "epoch": 60.09701492537314,
      "grad_norm": 0.0,
      "learning_rate": 2.0960547155931954e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7993
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.52777862548828,
      "epoch": 60.1044776119403,
      "grad_norm": 0.0,
      "learning_rate": 2.095412044419439e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7994
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.33333396911621,
      "epoch": 60.11194029850746,
      "grad_norm": 0.0,
      "learning_rate": 2.0947694007004704e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7995
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.80555534362793,
      "epoch": 60.11940298507463,
      "grad_norm": 0.0,
      "learning_rate": 2.094126784479897e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7996
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.11111068725586,
      "epoch": 60.12686567164179,
      "grad_norm": 0.0,
      "learning_rate": 2.0934841958013264e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7997
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.05555534362793,
      "epoch": 60.134328358208954,
      "grad_norm": 0.0,
      "learning_rate": 2.0928416347083636e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 7998
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.91666603088379,
      "epoch": 60.14179104477612,
      "grad_norm": 0.0,
      "learning_rate": 2.0921991012446128e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 7999
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.16666603088379,
      "epoch": 60.149253731343286,
      "grad_norm": 0.0,
      "learning_rate": 2.091556595453674e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8000
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.97222328186035,
      "epoch": 60.156716417910445,
      "grad_norm": 0.0,
      "learning_rate": 2.090914117379149e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8001
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.5,
      "epoch": 60.16417910447761,
      "grad_norm": 0.0,
      "learning_rate": 2.0902716670646336e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8002
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.33333396911621,
      "epoch": 60.17164179104478,
      "grad_norm": 0.0,
      "learning_rate": 2.0896292445537233e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8003
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.55555534362793,
      "epoch": 60.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 2.0889868498900138e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8004
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.69444465637207,
      "epoch": 60.1865671641791,
      "grad_norm": 0.0,
      "learning_rate": 2.0883444831170951e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8005
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.25,
      "epoch": 60.19402985074627,
      "grad_norm": 0.0,
      "learning_rate": 2.0877021442785592e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8006
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.86111068725586,
      "epoch": 60.201492537313435,
      "grad_norm": 0.0,
      "learning_rate": 2.087059833417993e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8007
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.94444465637207,
      "epoch": 60.208955223880594,
      "grad_norm": 0.0,
      "learning_rate": 2.0864175505789844e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8008
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.27777862548828,
      "epoch": 60.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 2.085775295805116e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 8009
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.61111068725586,
      "epoch": 60.223880597014926,
      "grad_norm": 0.0,
      "learning_rate": 2.085133069139971e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8010
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.02777862548828,
      "epoch": 60.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 2.0844908706271304e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8011
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.19444465637207,
      "epoch": 60.23880597014925,
      "grad_norm": 0.0,
      "learning_rate": 2.0838487003101724e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8012
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.02777862548828,
      "epoch": 60.24626865671642,
      "grad_norm": 0.0,
      "learning_rate": 2.0832065582326742e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8013
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.52777862548828,
      "epoch": 60.25373134328358,
      "grad_norm": 0.0,
      "learning_rate": 2.0825644444382102e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8014
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.02777862548828,
      "epoch": 60.26119402985075,
      "grad_norm": 0.0,
      "learning_rate": 2.081922358970355e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8015
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 22.55555534362793,
      "epoch": 60.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 2.0812803018726773e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8016
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.0,
      "epoch": 60.276119402985074,
      "grad_norm": 0.0,
      "learning_rate": 2.0806382731887472e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8017
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.66666603088379,
      "epoch": 60.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 2.0799962729621323e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8018
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.88888931274414,
      "epoch": 60.291044776119406,
      "grad_norm": 0.0,
      "learning_rate": 2.079354301236397e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8019
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.08333396911621,
      "epoch": 60.298507462686565,
      "grad_norm": 0.0,
      "learning_rate": 2.0787123580551057e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8020
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.38888931274414,
      "epoch": 60.30597014925373,
      "grad_norm": 0.0,
      "learning_rate": 2.078070443461819e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8021
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.30555534362793,
      "epoch": 60.3134328358209,
      "grad_norm": 0.0,
      "learning_rate": 2.0774285575000976e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8022
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.02777862548828,
      "epoch": 60.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 2.076786700213497e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8023
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.25,
      "epoch": 60.32835820895522,
      "grad_norm": 0.0,
      "learning_rate": 2.0761448716455737e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8024
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.22222328186035,
      "epoch": 60.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 2.0755030718398816e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8025
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.13888931274414,
      "epoch": 60.343283582089555,
      "grad_norm": 0.0,
      "learning_rate": 2.074861300839972e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8026
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.86111068725586,
      "epoch": 60.350746268656714,
      "grad_norm": 0.0,
      "learning_rate": 2.0742195586893943e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8027
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.75,
      "epoch": 60.35820895522388,
      "grad_norm": 0.0,
      "learning_rate": 2.0735778454316973e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8028
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.86111068725586,
      "epoch": 60.365671641791046,
      "grad_norm": 0.0,
      "learning_rate": 2.0729361611104267e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8029
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.97222328186035,
      "epoch": 60.37313432835821,
      "grad_norm": 0.0,
      "learning_rate": 2.072294505769125e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8030
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.44444465637207,
      "epoch": 60.38059701492537,
      "grad_norm": 0.0,
      "learning_rate": 2.0716528794513352e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8031
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.91666603088379,
      "epoch": 60.38805970149254,
      "grad_norm": 0.0,
      "learning_rate": 2.0710112822005962e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8032
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.22222328186035,
      "epoch": 60.3955223880597,
      "grad_norm": 0.0,
      "learning_rate": 2.0703697140604473e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8033
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.72222328186035,
      "epoch": 60.40298507462686,
      "grad_norm": 0.0,
      "learning_rate": 2.069728175074423e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8034
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.69444465637207,
      "epoch": 60.41044776119403,
      "grad_norm": 0.0,
      "learning_rate": 2.0690866652860584e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8035
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.77777862548828,
      "epoch": 60.417910447761194,
      "grad_norm": 0.0,
      "learning_rate": 2.068445184738886e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8036
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.27777862548828,
      "epoch": 60.42537313432836,
      "grad_norm": 0.0,
      "learning_rate": 2.0678037334764332e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8037
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.47222328186035,
      "epoch": 60.43283582089552,
      "grad_norm": 0.0,
      "learning_rate": 2.0671623115422305e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8038
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.5,
      "epoch": 60.440298507462686,
      "grad_norm": 0.0,
      "learning_rate": 2.0665209189798023e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8039
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.36111068725586,
      "epoch": 60.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 2.065879555832674e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8040
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.33333396911621,
      "epoch": 60.45522388059702,
      "grad_norm": 0.0,
      "learning_rate": 2.0652382221443665e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8041
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.38888931274414,
      "epoch": 60.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 2.0645969179584016e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8042
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.08333396911621,
      "epoch": 60.47014925373134,
      "grad_norm": 0.0,
      "learning_rate": 2.0639556433182952e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8043
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.36111068725586,
      "epoch": 60.47761194029851,
      "grad_norm": 0.0,
      "learning_rate": 2.0633143982675638e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8044
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.77777862548828,
      "epoch": 60.485074626865675,
      "grad_norm": 0.0,
      "learning_rate": 2.0626731828497224e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8045
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.66666603088379,
      "epoch": 60.492537313432834,
      "grad_norm": 0.0,
      "learning_rate": 2.0620319971082816e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8046
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.33333396911621,
      "epoch": 60.5,
      "grad_norm": 0.0,
      "learning_rate": 2.061390841086753e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8047
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.25,
      "epoch": 60.507462686567166,
      "grad_norm": 0.0,
      "learning_rate": 2.060749714828643e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8048
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.02777862548828,
      "epoch": 60.514925373134325,
      "grad_norm": 0.0,
      "learning_rate": 2.0601086183774598e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8049
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.30555534362793,
      "epoch": 60.52238805970149,
      "grad_norm": 0.0,
      "learning_rate": 2.0594675517767048e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8050
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.22222328186035,
      "epoch": 60.52985074626866,
      "grad_norm": 0.0,
      "learning_rate": 2.0588265150698807e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8051
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.88888931274414,
      "epoch": 60.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 2.0581855083004883e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8052
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.91666603088379,
      "epoch": 60.54477611940298,
      "grad_norm": 0.0,
      "learning_rate": 2.057544531512024e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8053
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.11111068725586,
      "epoch": 60.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 2.0569035847479848e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8054
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.66666603088379,
      "epoch": 60.559701492537314,
      "grad_norm": 0.0,
      "learning_rate": 2.0562626680518637e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8055
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.13888931274414,
      "epoch": 60.56716417910448,
      "grad_norm": 0.0,
      "learning_rate": 2.0556217814671543e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8056
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.02777862548828,
      "epoch": 60.57462686567164,
      "grad_norm": 0.0,
      "learning_rate": 2.0549809250373438e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8057
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.0,
      "epoch": 60.582089552238806,
      "grad_norm": 0.0,
      "learning_rate": 2.0543400988059201e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8058
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.77777862548828,
      "epoch": 60.58955223880597,
      "grad_norm": 0.0,
      "learning_rate": 2.0536993028163698e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8059
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.11111068725586,
      "epoch": 60.59701492537313,
      "grad_norm": 0.0,
      "learning_rate": 2.0530585371121767e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8060
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.94444465637207,
      "epoch": 60.6044776119403,
      "grad_norm": 0.0,
      "learning_rate": 2.052417801736821e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8061
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.36111068725586,
      "epoch": 60.61194029850746,
      "grad_norm": 0.0,
      "learning_rate": 2.0517770967337834e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8062
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.41666603088379,
      "epoch": 60.61940298507463,
      "grad_norm": 0.0,
      "learning_rate": 2.0511364221465415e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8063
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.22222328186035,
      "epoch": 60.62686567164179,
      "grad_norm": 0.0,
      "learning_rate": 2.050495778018569e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8064
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.88888931274414,
      "epoch": 60.634328358208954,
      "grad_norm": 0.0,
      "learning_rate": 2.0498551643933402e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8065
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.55555534362793,
      "epoch": 60.64179104477612,
      "grad_norm": 0.0,
      "learning_rate": 2.0492145813143255e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8066
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.80555534362793,
      "epoch": 60.649253731343286,
      "grad_norm": 0.0,
      "learning_rate": 2.048574028824995e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8067
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.33333396911621,
      "epoch": 60.656716417910445,
      "grad_norm": 0.0,
      "learning_rate": 2.047933506968815e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8068
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.77777862548828,
      "epoch": 60.66417910447761,
      "grad_norm": 0.0,
      "learning_rate": 2.047293015789251e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8069
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.0,
      "epoch": 60.67164179104478,
      "grad_norm": 0.0,
      "learning_rate": 2.0466525553297665e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8070
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.22222328186035,
      "epoch": 60.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 2.0460121256338196e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8071
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.80555534362793,
      "epoch": 60.6865671641791,
      "grad_norm": 0.0,
      "learning_rate": 2.0453717267448716e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8072
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.83333396911621,
      "epoch": 60.69402985074627,
      "grad_norm": 0.0,
      "learning_rate": 2.044731358706378e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8073
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.58333396911621,
      "epoch": 60.701492537313435,
      "grad_norm": 0.0,
      "learning_rate": 2.0440910215617936e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8074
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.83333396911621,
      "epoch": 60.708955223880594,
      "grad_norm": 0.0,
      "learning_rate": 2.0434507153545705e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8075
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.25,
      "epoch": 60.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 2.0428104401281595e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8076
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.38888931274414,
      "epoch": 60.723880597014926,
      "grad_norm": 0.0,
      "learning_rate": 2.0421701959260092e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8077
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.36111068725586,
      "epoch": 60.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 2.041529982791564e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8078
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.83333396911621,
      "epoch": 60.73880597014925,
      "grad_norm": 0.0,
      "learning_rate": 2.0408898007682695e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8079
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.02777862548828,
      "epoch": 60.74626865671642,
      "grad_norm": 0.0,
      "learning_rate": 2.0402496498995663e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8080
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.27777862548828,
      "epoch": 60.75373134328358,
      "grad_norm": 0.0,
      "learning_rate": 2.0396095302288955e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8081
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.47222328186035,
      "epoch": 60.76119402985075,
      "grad_norm": 0.0,
      "learning_rate": 2.0389694417996935e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8082
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.58333396911621,
      "epoch": 60.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 2.0383293846553975e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8083
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.69444465637207,
      "epoch": 60.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 2.0376893588394395e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8084
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.05555534362793,
      "epoch": 60.78358208955224,
      "grad_norm": 9.743978176741798,
      "learning_rate": 2.0370493643952504e-07,
      "loss": 0.0139,
      "reward": 1.9166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 8085
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.69444465637207,
      "epoch": 60.791044776119406,
      "grad_norm": 0.0,
      "learning_rate": 2.0364094013662608e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8086
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.11111068725586,
      "epoch": 60.798507462686565,
      "grad_norm": 0.0,
      "learning_rate": 2.0357694697958962e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8087
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.83333396911621,
      "epoch": 60.80597014925373,
      "grad_norm": 0.0,
      "learning_rate": 2.0351295697275824e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8088
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.27777862548828,
      "epoch": 60.8134328358209,
      "grad_norm": 0.0,
      "learning_rate": 2.0344897012047427e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8089
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.05555534362793,
      "epoch": 60.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 2.0338498642707975e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8090
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.69444465637207,
      "epoch": 60.82835820895522,
      "grad_norm": 0.0,
      "learning_rate": 2.0332100589691637e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8091
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.94444465637207,
      "epoch": 60.83582089552239,
      "grad_norm": 0.0,
      "learning_rate": 2.032570285343259e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8092
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.19444465637207,
      "epoch": 60.843283582089555,
      "grad_norm": 0.0,
      "learning_rate": 2.0319305434364973e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 8093
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.77777862548828,
      "epoch": 60.850746268656714,
      "grad_norm": 0.0,
      "learning_rate": 2.0312908332922906e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8094
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.72222328186035,
      "epoch": 60.85820895522388,
      "grad_norm": 0.0,
      "learning_rate": 2.0306511549540484e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8095
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 22.97222328186035,
      "epoch": 60.865671641791046,
      "grad_norm": 0.0,
      "learning_rate": 2.0300115084651792e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8096
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.61111068725586,
      "epoch": 60.87313432835821,
      "grad_norm": 0.0,
      "learning_rate": 2.0293718938690888e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8097
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.91666603088379,
      "epoch": 60.88059701492537,
      "grad_norm": 0.0,
      "learning_rate": 2.0287323112091785e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8098
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.5,
      "epoch": 60.88805970149254,
      "grad_norm": 0.0,
      "learning_rate": 2.0280927605288516e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8099
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.05555534362793,
      "epoch": 60.8955223880597,
      "grad_norm": 0.0,
      "learning_rate": 2.027453241871506e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8100
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.16666603088379,
      "epoch": 60.90298507462687,
      "grad_norm": 0.0,
      "learning_rate": 2.0268137552805392e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8101
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.11111068725586,
      "epoch": 60.91044776119403,
      "grad_norm": 0.0,
      "learning_rate": 2.0261743007993454e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8102
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.61111068725586,
      "epoch": 60.917910447761194,
      "grad_norm": 0.0,
      "learning_rate": 2.0255348784713178e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8103
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.16666603088379,
      "epoch": 60.92537313432836,
      "grad_norm": 0.0,
      "learning_rate": 2.0248954883398468e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8104
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.91666603088379,
      "epoch": 60.93283582089552,
      "grad_norm": 0.0,
      "learning_rate": 2.0242561304483188e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8105
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.88888931274414,
      "epoch": 60.940298507462686,
      "grad_norm": 0.0,
      "learning_rate": 2.0236168048401218e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8106
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.19444465637207,
      "epoch": 60.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 2.0229775115586378e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8107
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.55555534362793,
      "epoch": 60.95522388059702,
      "grad_norm": 0.0,
      "learning_rate": 2.0223382506472503e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8108
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.05555534362793,
      "epoch": 60.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 2.021699022149337e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8109
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.55555534362793,
      "epoch": 60.97014925373134,
      "grad_norm": 0.0,
      "learning_rate": 2.0210598261082763e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8110
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.94444465637207,
      "epoch": 60.97761194029851,
      "grad_norm": 0.0,
      "learning_rate": 2.020420662567443e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8111
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.02777862548828,
      "epoch": 60.985074626865675,
      "grad_norm": 0.0,
      "learning_rate": 2.0197815315702089e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8112
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.75,
      "epoch": 60.992537313432834,
      "grad_norm": 0.0,
      "learning_rate": 2.019142433159945e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8113
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.55555534362793,
      "epoch": 61.007462686567166,
      "grad_norm": 0.0,
      "learning_rate": 2.0185033673800197e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8114
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.02777862548828,
      "epoch": 61.014925373134325,
      "grad_norm": 0.0,
      "learning_rate": 2.0178643342738e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8115
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.80555534362793,
      "epoch": 61.02238805970149,
      "grad_norm": 0.0,
      "learning_rate": 2.017225333884648e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8116
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.94444465637207,
      "epoch": 61.02985074626866,
      "grad_norm": 0.0,
      "learning_rate": 2.016586366255928e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8117
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.5,
      "epoch": 61.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 2.0159474314309965e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8118
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.69444465637207,
      "epoch": 61.04477611940298,
      "grad_norm": 0.0,
      "learning_rate": 2.015308529453213e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8119
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.61111068725586,
      "epoch": 61.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 2.014669660365931e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8120
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.97222328186035,
      "epoch": 61.059701492537314,
      "grad_norm": 0.0,
      "learning_rate": 2.0140308242125042e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8121
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.16666603088379,
      "epoch": 61.06716417910448,
      "grad_norm": 0.0,
      "learning_rate": 2.0133920210362828e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8122
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.66666603088379,
      "epoch": 61.07462686567164,
      "grad_norm": 0.0,
      "learning_rate": 2.012753250880616e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8123
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.47222328186035,
      "epoch": 61.082089552238806,
      "grad_norm": 0.0,
      "learning_rate": 2.012114513788849e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8124
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.25,
      "epoch": 61.08955223880597,
      "grad_norm": 0.0,
      "learning_rate": 2.011475809804325e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8125
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.0,
      "epoch": 61.09701492537314,
      "grad_norm": 0.0,
      "learning_rate": 2.0108371389703867e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8126
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.63888931274414,
      "epoch": 61.1044776119403,
      "grad_norm": 0.0,
      "learning_rate": 2.0101985013303727e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8127
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.19444465637207,
      "epoch": 61.11194029850746,
      "grad_norm": 0.0,
      "learning_rate": 2.009559896927621e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8128
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.91666603088379,
      "epoch": 61.11940298507463,
      "grad_norm": 0.0,
      "learning_rate": 2.008921325805465e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8129
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.05555534362793,
      "epoch": 61.12686567164179,
      "grad_norm": 0.0,
      "learning_rate": 2.008282788007239e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8130
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.36111068725586,
      "epoch": 61.134328358208954,
      "grad_norm": 0.0,
      "learning_rate": 2.0076442835762726e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8131
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.66666603088379,
      "epoch": 61.14179104477612,
      "grad_norm": 0.0,
      "learning_rate": 2.0070058125558931e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8132
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.83333396911621,
      "epoch": 61.149253731343286,
      "grad_norm": 0.0,
      "learning_rate": 2.006367374989427e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8133
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.91666603088379,
      "epoch": 61.156716417910445,
      "grad_norm": 0.0,
      "learning_rate": 2.005728970920197e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8134
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.77777862548828,
      "epoch": 61.16417910447761,
      "grad_norm": 0.0,
      "learning_rate": 2.0050906003915258e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8135
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.22222328186035,
      "epoch": 61.17164179104478,
      "grad_norm": 0.0,
      "learning_rate": 2.004452263446731e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8136
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.55555534362793,
      "epoch": 61.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 2.00381396012913e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8137
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.0,
      "epoch": 61.1865671641791,
      "grad_norm": 0.0,
      "learning_rate": 2.0031756904820378e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8138
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.86111068725586,
      "epoch": 61.19402985074627,
      "grad_norm": 0.0,
      "learning_rate": 2.0025374545487645e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8139
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.72222328186035,
      "epoch": 61.201492537313435,
      "grad_norm": 0.0,
      "learning_rate": 2.0018992523726215e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8140
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.5,
      "epoch": 61.208955223880594,
      "grad_norm": 0.0,
      "learning_rate": 2.0012610839969158e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8141
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.91666603088379,
      "epoch": 61.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 2.000622949464953e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8142
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.61111068725586,
      "epoch": 61.223880597014926,
      "grad_norm": 0.0,
      "learning_rate": 1.9999848488200352e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8143
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.44444465637207,
      "epoch": 61.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 1.9993467821054644e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8144
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.38888931274414,
      "epoch": 61.23880597014925,
      "grad_norm": 0.0,
      "learning_rate": 1.998708749364539e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8145
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.69444465637207,
      "epoch": 61.24626865671642,
      "grad_norm": 0.0,
      "learning_rate": 1.9980707506405524e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8146
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.19444465637207,
      "epoch": 61.25373134328358,
      "grad_norm": 0.0,
      "learning_rate": 1.997432785976801e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8147
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.11111068725586,
      "epoch": 61.26119402985075,
      "grad_norm": 0.0,
      "learning_rate": 1.9967948554165754e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8148
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.19444465637207,
      "epoch": 61.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 1.996156959003164e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8149
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.77777862548828,
      "epoch": 61.276119402985074,
      "grad_norm": 0.0,
      "learning_rate": 1.995519096779855e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8150
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.5,
      "epoch": 61.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 1.9948812687899314e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8151
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.66666603088379,
      "epoch": 61.291044776119406,
      "grad_norm": 0.0,
      "learning_rate": 1.9942434750766773e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8152
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.05555534362793,
      "epoch": 61.298507462686565,
      "grad_norm": 0.0,
      "learning_rate": 1.9936057156833707e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8153
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.77777862548828,
      "epoch": 61.30597014925373,
      "grad_norm": 0.0,
      "learning_rate": 1.9929679906532892e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8154
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.05555534362793,
      "epoch": 61.3134328358209,
      "grad_norm": 0.0,
      "learning_rate": 1.9923303000297086e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8155
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.61111068725586,
      "epoch": 61.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 1.9916926438559013e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8156
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.38888931274414,
      "epoch": 61.32835820895522,
      "grad_norm": 0.0,
      "learning_rate": 1.9910550221751383e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8157
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.61111068725586,
      "epoch": 61.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 1.9904174350306879e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8158
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.61111068725586,
      "epoch": 61.343283582089555,
      "grad_norm": 0.0,
      "learning_rate": 1.9897798824658146e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8159
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.38888931274414,
      "epoch": 61.350746268656714,
      "grad_norm": 0.0,
      "learning_rate": 1.9891423645237831e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8160
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.33333396911621,
      "epoch": 61.35820895522388,
      "grad_norm": 0.0,
      "learning_rate": 1.9885048812478532e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8161
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.72222328186035,
      "epoch": 61.365671641791046,
      "grad_norm": 0.0,
      "learning_rate": 1.9878674326812856e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8162
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.22222328186035,
      "epoch": 61.37313432835821,
      "grad_norm": 0.0,
      "learning_rate": 1.9872300188673346e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8163
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.5,
      "epoch": 61.38059701492537,
      "grad_norm": 0.0,
      "learning_rate": 1.9865926398492558e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8164
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.75,
      "epoch": 61.38805970149254,
      "grad_norm": 0.0,
      "learning_rate": 1.985955295670301e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8165
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.83333396911621,
      "epoch": 61.3955223880597,
      "grad_norm": 0.0,
      "learning_rate": 1.9853179863737175e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8166
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.5,
      "epoch": 61.40298507462686,
      "grad_norm": 0.0,
      "learning_rate": 1.9846807120027545e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8167
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.97222328186035,
      "epoch": 61.41044776119403,
      "grad_norm": 0.0,
      "learning_rate": 1.9840434726006547e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8168
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.0,
      "epoch": 61.417910447761194,
      "grad_norm": 0.0,
      "learning_rate": 1.9834062682106618e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8169
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.33333396911621,
      "epoch": 61.42537313432836,
      "grad_norm": 0.0,
      "learning_rate": 1.9827690988760147e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8170
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.83333396911621,
      "epoch": 61.43283582089552,
      "grad_norm": 0.0,
      "learning_rate": 1.9821319646399514e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8171
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.19444465637207,
      "epoch": 61.440298507462686,
      "grad_norm": 0.0,
      "learning_rate": 1.9814948655457076e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8172
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.44444465637207,
      "epoch": 61.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 1.9808578016365138e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8173
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.30555534362793,
      "epoch": 61.45522388059702,
      "grad_norm": 0.0,
      "learning_rate": 1.980220772955602e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8174
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.91666603088379,
      "epoch": 61.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 1.9795837795461994e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8175
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.86111068725586,
      "epoch": 61.47014925373134,
      "grad_norm": 0.0,
      "learning_rate": 1.9789468214515317e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8176
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.77777862548828,
      "epoch": 61.47761194029851,
      "grad_norm": 0.0,
      "learning_rate": 1.9783098987148227e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8177
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.30555534362793,
      "epoch": 61.485074626865675,
      "grad_norm": 0.0,
      "learning_rate": 1.9776730113792918e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8178
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.11111068725586,
      "epoch": 61.492537313432834,
      "grad_norm": 0.0,
      "learning_rate": 1.9770361594881593e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8179
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.47222328186035,
      "epoch": 61.5,
      "grad_norm": 0.0,
      "learning_rate": 1.9763993430846392e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8180
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.69444465637207,
      "epoch": 61.507462686567166,
      "grad_norm": 0.0,
      "learning_rate": 1.975762562211945e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8181
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.63888931274414,
      "epoch": 61.514925373134325,
      "grad_norm": 0.0,
      "learning_rate": 1.9751258169132893e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8182
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.61111068725586,
      "epoch": 61.52238805970149,
      "grad_norm": 0.0,
      "learning_rate": 1.974489107231879e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8183
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 22.66666603088379,
      "epoch": 61.52985074626866,
      "grad_norm": 0.0,
      "learning_rate": 1.973852433210922e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8184
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.36111068725586,
      "epoch": 61.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 1.9732157948936204e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8185
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.72222328186035,
      "epoch": 61.54477611940298,
      "grad_norm": 0.0,
      "learning_rate": 1.9725791923231777e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8186
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.33333396911621,
      "epoch": 61.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 1.9719426255427913e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8187
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.0,
      "epoch": 61.559701492537314,
      "grad_norm": 0.0,
      "learning_rate": 1.9713060945956578e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8188
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.08333396911621,
      "epoch": 61.56716417910448,
      "grad_norm": 0.0,
      "learning_rate": 1.970669599524972e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8189
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.22222328186035,
      "epoch": 61.57462686567164,
      "grad_norm": 0.0,
      "learning_rate": 1.970033140373925e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8190
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.5,
      "epoch": 61.582089552238806,
      "grad_norm": 0.0,
      "learning_rate": 1.9693967171857067e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 8191
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.22222328186035,
      "epoch": 61.58955223880597,
      "grad_norm": 0.0,
      "learning_rate": 1.9687603300035042e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 8192
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.52777862548828,
      "epoch": 61.59701492537313,
      "grad_norm": 0.0,
      "learning_rate": 1.9681239788705e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8193
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.47222328186035,
      "epoch": 61.6044776119403,
      "grad_norm": 0.0,
      "learning_rate": 1.9674876638298776e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8194
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.22222328186035,
      "epoch": 61.61194029850746,
      "grad_norm": 0.0,
      "learning_rate": 1.9668513849248162e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8195
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.61111068725586,
      "epoch": 61.61940298507463,
      "grad_norm": 0.0,
      "learning_rate": 1.9662151421984926e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8196
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.55555534362793,
      "epoch": 61.62686567164179,
      "grad_norm": 0.0,
      "learning_rate": 1.9655789356940815e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8197
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.30555534362793,
      "epoch": 61.634328358208954,
      "grad_norm": 0.0,
      "learning_rate": 1.9649427654547551e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8198
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 22.44444465637207,
      "epoch": 61.64179104477612,
      "grad_norm": 0.0,
      "learning_rate": 1.9643066315236835e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8199
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.13888931274414,
      "epoch": 61.649253731343286,
      "grad_norm": 0.0,
      "learning_rate": 1.9636705339440327e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8200
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.52777862548828,
      "epoch": 61.656716417910445,
      "grad_norm": 0.0,
      "learning_rate": 1.963034472758968e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8201
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.88888931274414,
      "epoch": 61.66417910447761,
      "grad_norm": 0.0,
      "learning_rate": 1.9623984480116517e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8202
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.86111068725586,
      "epoch": 61.67164179104478,
      "grad_norm": 0.0,
      "learning_rate": 1.9617624597452436e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8203
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.36111068725586,
      "epoch": 61.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 1.961126508002901e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8204
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.75,
      "epoch": 61.6865671641791,
      "grad_norm": 0.0,
      "learning_rate": 1.960490592827778e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8205
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.36111068725586,
      "epoch": 61.69402985074627,
      "grad_norm": 0.0,
      "learning_rate": 1.9598547142630298e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8206
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.05555534362793,
      "epoch": 61.701492537313435,
      "grad_norm": 0.0,
      "learning_rate": 1.9592188723518022e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8207
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.88888931274414,
      "epoch": 61.708955223880594,
      "grad_norm": 0.0,
      "learning_rate": 1.9585830671372444e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8208
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.72222328186035,
      "epoch": 61.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 1.9579472986625018e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8209
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.13888931274414,
      "epoch": 61.723880597014926,
      "grad_norm": 0.0,
      "learning_rate": 1.9573115669707157e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8210
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.41666603088379,
      "epoch": 61.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 1.9566758721050276e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8211
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.94444465637207,
      "epoch": 61.73880597014925,
      "grad_norm": 0.0,
      "learning_rate": 1.9560402141085728e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8212
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.13888931274414,
      "epoch": 61.74626865671642,
      "grad_norm": 0.0,
      "learning_rate": 1.9554045930244882e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 8213
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.05555534362793,
      "epoch": 61.75373134328358,
      "grad_norm": 0.0,
      "learning_rate": 1.954769008895905e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8214
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.97222328186035,
      "epoch": 61.76119402985075,
      "grad_norm": 0.0,
      "learning_rate": 1.9541334617659527e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8215
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.83333396911621,
      "epoch": 61.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 1.9534979516777598e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8216
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.33333396911621,
      "epoch": 61.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 1.95286247867445e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8217
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.86111068725586,
      "epoch": 61.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 1.9522270427991468e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8218
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.47222328186035,
      "epoch": 61.791044776119406,
      "grad_norm": 0.0,
      "learning_rate": 1.9515916440949688e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8219
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.55555534362793,
      "epoch": 61.798507462686565,
      "grad_norm": 0.0,
      "learning_rate": 1.9509562826050352e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8220
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.30555534362793,
      "epoch": 61.80597014925373,
      "grad_norm": 0.0,
      "learning_rate": 1.950320958372459e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8221
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.11111068725586,
      "epoch": 61.8134328358209,
      "grad_norm": 0.0,
      "learning_rate": 1.949685671440352e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8222
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.52777862548828,
      "epoch": 61.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 1.9490504218518256e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8223
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.19444465637207,
      "epoch": 61.82835820895522,
      "grad_norm": 0.0,
      "learning_rate": 1.9484152096499856e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8224
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.69444465637207,
      "epoch": 61.83582089552239,
      "grad_norm": 0.0,
      "learning_rate": 1.947780034877938e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8225
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.55555534362793,
      "epoch": 61.843283582089555,
      "grad_norm": 0.0,
      "learning_rate": 1.9471448975787834e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8226
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.0,
      "epoch": 61.850746268656714,
      "grad_norm": 0.0,
      "learning_rate": 1.9465097977956232e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8227
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.72222328186035,
      "epoch": 61.85820895522388,
      "grad_norm": 0.0,
      "learning_rate": 1.9458747355715529e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8228
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.22222328186035,
      "epoch": 61.865671641791046,
      "grad_norm": 0.0,
      "learning_rate": 1.9452397109496666e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8229
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.41666603088379,
      "epoch": 61.87313432835821,
      "grad_norm": 0.0,
      "learning_rate": 1.9446047239730578e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8230
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.5,
      "epoch": 61.88059701492537,
      "grad_norm": 0.0,
      "learning_rate": 1.9439697746848142e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8231
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.63888931274414,
      "epoch": 61.88805970149254,
      "grad_norm": 0.0,
      "learning_rate": 1.943334863128024e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8232
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.88888931274414,
      "epoch": 61.8955223880597,
      "grad_norm": 0.0,
      "learning_rate": 1.9426999893457714e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8233
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.86111068725586,
      "epoch": 61.90298507462687,
      "grad_norm": 0.0,
      "learning_rate": 1.9420651533811364e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8234
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.11111068725586,
      "epoch": 61.91044776119403,
      "grad_norm": 0.0,
      "learning_rate": 1.9414303552771996e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8235
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.13888931274414,
      "epoch": 61.917910447761194,
      "grad_norm": 0.0,
      "learning_rate": 1.9407955950770365e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8236
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.47222328186035,
      "epoch": 61.92537313432836,
      "grad_norm": 0.0,
      "learning_rate": 1.940160872823722e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8237
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.77777862548828,
      "epoch": 61.93283582089552,
      "grad_norm": 0.0,
      "learning_rate": 1.9395261885603276e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8238
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.44444465637207,
      "epoch": 61.940298507462686,
      "grad_norm": 0.0,
      "learning_rate": 1.9388915423299213e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8239
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.83333396911621,
      "epoch": 61.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 1.9382569341755704e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8240
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.38888931274414,
      "epoch": 61.95522388059702,
      "grad_norm": 0.0,
      "learning_rate": 1.9376223641403378e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8241
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.08333396911621,
      "epoch": 61.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 1.9369878322672838e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8242
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.58333396911621,
      "epoch": 61.97014925373134,
      "grad_norm": 0.0,
      "learning_rate": 1.9363533385994685e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8243
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.66666603088379,
      "epoch": 61.97761194029851,
      "grad_norm": 0.0,
      "learning_rate": 1.9357188831799462e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8244
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.33333396911621,
      "epoch": 61.985074626865675,
      "grad_norm": 0.0,
      "learning_rate": 1.9350844660517716e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8245
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.166667938232422,
      "epoch": 61.992537313432834,
      "grad_norm": 0.0,
      "learning_rate": 1.934450087257994e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8246
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.33333396911621,
      "epoch": 62.007462686567166,
      "grad_norm": 0.0,
      "learning_rate": 1.9338157468416632e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8247
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.86111068725586,
      "epoch": 62.014925373134325,
      "grad_norm": 0.0,
      "learning_rate": 1.9331814448458234e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8248
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.11111068725586,
      "epoch": 62.02238805970149,
      "grad_norm": 0.0,
      "learning_rate": 1.9325471813135173e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8249
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.38888931274414,
      "epoch": 62.02985074626866,
      "grad_norm": 0.0,
      "learning_rate": 1.931912956287786e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8250
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.11111068725586,
      "epoch": 62.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 1.931278769811666e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8251
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.91666603088379,
      "epoch": 62.04477611940298,
      "grad_norm": 0.0,
      "learning_rate": 1.9306446219281937e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8252
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.30555534362793,
      "epoch": 62.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 1.9300105126804005e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8253
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.61111068725586,
      "epoch": 62.059701492537314,
      "grad_norm": 0.0,
      "learning_rate": 1.9293764421113176e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8254
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.22222328186035,
      "epoch": 62.06716417910448,
      "grad_norm": 0.0,
      "learning_rate": 1.9287424102639708e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8255
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.94444465637207,
      "epoch": 62.07462686567164,
      "grad_norm": 0.0,
      "learning_rate": 1.928108417181384e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8256
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.75,
      "epoch": 62.082089552238806,
      "grad_norm": 0.0,
      "learning_rate": 1.927474462906581e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8257
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.13888931274414,
      "epoch": 62.08955223880597,
      "grad_norm": 0.0,
      "learning_rate": 1.9268405474825794e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8258
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.5,
      "epoch": 62.09701492537314,
      "grad_norm": 0.0,
      "learning_rate": 1.9262066709523972e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 8259
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.16666603088379,
      "epoch": 62.1044776119403,
      "grad_norm": 0.0,
      "learning_rate": 1.9255728333590475e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8260
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.38888931274414,
      "epoch": 62.11194029850746,
      "grad_norm": 0.0,
      "learning_rate": 1.9249390347455425e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 8261
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.0,
      "epoch": 62.11940298507463,
      "grad_norm": 0.0,
      "learning_rate": 1.9243052751548902e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8262
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.25,
      "epoch": 62.12686567164179,
      "grad_norm": 0.0,
      "learning_rate": 1.923671554630096e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8263
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.63888931274414,
      "epoch": 62.134328358208954,
      "grad_norm": 0.0,
      "learning_rate": 1.923037873214165e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8264
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.36111068725586,
      "epoch": 62.14179104477612,
      "grad_norm": 0.0,
      "learning_rate": 1.9224042309500965e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8265
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.77777862548828,
      "epoch": 62.149253731343286,
      "grad_norm": 0.0,
      "learning_rate": 1.921770627880889e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8266
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.91666603088379,
      "epoch": 62.156716417910445,
      "grad_norm": 0.0,
      "learning_rate": 1.9211370640495397e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8267
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.88888931274414,
      "epoch": 62.16417910447761,
      "grad_norm": 0.0,
      "learning_rate": 1.9205035394990384e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8268
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.61111068725586,
      "epoch": 62.17164179104478,
      "grad_norm": 0.0,
      "learning_rate": 1.9198700542723765e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8269
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.13888931274414,
      "epoch": 62.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 1.9192366084125423e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8270
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.02777862548828,
      "epoch": 62.1865671641791,
      "grad_norm": 0.0,
      "learning_rate": 1.918603201962519e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8271
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.72222328186035,
      "epoch": 62.19402985074627,
      "grad_norm": 0.0,
      "learning_rate": 1.9179698349652902e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8272
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.38888931274414,
      "epoch": 62.201492537313435,
      "grad_norm": 0.0,
      "learning_rate": 1.917336507463834e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8273
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.83333396911621,
      "epoch": 62.208955223880594,
      "grad_norm": 0.0,
      "learning_rate": 1.916703219501129e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8274
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.72222328186035,
      "epoch": 62.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 1.9160699711201473e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8275
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.11111068725586,
      "epoch": 62.223880597014926,
      "grad_norm": 0.0,
      "learning_rate": 1.9154367623638606e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8276
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.38888931274414,
      "epoch": 62.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 1.9148035932752387e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8277
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.72222328186035,
      "epoch": 62.23880597014925,
      "grad_norm": 0.0,
      "learning_rate": 1.914170463897246e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8278
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.27777862548828,
      "epoch": 62.24626865671642,
      "grad_norm": 0.0,
      "learning_rate": 1.9135373742728474e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8279
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.61111068725586,
      "epoch": 62.25373134328358,
      "grad_norm": 0.0,
      "learning_rate": 1.9129043244450025e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8280
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.52777862548828,
      "epoch": 62.26119402985075,
      "grad_norm": 0.0,
      "learning_rate": 1.9122713144566704e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8281
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.25,
      "epoch": 62.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 1.9116383443508047e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8282
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 22.25,
      "epoch": 62.276119402985074,
      "grad_norm": 0.0,
      "learning_rate": 1.9110054141703579e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8283
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.0,
      "epoch": 62.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 1.9103725239582814e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8284
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.91666603088379,
      "epoch": 62.291044776119406,
      "grad_norm": 0.0,
      "learning_rate": 1.9097396737575206e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8285
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.86111068725586,
      "epoch": 62.298507462686565,
      "grad_norm": 0.0,
      "learning_rate": 1.9091068636110212e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8286
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.55555534362793,
      "epoch": 62.30597014925373,
      "grad_norm": 0.0,
      "learning_rate": 1.9084740935617234e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8287
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.11111068725586,
      "epoch": 62.3134328358209,
      "grad_norm": 0.0,
      "learning_rate": 1.9078413636525682e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8288
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.80555534362793,
      "epoch": 62.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 1.9072086739264898e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8289
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.69444465637207,
      "epoch": 62.32835820895522,
      "grad_norm": 0.0,
      "learning_rate": 1.9065760244264218e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8290
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.52777862548828,
      "epoch": 62.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 1.9059434151952963e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8291
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.75,
      "epoch": 62.343283582089555,
      "grad_norm": 0.0,
      "learning_rate": 1.9053108462760397e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8292
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.11111068725586,
      "epoch": 62.350746268656714,
      "grad_norm": 0.0,
      "learning_rate": 1.9046783177115788e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8293
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.61111068725586,
      "epoch": 62.35820895522388,
      "grad_norm": 0.0,
      "learning_rate": 1.9040458295448348e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8294
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.05555534362793,
      "epoch": 62.365671641791046,
      "grad_norm": 0.0,
      "learning_rate": 1.9034133818187286e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8295
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.91666603088379,
      "epoch": 62.37313432835821,
      "grad_norm": 0.0,
      "learning_rate": 1.902780974576177e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8296
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.38888931274414,
      "epoch": 62.38059701492537,
      "grad_norm": 0.0,
      "learning_rate": 1.902148607860093e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8297
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.69444465637207,
      "epoch": 62.38805970149254,
      "grad_norm": 0.0,
      "learning_rate": 1.9015162817133893e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8298
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.77777862548828,
      "epoch": 62.3955223880597,
      "grad_norm": 0.0,
      "learning_rate": 1.900883996178975e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8299
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.44444465637207,
      "epoch": 62.40298507462686,
      "grad_norm": 0.0,
      "learning_rate": 1.9002517512997552e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8300
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.63888931274414,
      "epoch": 62.41044776119403,
      "grad_norm": 0.0,
      "learning_rate": 1.8996195471186339e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8301
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.88888931274414,
      "epoch": 62.417910447761194,
      "grad_norm": 0.0,
      "learning_rate": 1.8989873836785122e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8302
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.22222328186035,
      "epoch": 62.42537313432836,
      "grad_norm": 0.0,
      "learning_rate": 1.8983552610222857e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8303
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.22222328186035,
      "epoch": 62.43283582089552,
      "grad_norm": 0.0,
      "learning_rate": 1.8977231791928517e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8304
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.27777862548828,
      "epoch": 62.440298507462686,
      "grad_norm": 0.0,
      "learning_rate": 1.8970911382331002e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8305
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.97222328186035,
      "epoch": 62.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 1.8964591381859226e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8306
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.30555534362793,
      "epoch": 62.45522388059702,
      "grad_norm": 0.0,
      "learning_rate": 1.8958271790942046e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8307
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.44444465637207,
      "epoch": 62.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 1.895195261000831e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8308
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.19444465637207,
      "epoch": 62.47014925373134,
      "grad_norm": 0.0,
      "learning_rate": 1.8945633839486819e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8309
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.69444465637207,
      "epoch": 62.47761194029851,
      "grad_norm": 0.0,
      "learning_rate": 1.893931547980635e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8310
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.22222328186035,
      "epoch": 62.485074626865675,
      "grad_norm": 0.0,
      "learning_rate": 1.8932997531395676e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8311
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.86111068725586,
      "epoch": 62.492537313432834,
      "grad_norm": 0.0,
      "learning_rate": 1.892667999468351e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 8312
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.19444465637207,
      "epoch": 62.5,
      "grad_norm": 0.0,
      "learning_rate": 1.8920362870098557e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8313
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.0,
      "epoch": 62.507462686567166,
      "grad_norm": 0.0,
      "learning_rate": 1.891404615806949e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8314
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.75,
      "epoch": 62.514925373134325,
      "grad_norm": 0.0,
      "learning_rate": 1.8907729859024958e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8315
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.61111068725586,
      "epoch": 62.52238805970149,
      "grad_norm": 0.0,
      "learning_rate": 1.8901413973393565e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 8316
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.91666603088379,
      "epoch": 62.52985074626866,
      "grad_norm": 0.0,
      "learning_rate": 1.8895098501603895e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8317
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.72222328186035,
      "epoch": 62.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 1.8888783444084526e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8318
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.75,
      "epoch": 62.54477611940298,
      "grad_norm": 0.0,
      "learning_rate": 1.8882468801263967e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8319
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.0,
      "epoch": 62.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 1.887615457357074e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8320
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.11111068725586,
      "epoch": 62.559701492537314,
      "grad_norm": 0.0,
      "learning_rate": 1.886984076143331e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8321
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.22222328186035,
      "epoch": 62.56716417910448,
      "grad_norm": 0.0,
      "learning_rate": 1.8863527365280128e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8322
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.55555534362793,
      "epoch": 62.57462686567164,
      "grad_norm": 0.0,
      "learning_rate": 1.8857214385539612e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8323
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.77777862548828,
      "epoch": 62.582089552238806,
      "grad_norm": 0.0,
      "learning_rate": 1.8850901822640145e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8324
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.44444465637207,
      "epoch": 62.58955223880597,
      "grad_norm": 0.0,
      "learning_rate": 1.8844589677010098e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8325
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.72222328186035,
      "epoch": 62.59701492537313,
      "grad_norm": 0.0,
      "learning_rate": 1.8838277949077798e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8326
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.63888931274414,
      "epoch": 62.6044776119403,
      "grad_norm": 0.0,
      "learning_rate": 1.8831966639271548e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8327
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.66666603088379,
      "epoch": 62.61194029850746,
      "grad_norm": 0.0,
      "learning_rate": 1.882565574801964e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8328
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 22.69444465637207,
      "epoch": 62.61940298507463,
      "grad_norm": 0.0,
      "learning_rate": 1.8819345275750315e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8329
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.80555534362793,
      "epoch": 62.62686567164179,
      "grad_norm": 0.0,
      "learning_rate": 1.881303522289178e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8330
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.0,
      "epoch": 62.634328358208954,
      "grad_norm": 0.0,
      "learning_rate": 1.8806725589872246e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8331
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.55555534362793,
      "epoch": 62.64179104477612,
      "grad_norm": 0.0,
      "learning_rate": 1.880041637711986e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8332
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.75,
      "epoch": 62.649253731343286,
      "grad_norm": 0.0,
      "learning_rate": 1.8794107585062768e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8333
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.44444465637207,
      "epoch": 62.656716417910445,
      "grad_norm": 0.0,
      "learning_rate": 1.878779921412907e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8334
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.44444465637207,
      "epoch": 62.66417910447761,
      "grad_norm": 0.0,
      "learning_rate": 1.8781491264746848e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8335
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.80555534362793,
      "epoch": 62.67164179104478,
      "grad_norm": 0.0,
      "learning_rate": 1.8775183737344154e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8336
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.02777862548828,
      "epoch": 62.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 1.8768876632348993e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8337
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.80555534362793,
      "epoch": 62.6865671641791,
      "grad_norm": 0.0,
      "learning_rate": 1.8762569950189368e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8338
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.11111068725586,
      "epoch": 62.69402985074627,
      "grad_norm": 0.0,
      "learning_rate": 1.8756263691293238e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8339
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.5,
      "epoch": 62.701492537313435,
      "grad_norm": 0.0,
      "learning_rate": 1.8749957856088545e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8340
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.86111068725586,
      "epoch": 62.708955223880594,
      "grad_norm": 0.0,
      "learning_rate": 1.8743652445003176e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8341
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.02777862548828,
      "epoch": 62.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 1.873734745846503e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8342
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.75,
      "epoch": 62.723880597014926,
      "grad_norm": 0.0,
      "learning_rate": 1.8731042896901953e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8343
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.25,
      "epoch": 62.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 1.8724738760741742e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8344
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.72222328186035,
      "epoch": 62.73880597014925,
      "grad_norm": 0.0,
      "learning_rate": 1.8718435050412208e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8345
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.55555534362793,
      "epoch": 62.74626865671642,
      "grad_norm": 0.0,
      "learning_rate": 1.8712131766341093e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8346
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.41666603088379,
      "epoch": 62.75373134328358,
      "grad_norm": 0.0,
      "learning_rate": 1.870582890895615e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8347
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.22222328186035,
      "epoch": 62.76119402985075,
      "grad_norm": 0.0,
      "learning_rate": 1.8699526478685075e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8348
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.61111068725586,
      "epoch": 62.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 1.8693224475955544e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8349
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.13888931274414,
      "epoch": 62.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 1.8686922901195197e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8350
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.55555534362793,
      "epoch": 62.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 1.8680621754831643e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8351
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.66666603088379,
      "epoch": 62.791044776119406,
      "grad_norm": 0.0,
      "learning_rate": 1.8674321037292485e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8352
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.19444465637207,
      "epoch": 62.798507462686565,
      "grad_norm": 0.0,
      "learning_rate": 1.866802074900527e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8353
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.97222328186035,
      "epoch": 62.80597014925373,
      "grad_norm": 0.0,
      "learning_rate": 1.866172089039754e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8354
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.69444465637207,
      "epoch": 62.8134328358209,
      "grad_norm": 0.0,
      "learning_rate": 1.865542146189678e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8355
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.75,
      "epoch": 62.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 1.8649122463930475e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8356
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.02777862548828,
      "epoch": 62.82835820895522,
      "grad_norm": 0.0,
      "learning_rate": 1.8642823896926049e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8357
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.38888931274414,
      "epoch": 62.83582089552239,
      "grad_norm": 0.0,
      "learning_rate": 1.8636525761310928e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8358
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.86111068725586,
      "epoch": 62.843283582089555,
      "grad_norm": 0.0,
      "learning_rate": 1.8630228057512487e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8359
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.52777862548828,
      "epoch": 62.850746268656714,
      "grad_norm": 0.0,
      "learning_rate": 1.862393078595809e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8360
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.80555534362793,
      "epoch": 62.85820895522388,
      "grad_norm": 0.0,
      "learning_rate": 1.8617633947075044e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8361
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.27777862548828,
      "epoch": 62.865671641791046,
      "grad_norm": 0.0,
      "learning_rate": 1.8611337541290668e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8362
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.13888931274414,
      "epoch": 62.87313432835821,
      "grad_norm": 0.0,
      "learning_rate": 1.860504156903221e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8363
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.25,
      "epoch": 62.88059701492537,
      "grad_norm": 0.0,
      "learning_rate": 1.8598746030726905e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8364
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.72222328186035,
      "epoch": 62.88805970149254,
      "grad_norm": 0.0,
      "learning_rate": 1.8592450926801966e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8365
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.11111068725586,
      "epoch": 62.8955223880597,
      "grad_norm": 0.0,
      "learning_rate": 1.858615625768457e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8366
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.94444465637207,
      "epoch": 62.90298507462687,
      "grad_norm": 0.0,
      "learning_rate": 1.8579862023801862e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8367
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.05555534362793,
      "epoch": 62.91044776119403,
      "grad_norm": 0.0,
      "learning_rate": 1.857356822558096e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8368
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.94444465637207,
      "epoch": 62.917910447761194,
      "grad_norm": 0.0,
      "learning_rate": 1.8567274863448957e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8369
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.33333396911621,
      "epoch": 62.92537313432836,
      "grad_norm": 0.0,
      "learning_rate": 1.8560981937832916e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8370
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.88888931274414,
      "epoch": 62.93283582089552,
      "grad_norm": 0.0,
      "learning_rate": 1.8554689449159847e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8371
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.83333396911621,
      "epoch": 62.940298507462686,
      "grad_norm": 0.0,
      "learning_rate": 1.854839739785677e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8372
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.63888931274414,
      "epoch": 62.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 1.8542105784350638e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8373
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.66666603088379,
      "epoch": 62.95522388059702,
      "grad_norm": 0.0,
      "learning_rate": 1.853581460906841e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8374
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.61111068725586,
      "epoch": 62.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 1.8529523872436977e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8375
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.75,
      "epoch": 62.97014925373134,
      "grad_norm": 0.0,
      "learning_rate": 1.852323357488324e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8376
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.52777862548828,
      "epoch": 62.97761194029851,
      "grad_norm": 0.0,
      "learning_rate": 1.8516943716834045e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8377
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.86111068725586,
      "epoch": 62.985074626865675,
      "grad_norm": 0.0,
      "learning_rate": 1.8510654298716195e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8378
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.5,
      "epoch": 62.992537313432834,
      "grad_norm": 0.0,
      "learning_rate": 1.8504365320956496e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8379
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.52777862548828,
      "epoch": 63.007462686567166,
      "grad_norm": 0.0,
      "learning_rate": 1.8498076783981708e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8380
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.36111068725586,
      "epoch": 63.014925373134325,
      "grad_norm": 0.0,
      "learning_rate": 1.8491788688218569e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8381
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.5,
      "epoch": 63.02238805970149,
      "grad_norm": 0.0,
      "learning_rate": 1.8485501034093765e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8382
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.63888931274414,
      "epoch": 63.02985074626866,
      "grad_norm": 0.0,
      "learning_rate": 1.8479213822033985e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8383
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.27777862548828,
      "epoch": 63.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 1.8472927052465863e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8384
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.38888931274414,
      "epoch": 63.04477611940298,
      "grad_norm": 0.0,
      "learning_rate": 1.8466640725816e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8385
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.11111068725586,
      "epoch": 63.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 1.8460354842510988e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 8386
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.44444465637207,
      "epoch": 63.059701492537314,
      "grad_norm": 0.0,
      "learning_rate": 1.8454069402977386e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 8387
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.27777862548828,
      "epoch": 63.06716417910448,
      "grad_norm": 0.0,
      "learning_rate": 1.8447784407641697e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8388
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.88888931274414,
      "epoch": 63.07462686567164,
      "grad_norm": 0.0,
      "learning_rate": 1.844149985693043e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8389
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.33333396911621,
      "epoch": 63.082089552238806,
      "grad_norm": 0.0,
      "learning_rate": 1.8435215751270044e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8390
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.16666603088379,
      "epoch": 63.08955223880597,
      "grad_norm": 0.0,
      "learning_rate": 1.8428932091086957e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8391
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.08333396911621,
      "epoch": 63.09701492537314,
      "grad_norm": 0.0,
      "learning_rate": 1.8422648876807579e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8392
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.05555534362793,
      "epoch": 63.1044776119403,
      "grad_norm": 0.0,
      "learning_rate": 1.8416366108858273e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8393
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.02777862548828,
      "epoch": 63.11194029850746,
      "grad_norm": 0.0,
      "learning_rate": 1.841008378766539e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8394
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.16666603088379,
      "epoch": 63.11940298507463,
      "grad_norm": 0.0,
      "learning_rate": 1.8403801913655229e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8395
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.41666603088379,
      "epoch": 63.12686567164179,
      "grad_norm": 0.0,
      "learning_rate": 1.839752048725408e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8396
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.38888931274414,
      "epoch": 63.134328358208954,
      "grad_norm": 0.0,
      "learning_rate": 1.839123950888819e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8397
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.72222328186035,
      "epoch": 63.14179104477612,
      "grad_norm": 0.0,
      "learning_rate": 1.8384958978983767e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8398
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.80555534362793,
      "epoch": 63.149253731343286,
      "grad_norm": 0.0,
      "learning_rate": 1.837867889796701e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8399
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.02777862548828,
      "epoch": 63.156716417910445,
      "grad_norm": 0.0,
      "learning_rate": 1.8372399266264066e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8400
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.97222328186035,
      "epoch": 63.16417910447761,
      "grad_norm": 0.0,
      "learning_rate": 1.8366120084301074e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8401
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.94444465637207,
      "epoch": 63.17164179104478,
      "grad_norm": 0.0,
      "learning_rate": 1.8359841352504125e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8402
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.83333396911621,
      "epoch": 63.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 1.8353563071299289e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8403
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.94444465637207,
      "epoch": 63.1865671641791,
      "grad_norm": 0.0,
      "learning_rate": 1.8347285241112603e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8404
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.02777862548828,
      "epoch": 63.19402985074627,
      "grad_norm": 0.0,
      "learning_rate": 1.8341007862370055e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8405
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.69444465637207,
      "epoch": 63.201492537313435,
      "grad_norm": 0.0,
      "learning_rate": 1.8334730935497644e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8406
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 22.36111068725586,
      "epoch": 63.208955223880594,
      "grad_norm": 0.0,
      "learning_rate": 1.8328454460921294e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8407
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.52777862548828,
      "epoch": 63.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 1.8322178439066929e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8408
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.91666603088379,
      "epoch": 63.223880597014926,
      "grad_norm": 0.0,
      "learning_rate": 1.8315902870360425e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8409
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.0,
      "epoch": 63.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 1.830962775522764e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8410
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.22222328186035,
      "epoch": 63.23880597014925,
      "grad_norm": 0.0,
      "learning_rate": 1.8303353094094398e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8411
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.58333396911621,
      "epoch": 63.24626865671642,
      "grad_norm": 0.0,
      "learning_rate": 1.8297078887386476e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8412
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.30555534362793,
      "epoch": 63.25373134328358,
      "grad_norm": 0.0,
      "learning_rate": 1.8290805135529637e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8413
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.02777862548828,
      "epoch": 63.26119402985075,
      "grad_norm": 0.0,
      "learning_rate": 1.8284531838949612e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8414
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.63888931274414,
      "epoch": 63.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 1.8278258998072097e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8415
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.30555534362793,
      "epoch": 63.276119402985074,
      "grad_norm": 0.0,
      "learning_rate": 1.8271986613322762e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8416
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.25,
      "epoch": 63.28358208955224,
      "grad_norm": 4.55625379654639,
      "learning_rate": 1.8265714685127237e-07,
      "loss": -0.0111,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 8417
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.30555534362793,
      "epoch": 63.291044776119406,
      "grad_norm": 0.0,
      "learning_rate": 1.825944321391114e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8418
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.33333396911621,
      "epoch": 63.298507462686565,
      "grad_norm": 0.0,
      "learning_rate": 1.825317220010003e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8419
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.5,
      "epoch": 63.30597014925373,
      "grad_norm": 0.0,
      "learning_rate": 1.8246901644119444e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8420
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.66666603088379,
      "epoch": 63.3134328358209,
      "grad_norm": 0.0,
      "learning_rate": 1.8240631546394914e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8421
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.91666603088379,
      "epoch": 63.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 1.82343619073519e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8422
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.27777862548828,
      "epoch": 63.32835820895522,
      "grad_norm": 0.0,
      "learning_rate": 1.8228092727415867e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8423
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.63888931274414,
      "epoch": 63.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 1.8221824007012228e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8424
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.41666603088379,
      "epoch": 63.343283582089555,
      "grad_norm": 0.0,
      "learning_rate": 1.8215555746566363e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8425
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.13888931274414,
      "epoch": 63.350746268656714,
      "grad_norm": 0.0,
      "learning_rate": 1.820928794650363e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8426
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.36111068725586,
      "epoch": 63.35820895522388,
      "grad_norm": 0.0,
      "learning_rate": 1.8203020607249358e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8427
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.94444465637207,
      "epoch": 63.365671641791046,
      "grad_norm": 0.0,
      "learning_rate": 1.8196753729228843e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8428
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.08333396911621,
      "epoch": 63.37313432835821,
      "grad_norm": 0.0,
      "learning_rate": 1.8190487312867336e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8429
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.66666603088379,
      "epoch": 63.38059701492537,
      "grad_norm": 0.0,
      "learning_rate": 1.8184221358590076e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8430
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.13888931274414,
      "epoch": 63.38805970149254,
      "grad_norm": 0.0,
      "learning_rate": 1.8177955866822264e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8431
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.75,
      "epoch": 63.3955223880597,
      "grad_norm": 0.0,
      "learning_rate": 1.8171690837989057e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8432
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.77777862548828,
      "epoch": 63.40298507462686,
      "grad_norm": 0.0,
      "learning_rate": 1.81654262725156e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8433
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.41666603088379,
      "epoch": 63.41044776119403,
      "grad_norm": 0.0,
      "learning_rate": 1.8159162170826992e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8434
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.72222328186035,
      "epoch": 63.417910447761194,
      "grad_norm": 0.0,
      "learning_rate": 1.8152898533348315e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8435
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.5,
      "epoch": 63.42537313432836,
      "grad_norm": 0.0,
      "learning_rate": 1.8146635360504599e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8436
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.94444465637207,
      "epoch": 63.43283582089552,
      "grad_norm": 0.0,
      "learning_rate": 1.8140372652720865e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8437
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.63888931274414,
      "epoch": 63.440298507462686,
      "grad_norm": 0.0,
      "learning_rate": 1.8134110410422096e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8438
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.83333396911621,
      "epoch": 63.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 1.8127848634033218e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8439
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.25,
      "epoch": 63.45522388059702,
      "grad_norm": 0.0,
      "learning_rate": 1.8121587323979168e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8440
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.77777862548828,
      "epoch": 63.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 1.8115326480684815e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8441
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.41666603088379,
      "epoch": 63.47014925373134,
      "grad_norm": 0.0,
      "learning_rate": 1.810906610457502e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8442
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.94444465637207,
      "epoch": 63.47761194029851,
      "grad_norm": 0.0,
      "learning_rate": 1.8102806196074602e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 8443
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.80555534362793,
      "epoch": 63.485074626865675,
      "grad_norm": 0.0,
      "learning_rate": 1.8096546755608346e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8444
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.69444465637207,
      "epoch": 63.492537313432834,
      "grad_norm": 0.0,
      "learning_rate": 1.809028778360103e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8445
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.80555534362793,
      "epoch": 63.5,
      "grad_norm": 0.0,
      "learning_rate": 1.8084029280477344e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8446
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.30555534362793,
      "epoch": 63.507462686567166,
      "grad_norm": 0.0,
      "learning_rate": 1.8077771246662e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8447
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.88888931274414,
      "epoch": 63.514925373134325,
      "grad_norm": 0.0,
      "learning_rate": 1.8071513682579664e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8448
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.13888931274414,
      "epoch": 63.52238805970149,
      "grad_norm": 0.0,
      "learning_rate": 1.8065256588654956e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8449
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.88888931274414,
      "epoch": 63.52985074626866,
      "grad_norm": 0.0,
      "learning_rate": 1.8058999965312482e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8450
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.27777862548828,
      "epoch": 63.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 1.8052743812976803e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8451
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.13888931274414,
      "epoch": 63.54477611940298,
      "grad_norm": 0.0,
      "learning_rate": 1.8046488132072462e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8452
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.33333396911621,
      "epoch": 63.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 1.8040232923023952e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8453
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.75,
      "epoch": 63.559701492537314,
      "grad_norm": 0.0,
      "learning_rate": 1.8033978186255733e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8454
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.55555534362793,
      "epoch": 63.56716417910448,
      "grad_norm": 0.0,
      "learning_rate": 1.8027723922192262e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8455
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.94444465637207,
      "epoch": 63.57462686567164,
      "grad_norm": 0.0,
      "learning_rate": 1.8021470131257933e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8456
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.0,
      "epoch": 63.582089552238806,
      "grad_norm": 0.0,
      "learning_rate": 1.801521681387713e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8457
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.61111068725586,
      "epoch": 63.58955223880597,
      "grad_norm": 0.0,
      "learning_rate": 1.8008963970474193e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8458
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.38888931274414,
      "epoch": 63.59701492537313,
      "grad_norm": 0.0,
      "learning_rate": 1.8002711601473414e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8459
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.80555534362793,
      "epoch": 63.6044776119403,
      "grad_norm": 0.0,
      "learning_rate": 1.799645970729909e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8460
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.83333396911621,
      "epoch": 63.61194029850746,
      "grad_norm": 0.0,
      "learning_rate": 1.7990208288375452e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8461
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.47222328186035,
      "epoch": 63.61940298507463,
      "grad_norm": 0.0,
      "learning_rate": 1.7983957345126727e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8462
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.02777862548828,
      "epoch": 63.62686567164179,
      "grad_norm": 0.0,
      "learning_rate": 1.7977706877977085e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8463
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.58333396911621,
      "epoch": 63.634328358208954,
      "grad_norm": 0.0,
      "learning_rate": 1.7971456887350682e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8464
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.72222328186035,
      "epoch": 63.64179104477612,
      "grad_norm": 0.0,
      "learning_rate": 1.796520737367163e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8465
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.25,
      "epoch": 63.649253731343286,
      "grad_norm": 0.0,
      "learning_rate": 1.7958958337364006e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8466
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.33333396911621,
      "epoch": 63.656716417910445,
      "grad_norm": 0.0,
      "learning_rate": 1.7952709778851872e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8467
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.83333396911621,
      "epoch": 63.66417910447761,
      "grad_norm": 0.0,
      "learning_rate": 1.7946461698559235e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8468
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.02777862548828,
      "epoch": 63.67164179104478,
      "grad_norm": 0.0,
      "learning_rate": 1.7940214096910092e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8469
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.97222328186035,
      "epoch": 63.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 1.7933966974328389e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8470
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.75,
      "epoch": 63.6865671641791,
      "grad_norm": 0.0,
      "learning_rate": 1.7927720331238056e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8471
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.55555534362793,
      "epoch": 63.69402985074627,
      "grad_norm": 0.0,
      "learning_rate": 1.7921474168062977e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8472
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.30555534362793,
      "epoch": 63.701492537313435,
      "grad_norm": 0.0,
      "learning_rate": 1.7915228485227e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8473
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.88888931274414,
      "epoch": 63.708955223880594,
      "grad_norm": 0.0,
      "learning_rate": 1.7908983283153968e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8474
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.72222328186035,
      "epoch": 63.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 1.7902738562267644e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8475
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.08333396911621,
      "epoch": 63.723880597014926,
      "grad_norm": 0.0,
      "learning_rate": 1.789649432299181e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8476
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.88888931274414,
      "epoch": 63.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 1.7890250565750186e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8477
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.41666603088379,
      "epoch": 63.73880597014925,
      "grad_norm": 0.0,
      "learning_rate": 1.7884007290966458e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8478
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.58333396911621,
      "epoch": 63.74626865671642,
      "grad_norm": 0.0,
      "learning_rate": 1.7877764499064298e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8479
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.0,
      "epoch": 63.75373134328358,
      "grad_norm": 0.0,
      "learning_rate": 1.7871522190467325e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8480
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.16666603088379,
      "epoch": 63.76119402985075,
      "grad_norm": 0.0,
      "learning_rate": 1.786528036559913e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8481
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.27777862548828,
      "epoch": 63.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 1.785903902488328e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8482
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.61111068725586,
      "epoch": 63.776119402985074,
      "grad_norm": 0.0,
      "learning_rate": 1.78527981687433e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8483
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.44444465637207,
      "epoch": 63.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 1.7846557797602697e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8484
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.5,
      "epoch": 63.791044776119406,
      "grad_norm": 0.0,
      "learning_rate": 1.7840317911884918e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8485
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.58333396911621,
      "epoch": 63.798507462686565,
      "grad_norm": 0.0,
      "learning_rate": 1.783407851201341e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8486
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.0,
      "epoch": 63.80597014925373,
      "grad_norm": 0.0,
      "learning_rate": 1.782783959841156e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8487
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.05555534362793,
      "epoch": 63.8134328358209,
      "grad_norm": 0.0,
      "learning_rate": 1.7821601171502726e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8488
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.5,
      "epoch": 63.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 1.7815363231710257e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8489
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.55555534362793,
      "epoch": 63.82835820895522,
      "grad_norm": 0.0,
      "learning_rate": 1.780912577945743e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8490
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.91666603088379,
      "epoch": 63.83582089552239,
      "grad_norm": 0.0,
      "learning_rate": 1.7802888815167528e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8491
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.33333396911621,
      "epoch": 63.843283582089555,
      "grad_norm": 0.0,
      "learning_rate": 1.7796652339263771e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8492
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.80555534362793,
      "epoch": 63.850746268656714,
      "grad_norm": 0.0,
      "learning_rate": 1.7790416352169374e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8493
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.19444465637207,
      "epoch": 63.85820895522388,
      "grad_norm": 0.0,
      "learning_rate": 1.7784180854307483e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8494
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.55555534362793,
      "epoch": 63.865671641791046,
      "grad_norm": 0.0,
      "learning_rate": 1.7777945846101236e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8495
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.63888931274414,
      "epoch": 63.87313432835821,
      "grad_norm": 0.0,
      "learning_rate": 1.777171132797374e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8496
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.13888931274414,
      "epoch": 63.88059701492537,
      "grad_norm": 0.0,
      "learning_rate": 1.7765477300348047e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8497
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.83333396911621,
      "epoch": 63.88805970149254,
      "grad_norm": 0.0,
      "learning_rate": 1.775924376364721e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8498
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.55555534362793,
      "epoch": 63.8955223880597,
      "grad_norm": 0.0,
      "learning_rate": 1.7753010718294214e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8499
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.52777862548828,
      "epoch": 63.90298507462687,
      "grad_norm": 0.0,
      "learning_rate": 1.7746778164712024e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8500
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.44444465637207,
      "epoch": 63.91044776119403,
      "grad_norm": 0.0,
      "learning_rate": 1.7740546103323577e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8501
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.55555534362793,
      "epoch": 63.917910447761194,
      "grad_norm": 0.0,
      "learning_rate": 1.7734314534551768e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8502
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.61111068725586,
      "epoch": 63.92537313432836,
      "grad_norm": 0.0,
      "learning_rate": 1.772808345881947e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8503
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.27777862548828,
      "epoch": 63.93283582089552,
      "grad_norm": 0.0,
      "learning_rate": 1.7721852876549507e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8504
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.30555534362793,
      "epoch": 63.940298507462686,
      "grad_norm": 0.0,
      "learning_rate": 1.771562278816468e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8505
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.77777862548828,
      "epoch": 63.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 1.7709393194087774e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8506
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.33333396911621,
      "epoch": 63.95522388059702,
      "grad_norm": 0.0,
      "learning_rate": 1.7703164094741486e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8507
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.94444465637207,
      "epoch": 63.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 1.7696935490548533e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8508
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.13888931274414,
      "epoch": 63.97014925373134,
      "grad_norm": 0.0,
      "learning_rate": 1.7690707381931582e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8509
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.52777862548828,
      "epoch": 63.97761194029851,
      "grad_norm": 0.0,
      "learning_rate": 1.7684479769313256e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8510
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.77777862548828,
      "epoch": 63.985074626865675,
      "grad_norm": 0.0,
      "learning_rate": 1.767825265311616e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8511
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 32.16666793823242,
      "epoch": 63.992537313432834,
      "grad_norm": 0.0,
      "learning_rate": 1.767202603376285e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8512
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.25,
      "epoch": 64.00746268656717,
      "grad_norm": 0.0,
      "learning_rate": 1.7665799911675872e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8513
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.55555534362793,
      "epoch": 64.01492537313433,
      "grad_norm": 0.0,
      "learning_rate": 1.76595742872777e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8514
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.91666603088379,
      "epoch": 64.0223880597015,
      "grad_norm": 0.0,
      "learning_rate": 1.7653349160990805e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8515
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.83333396911621,
      "epoch": 64.02985074626865,
      "grad_norm": 0.0,
      "learning_rate": 1.764712453323762e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8516
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.16666603088379,
      "epoch": 64.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 1.7640900404440532e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8517
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.69444465637207,
      "epoch": 64.04477611940298,
      "grad_norm": 0.0,
      "learning_rate": 1.763467677502191e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8518
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.91666603088379,
      "epoch": 64.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 1.7628453645404074e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8519
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.22222328186035,
      "epoch": 64.05970149253731,
      "grad_norm": 0.0,
      "learning_rate": 1.7622231016009332e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8520
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.44444465637207,
      "epoch": 64.06716417910448,
      "grad_norm": 0.0,
      "learning_rate": 1.7616008887259925e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8521
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.47222328186035,
      "epoch": 64.07462686567165,
      "grad_norm": 0.0,
      "learning_rate": 1.760978725957808e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8522
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.05555534362793,
      "epoch": 64.08208955223881,
      "grad_norm": 0.0,
      "learning_rate": 1.7603566133385996e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 8523
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.61111068725586,
      "epoch": 64.08955223880596,
      "grad_norm": 0.0,
      "learning_rate": 1.7597345509105826e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8524
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.13888931274414,
      "epoch": 64.09701492537313,
      "grad_norm": 0.0,
      "learning_rate": 1.7591125387159697e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8525
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.77777862548828,
      "epoch": 64.1044776119403,
      "grad_norm": 0.0,
      "learning_rate": 1.758490576796969e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 8526
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.75,
      "epoch": 64.11194029850746,
      "grad_norm": 0.0,
      "learning_rate": 1.7578686651957877e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8527
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.58333396911621,
      "epoch": 64.11940298507463,
      "grad_norm": 0.0,
      "learning_rate": 1.7572468039546263e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8528
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.97222328186035,
      "epoch": 64.1268656716418,
      "grad_norm": 0.0,
      "learning_rate": 1.756624993115683e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8529
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.77777862548828,
      "epoch": 64.13432835820896,
      "grad_norm": 0.0,
      "learning_rate": 1.7560032327211544e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8530
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.86111068725586,
      "epoch": 64.14179104477611,
      "grad_norm": 0.0,
      "learning_rate": 1.7553815228132314e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8531
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.19444465637207,
      "epoch": 64.14925373134328,
      "grad_norm": 0.0,
      "learning_rate": 1.7547598634341032e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8532
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.77777862548828,
      "epoch": 64.15671641791045,
      "grad_norm": 0.0,
      "learning_rate": 1.7541382546259538e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8533
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.38888931274414,
      "epoch": 64.16417910447761,
      "grad_norm": 0.0,
      "learning_rate": 1.7535166964309667e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8534
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.22222328186035,
      "epoch": 64.17164179104478,
      "grad_norm": 0.0,
      "learning_rate": 1.7528951888913176e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8535
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.38888931274414,
      "epoch": 64.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 1.7522737320491817e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8536
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.80555534362793,
      "epoch": 64.18656716417911,
      "grad_norm": 0.0,
      "learning_rate": 1.7516523259467307e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8537
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.22222328186035,
      "epoch": 64.19402985074628,
      "grad_norm": 0.0,
      "learning_rate": 1.7510309706261327e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8538
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.16666603088379,
      "epoch": 64.20149253731343,
      "grad_norm": 0.0,
      "learning_rate": 1.7504096661295512e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8539
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.94444465637207,
      "epoch": 64.2089552238806,
      "grad_norm": 0.0,
      "learning_rate": 1.7497884124991485e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8540
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.30555534362793,
      "epoch": 64.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 1.7491672097770805e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8541
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.36111068725586,
      "epoch": 64.22388059701493,
      "grad_norm": 0.0,
      "learning_rate": 1.7485460580055012e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8542
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.33333396911621,
      "epoch": 64.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 1.747924957226562e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8543
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.5,
      "epoch": 64.23880597014926,
      "grad_norm": 0.0,
      "learning_rate": 1.7473039074824092e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8544
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.80555534362793,
      "epoch": 64.24626865671642,
      "grad_norm": 0.0,
      "learning_rate": 1.7466829088151868e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8545
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.30555534362793,
      "epoch": 64.25373134328358,
      "grad_norm": 0.0,
      "learning_rate": 1.746061961267035e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8546
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.08333396911621,
      "epoch": 64.26119402985074,
      "grad_norm": 0.0,
      "learning_rate": 1.745441064880091e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8547
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.77777862548828,
      "epoch": 64.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 1.7448202196964868e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8548
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.27777862548828,
      "epoch": 64.27611940298507,
      "grad_norm": 0.0,
      "learning_rate": 1.744199425758352e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8549
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.27777862548828,
      "epoch": 64.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 1.7435786831078142e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8550
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.47222328186035,
      "epoch": 64.2910447761194,
      "grad_norm": 0.0,
      "learning_rate": 1.7429579917869947e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8551
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.0,
      "epoch": 64.29850746268657,
      "grad_norm": 0.0,
      "learning_rate": 1.742337351838014e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8552
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.58333396911621,
      "epoch": 64.30597014925372,
      "grad_norm": 0.0,
      "learning_rate": 1.7417167633029867e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8553
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.36111068725586,
      "epoch": 64.31343283582089,
      "grad_norm": 0.0,
      "learning_rate": 1.741096226224027e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8554
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.80555534362793,
      "epoch": 64.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 1.740475740643242e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8555
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.72222328186035,
      "epoch": 64.32835820895522,
      "grad_norm": 0.0,
      "learning_rate": 1.7398553066027367e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8556
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.86111068725586,
      "epoch": 64.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 1.739234924144614e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8557
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.80555534362793,
      "epoch": 64.34328358208955,
      "grad_norm": 0.0,
      "learning_rate": 1.7386145933109713e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8558
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.02777862548828,
      "epoch": 64.35074626865672,
      "grad_norm": 0.0,
      "learning_rate": 1.7379943141439047e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8559
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.41666603088379,
      "epoch": 64.35820895522389,
      "grad_norm": 0.0,
      "learning_rate": 1.7373740866855041e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8560
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.33333396911621,
      "epoch": 64.36567164179104,
      "grad_norm": 0.0,
      "learning_rate": 1.736753910977859e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8561
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.19444465637207,
      "epoch": 64.3731343283582,
      "grad_norm": 0.0,
      "learning_rate": 1.736133787063052e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8562
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.72222328186035,
      "epoch": 64.38059701492537,
      "grad_norm": 0.0,
      "learning_rate": 1.7355137149831646e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8563
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.22222328186035,
      "epoch": 64.38805970149254,
      "grad_norm": 0.0,
      "learning_rate": 1.7348936947802732e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8564
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.27777862548828,
      "epoch": 64.3955223880597,
      "grad_norm": 0.0,
      "learning_rate": 1.734273726496453e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8565
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.0,
      "epoch": 64.40298507462687,
      "grad_norm": 0.0,
      "learning_rate": 1.733653810173773e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8566
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.25,
      "epoch": 64.41044776119404,
      "grad_norm": 0.0,
      "learning_rate": 1.7330339458543005e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8567
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.02777862548828,
      "epoch": 64.41791044776119,
      "grad_norm": 0.0,
      "learning_rate": 1.7324141335800994e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8568
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.33333396911621,
      "epoch": 64.42537313432835,
      "grad_norm": 0.0,
      "learning_rate": 1.731794373393227e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8569
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.55555534362793,
      "epoch": 64.43283582089552,
      "grad_norm": 0.0,
      "learning_rate": 1.7311746653357416e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8570
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.86111068725586,
      "epoch": 64.44029850746269,
      "grad_norm": 0.0,
      "learning_rate": 1.7305550094496944e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8571
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.27777862548828,
      "epoch": 64.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 1.7299354057771355e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8572
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.11111068725586,
      "epoch": 64.45522388059702,
      "grad_norm": 0.0,
      "learning_rate": 1.7293158543601088e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8573
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.80555534362793,
      "epoch": 64.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 1.7286963552406586e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8574
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.19444465637207,
      "epoch": 64.47014925373135,
      "grad_norm": 0.0,
      "learning_rate": 1.728076908460821e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8575
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.77777862548828,
      "epoch": 64.4776119402985,
      "grad_norm": 0.0,
      "learning_rate": 1.7274575140626315e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8576
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.83333396911621,
      "epoch": 64.48507462686567,
      "grad_norm": 0.0,
      "learning_rate": 1.726838172088122e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8577
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.69444465637207,
      "epoch": 64.49253731343283,
      "grad_norm": 0.0,
      "learning_rate": 1.7262188825793192e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8578
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.80555534362793,
      "epoch": 64.5,
      "grad_norm": 0.0,
      "learning_rate": 1.725599645578248e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8579
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.66666603088379,
      "epoch": 64.50746268656717,
      "grad_norm": 0.0,
      "learning_rate": 1.7249804611269286e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8580
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.66666603088379,
      "epoch": 64.51492537313433,
      "grad_norm": 0.0,
      "learning_rate": 1.7243613292673793e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8581
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.27777862548828,
      "epoch": 64.5223880597015,
      "grad_norm": 0.0,
      "learning_rate": 1.7237422500416116e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8582
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.16666603088379,
      "epoch": 64.52985074626865,
      "grad_norm": 0.0,
      "learning_rate": 1.7231232234916357e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8583
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.83333396911621,
      "epoch": 64.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 1.722504249659459e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8584
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.5,
      "epoch": 64.54477611940298,
      "grad_norm": 0.0,
      "learning_rate": 1.721885328587083e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8585
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.97222328186035,
      "epoch": 64.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 1.721266460316508e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8586
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.02777862548828,
      "epoch": 64.55970149253731,
      "grad_norm": 0.0,
      "learning_rate": 1.7206476448897284e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8587
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.44444465637207,
      "epoch": 64.56716417910448,
      "grad_norm": 0.0,
      "learning_rate": 1.720028882348738e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8588
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.38888931274414,
      "epoch": 64.57462686567165,
      "grad_norm": 0.0,
      "learning_rate": 1.719410172735523e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8589
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.80555534362793,
      "epoch": 64.58208955223881,
      "grad_norm": 0.0,
      "learning_rate": 1.7187915160920692e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8590
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.19444465637207,
      "epoch": 64.58955223880596,
      "grad_norm": 0.0,
      "learning_rate": 1.718172912460358e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8591
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.47222328186035,
      "epoch": 64.59701492537313,
      "grad_norm": 0.0,
      "learning_rate": 1.7175543618823657e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8592
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.36111068725586,
      "epoch": 64.6044776119403,
      "grad_norm": 0.0,
      "learning_rate": 1.716935864400068e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8593
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.11111068725586,
      "epoch": 64.61194029850746,
      "grad_norm": 0.0,
      "learning_rate": 1.716317420055435e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8594
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.33333396911621,
      "epoch": 64.61940298507463,
      "grad_norm": 0.0,
      "learning_rate": 1.7156990288904336e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8595
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.08333396911621,
      "epoch": 64.6268656716418,
      "grad_norm": 0.0,
      "learning_rate": 1.7150806909470253e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8596
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.41666603088379,
      "epoch": 64.63432835820896,
      "grad_norm": 0.0,
      "learning_rate": 1.7144624062671715e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8597
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.88888931274414,
      "epoch": 64.64179104477611,
      "grad_norm": 0.0,
      "learning_rate": 1.713844174892827e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8598
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.19444465637207,
      "epoch": 64.64925373134328,
      "grad_norm": 0.0,
      "learning_rate": 1.713225996865945e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 8599
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.55555534362793,
      "epoch": 64.65671641791045,
      "grad_norm": 0.0,
      "learning_rate": 1.7126078722284736e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8600
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.27777862548828,
      "epoch": 64.66417910447761,
      "grad_norm": 0.0,
      "learning_rate": 1.7119898010223587e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8601
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.66666603088379,
      "epoch": 64.67164179104478,
      "grad_norm": 0.0,
      "learning_rate": 1.7113717832895418e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8602
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.58333396911621,
      "epoch": 64.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 1.7107538190719592e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8603
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.47222328186035,
      "epoch": 64.68656716417911,
      "grad_norm": 0.0,
      "learning_rate": 1.7101359084115464e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8604
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.86111068725586,
      "epoch": 64.69402985074628,
      "grad_norm": 0.0,
      "learning_rate": 1.7095180513502334e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8605
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.80555534362793,
      "epoch": 64.70149253731343,
      "grad_norm": 0.0,
      "learning_rate": 1.7089002479299476e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8606
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.63888931274414,
      "epoch": 64.7089552238806,
      "grad_norm": 0.0,
      "learning_rate": 1.708282498192612e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8607
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.72222328186035,
      "epoch": 64.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 1.7076648021801466e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8608
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.05555534362793,
      "epoch": 64.72388059701493,
      "grad_norm": 0.0,
      "learning_rate": 1.7070471599344677e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8609
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.38888931274414,
      "epoch": 64.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 1.7064295714974857e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8610
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.5,
      "epoch": 64.73880597014926,
      "grad_norm": 0.0,
      "learning_rate": 1.7058120369111118e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8611
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.25,
      "epoch": 64.74626865671642,
      "grad_norm": 0.0,
      "learning_rate": 1.7051945562172494e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8612
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.58333396911621,
      "epoch": 64.75373134328358,
      "grad_norm": 0.0,
      "learning_rate": 1.704577129457801e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8613
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.86111068725586,
      "epoch": 64.76119402985074,
      "grad_norm": 0.0,
      "learning_rate": 1.703959756674663e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8614
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.63888931274414,
      "epoch": 64.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 1.7033424379097316e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8615
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.91666603088379,
      "epoch": 64.77611940298507,
      "grad_norm": 0.0,
      "learning_rate": 1.7027251732048953e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8616
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.63888931274414,
      "epoch": 64.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 1.702107962602041e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8617
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.58333396911621,
      "epoch": 64.7910447761194,
      "grad_norm": 0.0,
      "learning_rate": 1.7014908061430527e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8618
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.61111068725586,
      "epoch": 64.79850746268657,
      "grad_norm": 0.0,
      "learning_rate": 1.700873703869809e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8619
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.19444465637207,
      "epoch": 64.80597014925372,
      "grad_norm": 0.0,
      "learning_rate": 1.700256655824186e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8620
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.86111068725586,
      "epoch": 64.81343283582089,
      "grad_norm": 0.0,
      "learning_rate": 1.699639662048056e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 8621
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.41666603088379,
      "epoch": 64.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 1.699022722583287e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8622
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.5,
      "epoch": 64.82835820895522,
      "grad_norm": 0.0,
      "learning_rate": 1.6984058374717437e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8623
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.55555534362793,
      "epoch": 64.83582089552239,
      "grad_norm": 0.0,
      "learning_rate": 1.6977890067552866e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8624
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.22222328186035,
      "epoch": 64.84328358208955,
      "grad_norm": 0.0,
      "learning_rate": 1.6971722304757736e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8625
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.16666603088379,
      "epoch": 64.85074626865672,
      "grad_norm": 0.0,
      "learning_rate": 1.6965555086750582e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8626
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.36111068725586,
      "epoch": 64.85820895522389,
      "grad_norm": 0.0,
      "learning_rate": 1.6959388413949905e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8627
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.25,
      "epoch": 64.86567164179104,
      "grad_norm": 0.0,
      "learning_rate": 1.6953222286774163e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 8628
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.05555534362793,
      "epoch": 64.8731343283582,
      "grad_norm": 0.0,
      "learning_rate": 1.6947056705641791e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8629
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.63888931274414,
      "epoch": 64.88059701492537,
      "grad_norm": 0.0,
      "learning_rate": 1.694089167097116e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8630
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.13888931274414,
      "epoch": 64.88805970149254,
      "grad_norm": 0.0,
      "learning_rate": 1.693472718318063e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8631
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.16666603088379,
      "epoch": 64.8955223880597,
      "grad_norm": 0.0,
      "learning_rate": 1.692856324268851e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8632
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.11111068725586,
      "epoch": 64.90298507462687,
      "grad_norm": 0.0,
      "learning_rate": 1.692239984991309e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8633
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.86111068725586,
      "epoch": 64.91044776119404,
      "grad_norm": 0.0,
      "learning_rate": 1.6916237005272593e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8634
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.80555534362793,
      "epoch": 64.91791044776119,
      "grad_norm": 0.0,
      "learning_rate": 1.6910074709185231e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8635
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.08333396911621,
      "epoch": 64.92537313432835,
      "grad_norm": 0.0,
      "learning_rate": 1.6903912962069174e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8636
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.47222328186035,
      "epoch": 64.93283582089552,
      "grad_norm": 0.0,
      "learning_rate": 1.6897751764342533e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8637
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.5,
      "epoch": 64.94029850746269,
      "grad_norm": 0.0,
      "learning_rate": 1.6891591116423413e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8638
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.80555534362793,
      "epoch": 64.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 1.6885431018729854e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8639
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.69444465637207,
      "epoch": 64.95522388059702,
      "grad_norm": 0.0,
      "learning_rate": 1.6879271471679884e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8640
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.38888931274414,
      "epoch": 64.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 1.6873112475691476e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8641
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.55555534362793,
      "epoch": 64.97014925373135,
      "grad_norm": 0.0,
      "learning_rate": 1.6866954031182577e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8642
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.44444465637207,
      "epoch": 64.9776119402985,
      "grad_norm": 80.22771267523922,
      "learning_rate": 1.6860796138571087e-07,
      "loss": 0.0195,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 8643
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.94444465637207,
      "epoch": 64.98507462686567,
      "grad_norm": 0.0,
      "learning_rate": 1.6854638798274868e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8644
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.58333396911621,
      "epoch": 64.99253731343283,
      "grad_norm": 0.0,
      "learning_rate": 1.684848201071175e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8645
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.22222328186035,
      "epoch": 65.00746268656717,
      "grad_norm": 0.0,
      "learning_rate": 1.6842325776299524e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8646
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.36111068725586,
      "epoch": 65.01492537313433,
      "grad_norm": 0.0,
      "learning_rate": 1.6836170095455947e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8647
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.75,
      "epoch": 65.0223880597015,
      "grad_norm": 0.0,
      "learning_rate": 1.6830014968598732e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8648
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.02777862548828,
      "epoch": 65.02985074626865,
      "grad_norm": 0.0,
      "learning_rate": 1.6823860396145573e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8649
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.97222328186035,
      "epoch": 65.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 1.6817706378514089e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8650
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.30555534362793,
      "epoch": 65.04477611940298,
      "grad_norm": 0.0,
      "learning_rate": 1.6811552916121886e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8651
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.52777862548828,
      "epoch": 65.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 1.680540000938654e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8652
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.0,
      "epoch": 65.05970149253731,
      "grad_norm": 0.0,
      "learning_rate": 1.679924765872557e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8653
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.47222328186035,
      "epoch": 65.06716417910448,
      "grad_norm": 0.0,
      "learning_rate": 1.6793095864556463e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8654
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.66666603088379,
      "epoch": 65.07462686567165,
      "grad_norm": 0.0,
      "learning_rate": 1.6786944627296688e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8655
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.72222328186035,
      "epoch": 65.08208955223881,
      "grad_norm": 0.0,
      "learning_rate": 1.6780793947363658e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8656
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.33333396911621,
      "epoch": 65.08955223880596,
      "grad_norm": 0.0,
      "learning_rate": 1.677464382517473e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8657
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.58333396911621,
      "epoch": 65.09701492537313,
      "grad_norm": 0.0,
      "learning_rate": 1.676849426114726e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8658
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.36111068725586,
      "epoch": 65.1044776119403,
      "grad_norm": 0.0,
      "learning_rate": 1.6762345255698538e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 8659
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.0,
      "epoch": 65.11194029850746,
      "grad_norm": 0.0,
      "learning_rate": 1.6756196809245838e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 8660
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.19444465637207,
      "epoch": 65.11940298507463,
      "grad_norm": 0.0,
      "learning_rate": 1.6750048922206373e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8661
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.58333396911621,
      "epoch": 65.1268656716418,
      "grad_norm": 0.0,
      "learning_rate": 1.6743901594997344e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8662
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.19444465637207,
      "epoch": 65.13432835820896,
      "grad_norm": 0.0,
      "learning_rate": 1.67377548280359e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8663
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.75,
      "epoch": 65.14179104477611,
      "grad_norm": 0.0,
      "learning_rate": 1.6731608621739133e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8664
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.83333396911621,
      "epoch": 65.14925373134328,
      "grad_norm": 0.0,
      "learning_rate": 1.6725462976524136e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8665
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.91666603088379,
      "epoch": 65.15671641791045,
      "grad_norm": 0.0,
      "learning_rate": 1.6719317892807927e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8666
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.52777862548828,
      "epoch": 65.16417910447761,
      "grad_norm": 0.0,
      "learning_rate": 1.671317337100752e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8667
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.86111068725586,
      "epoch": 65.17164179104478,
      "grad_norm": 0.0,
      "learning_rate": 1.6707029411539864e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8668
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.69444465637207,
      "epoch": 65.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 1.6700886014821889e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8669
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.86111068725586,
      "epoch": 65.18656716417911,
      "grad_norm": 0.0,
      "learning_rate": 1.669474318127047e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8670
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.86111068725586,
      "epoch": 65.19402985074628,
      "grad_norm": 0.0,
      "learning_rate": 1.6688600911302449e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8671
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.41666603088379,
      "epoch": 65.20149253731343,
      "grad_norm": 0.0,
      "learning_rate": 1.6682459205334636e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8672
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.69444465637207,
      "epoch": 65.2089552238806,
      "grad_norm": 0.0,
      "learning_rate": 1.6676318063783795e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8673
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.80555534362793,
      "epoch": 65.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 1.667017748706666e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8674
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.08333396911621,
      "epoch": 65.22388059701493,
      "grad_norm": 0.0,
      "learning_rate": 1.6664037475599921e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8675
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.91666603088379,
      "epoch": 65.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 1.6657898029800232e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8676
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.41666603088379,
      "epoch": 65.23880597014926,
      "grad_norm": 0.0,
      "learning_rate": 1.6651759150084215e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8677
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.66666603088379,
      "epoch": 65.24626865671642,
      "grad_norm": 0.0,
      "learning_rate": 1.6645620836868422e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8678
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.72222328186035,
      "epoch": 65.25373134328358,
      "grad_norm": 0.0,
      "learning_rate": 1.6639483090569418e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8679
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.08333396911621,
      "epoch": 65.26119402985074,
      "grad_norm": 0.0,
      "learning_rate": 1.6633345911603677e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8680
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.08333396911621,
      "epoch": 65.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 1.6627209300387678e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8681
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.69444465637207,
      "epoch": 65.27611940298507,
      "grad_norm": 0.0,
      "learning_rate": 1.6621073257337837e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8682
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.36111068725586,
      "epoch": 65.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 1.6614937782870536e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8683
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.05555534362793,
      "epoch": 65.2910447761194,
      "grad_norm": 0.0,
      "learning_rate": 1.6608802877402135e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8684
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.47222328186035,
      "epoch": 65.29850746268657,
      "grad_norm": 0.0,
      "learning_rate": 1.6602668541348914e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8685
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.16666603088379,
      "epoch": 65.30597014925372,
      "grad_norm": 0.0,
      "learning_rate": 1.659653477512715e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8686
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.11111068725586,
      "epoch": 65.31343283582089,
      "grad_norm": 0.0,
      "learning_rate": 1.6590401579153085e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8687
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.63888931274414,
      "epoch": 65.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 1.6584268953842896e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8688
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.86111068725586,
      "epoch": 65.32835820895522,
      "grad_norm": 0.0,
      "learning_rate": 1.6578136899612743e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8689
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.36111068725586,
      "epoch": 65.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 1.6572005416878737e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8690
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.83333396911621,
      "epoch": 65.34328358208955,
      "grad_norm": 0.0,
      "learning_rate": 1.6565874506056944e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8691
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.83333396911621,
      "epoch": 65.35074626865672,
      "grad_norm": 0.0,
      "learning_rate": 1.6559744167563407e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8692
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.63888931274414,
      "epoch": 65.35820895522389,
      "grad_norm": 0.0,
      "learning_rate": 1.6553614401814112e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8693
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.83333396911621,
      "epoch": 65.36567164179104,
      "grad_norm": 0.0,
      "learning_rate": 1.6547485209225032e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8694
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.0,
      "epoch": 65.3731343283582,
      "grad_norm": 40.773103078625994,
      "learning_rate": 1.6541356590212075e-07,
      "loss": -0.0027,
      "reward": 1.8333333730697632,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.8333333134651184,
      "rewards/format_reward": 1.0,
      "step": 8695
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.5,
      "epoch": 65.38059701492537,
      "grad_norm": 0.0,
      "learning_rate": 1.653522854519113e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8696
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.33333396911621,
      "epoch": 65.38805970149254,
      "grad_norm": 0.0,
      "learning_rate": 1.6529101074578033e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8697
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.58333396911621,
      "epoch": 65.3955223880597,
      "grad_norm": 0.0,
      "learning_rate": 1.652297417878858e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8698
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.86111068725586,
      "epoch": 65.40298507462687,
      "grad_norm": 0.0,
      "learning_rate": 1.6516847858238542e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8699
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.44444465637207,
      "epoch": 65.41044776119404,
      "grad_norm": 0.0,
      "learning_rate": 1.651072211334363e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8700
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.33333396911621,
      "epoch": 65.41791044776119,
      "grad_norm": 0.0,
      "learning_rate": 1.6504596944519546e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8701
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.66666603088379,
      "epoch": 65.42537313432835,
      "grad_norm": 0.0,
      "learning_rate": 1.6498472352181925e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8702
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.13888931274414,
      "epoch": 65.43283582089552,
      "grad_norm": 0.0,
      "learning_rate": 1.6492348336746378e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8703
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.30555534362793,
      "epoch": 65.44029850746269,
      "grad_norm": 0.0,
      "learning_rate": 1.6486224898628475e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8704
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.13888931274414,
      "epoch": 65.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 1.6480102038243732e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8705
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.05555534362793,
      "epoch": 65.45522388059702,
      "grad_norm": 0.0,
      "learning_rate": 1.647397975600765e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8706
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.83333396911621,
      "epoch": 65.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 1.646785805233567e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8707
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.72222328186035,
      "epoch": 65.47014925373135,
      "grad_norm": 0.0,
      "learning_rate": 1.646173692764321e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8708
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.5,
      "epoch": 65.4776119402985,
      "grad_norm": 0.0,
      "learning_rate": 1.6455616382345633e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8709
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.22222328186035,
      "epoch": 65.48507462686567,
      "grad_norm": 0.0,
      "learning_rate": 1.6449496416858282e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8710
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.72222328186035,
      "epoch": 65.49253731343283,
      "grad_norm": 0.0,
      "learning_rate": 1.6443377031596448e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8711
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.0,
      "epoch": 65.5,
      "grad_norm": 0.0,
      "learning_rate": 1.6437258226975371e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8712
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.33333396911621,
      "epoch": 65.50746268656717,
      "grad_norm": 0.0,
      "learning_rate": 1.6431140003410273e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8713
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.83333396911621,
      "epoch": 65.51492537313433,
      "grad_norm": 0.0,
      "learning_rate": 1.6425022361316325e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8714
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.05555534362793,
      "epoch": 65.5223880597015,
      "grad_norm": 0.0,
      "learning_rate": 1.6418905301108668e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8715
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.58333396911621,
      "epoch": 65.52985074626865,
      "grad_norm": 0.0,
      "learning_rate": 1.64127888232024e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8716
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.66666603088379,
      "epoch": 65.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 1.6406672928012566e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8717
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.22222328186035,
      "epoch": 65.54477611940298,
      "grad_norm": 0.0,
      "learning_rate": 1.6400557615954198e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8718
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.22222328186035,
      "epoch": 65.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 1.6394442887442254e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8719
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.13888931274414,
      "epoch": 65.55970149253731,
      "grad_norm": 0.0,
      "learning_rate": 1.6388328742891678e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8720
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.72222328186035,
      "epoch": 65.56716417910448,
      "grad_norm": 0.0,
      "learning_rate": 1.6382215182717374e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8721
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.94444465637207,
      "epoch": 65.57462686567165,
      "grad_norm": 0.0,
      "learning_rate": 1.637610220733419e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8722
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.33333396911621,
      "epoch": 65.58208955223881,
      "grad_norm": 0.0,
      "learning_rate": 1.6369989817156953e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 8723
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.38888931274414,
      "epoch": 65.58955223880596,
      "grad_norm": 0.0,
      "learning_rate": 1.6363878012600433e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8724
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.19444465637207,
      "epoch": 65.59701492537313,
      "grad_norm": 0.0,
      "learning_rate": 1.6357766794079382e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8725
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.69444465637207,
      "epoch": 65.6044776119403,
      "grad_norm": 0.0,
      "learning_rate": 1.6351656162008489e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8726
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.58333396911621,
      "epoch": 65.61194029850746,
      "grad_norm": 0.0,
      "learning_rate": 1.6345546116802408e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8727
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.47222328186035,
      "epoch": 65.61940298507463,
      "grad_norm": 0.0,
      "learning_rate": 1.6339436658875772e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8728
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.75,
      "epoch": 65.6268656716418,
      "grad_norm": 0.0,
      "learning_rate": 1.6333327788643144e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8729
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.5,
      "epoch": 65.63432835820896,
      "grad_norm": 0.0,
      "learning_rate": 1.632721950651908e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 8730
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.38888931274414,
      "epoch": 65.64179104477611,
      "grad_norm": 0.0,
      "learning_rate": 1.6321111812918078e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8731
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.25,
      "epoch": 65.64925373134328,
      "grad_norm": 0.0,
      "learning_rate": 1.631500470825458e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8732
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.66666603088379,
      "epoch": 65.65671641791045,
      "grad_norm": 0.0,
      "learning_rate": 1.6308898192943027e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8733
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.72222328186035,
      "epoch": 65.66417910447761,
      "grad_norm": 0.0,
      "learning_rate": 1.6302792267397785e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8734
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.30555534362793,
      "epoch": 65.67164179104478,
      "grad_norm": 0.0,
      "learning_rate": 1.62966869320332e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8735
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.55555534362793,
      "epoch": 65.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 1.6290582187263568e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8736
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.97222328186035,
      "epoch": 65.68656716417911,
      "grad_norm": 0.0,
      "learning_rate": 1.6284478033503157e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8737
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.16666603088379,
      "epoch": 65.69402985074628,
      "grad_norm": 0.0,
      "learning_rate": 1.6278374471166184e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8738
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.83333396911621,
      "epoch": 65.70149253731343,
      "grad_norm": 0.0,
      "learning_rate": 1.6272271500666818e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8739
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.55555534362793,
      "epoch": 65.7089552238806,
      "grad_norm": 0.0,
      "learning_rate": 1.6266169122419207e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8740
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.13888931274414,
      "epoch": 65.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 1.6260067336837446e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8741
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.11111068725586,
      "epoch": 65.72388059701493,
      "grad_norm": 0.0,
      "learning_rate": 1.6253966144335598e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8742
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.02777862548828,
      "epoch": 65.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 1.6247865545327677e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8743
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.08333396911621,
      "epoch": 65.73880597014926,
      "grad_norm": 0.0,
      "learning_rate": 1.6241765540227663e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8744
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.33333396911621,
      "epoch": 65.74626865671642,
      "grad_norm": 0.0,
      "learning_rate": 1.623566612944951e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8745
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.27777862548828,
      "epoch": 65.75373134328358,
      "grad_norm": 0.0,
      "learning_rate": 1.622956731340709e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8746
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.0,
      "epoch": 65.76119402985074,
      "grad_norm": 0.0,
      "learning_rate": 1.6223469092514268e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8747
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.83333396911621,
      "epoch": 65.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 1.621737146718487e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 8748
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.72222328186035,
      "epoch": 65.77611940298507,
      "grad_norm": 0.0,
      "learning_rate": 1.6211274437832662e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8749
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.83333396911621,
      "epoch": 65.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 1.620517800487139e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8750
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.69444465637207,
      "epoch": 65.7910447761194,
      "grad_norm": 0.0,
      "learning_rate": 1.619908216871474e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8751
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.55555534362793,
      "epoch": 65.79850746268657,
      "grad_norm": 0.0,
      "learning_rate": 1.6192986929776381e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8752
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.41666603088379,
      "epoch": 65.80597014925372,
      "grad_norm": 0.0,
      "learning_rate": 1.6186892288469914e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8753
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.08333396911621,
      "epoch": 65.81343283582089,
      "grad_norm": 0.0,
      "learning_rate": 1.618079824520891e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 8754
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.66666603088379,
      "epoch": 65.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 1.617470480040692e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8755
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.25,
      "epoch": 65.82835820895522,
      "grad_norm": 0.0,
      "learning_rate": 1.6168611954477415e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8756
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.11111068725586,
      "epoch": 65.83582089552239,
      "grad_norm": 0.0,
      "learning_rate": 1.6162519707833866e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8757
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.25,
      "epoch": 65.84328358208955,
      "grad_norm": 0.0,
      "learning_rate": 1.6156428060889674e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8758
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.5,
      "epoch": 65.85074626865672,
      "grad_norm": 0.0,
      "learning_rate": 1.6150337014058225e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8759
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.80555534362793,
      "epoch": 65.85820895522389,
      "grad_norm": 0.0,
      "learning_rate": 1.6144246567752828e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8760
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.80555534362793,
      "epoch": 65.86567164179104,
      "grad_norm": 0.0,
      "learning_rate": 1.613815672238678e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8761
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.55555534362793,
      "epoch": 65.8731343283582,
      "grad_norm": 0.0,
      "learning_rate": 1.6132067478373333e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8762
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.66666603088379,
      "epoch": 65.88059701492537,
      "grad_norm": 0.0,
      "learning_rate": 1.612597883612569e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8763
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.02777862548828,
      "epoch": 65.88805970149254,
      "grad_norm": 0.0,
      "learning_rate": 1.6119890796057027e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8764
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.11111068725586,
      "epoch": 65.8955223880597,
      "grad_norm": 0.0,
      "learning_rate": 1.611380335858047e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8765
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.66666603088379,
      "epoch": 65.90298507462687,
      "grad_norm": 0.0,
      "learning_rate": 1.6107716524109083e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8766
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.0,
      "epoch": 65.91044776119404,
      "grad_norm": 0.0,
      "learning_rate": 1.6101630293055934e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8767
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.86111068725586,
      "epoch": 65.91791044776119,
      "grad_norm": 0.0,
      "learning_rate": 1.6095544665834016e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8768
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.61111068725586,
      "epoch": 65.92537313432835,
      "grad_norm": 0.0,
      "learning_rate": 1.6089459642856297e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8769
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.05555534362793,
      "epoch": 65.93283582089552,
      "grad_norm": 0.0,
      "learning_rate": 1.6083375224535685e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8770
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.30555534362793,
      "epoch": 65.94029850746269,
      "grad_norm": 0.0,
      "learning_rate": 1.607729141128508e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8771
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.47222328186035,
      "epoch": 65.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 1.6071208203517317e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8772
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.83333396911621,
      "epoch": 65.95522388059702,
      "grad_norm": 0.0,
      "learning_rate": 1.6065125601645174e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8773
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.25,
      "epoch": 65.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 1.6059043606081424e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8774
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.69444465637207,
      "epoch": 65.97014925373135,
      "grad_norm": 0.0,
      "learning_rate": 1.605296221723879e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8775
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.58333396911621,
      "epoch": 65.9776119402985,
      "grad_norm": 0.0,
      "learning_rate": 1.604688143552993e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8776
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.75,
      "epoch": 65.98507462686567,
      "grad_norm": 0.0,
      "learning_rate": 1.6040801261367493e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8777
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.58333396911621,
      "epoch": 65.99253731343283,
      "grad_norm": 0.0,
      "learning_rate": 1.6034721695164058e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8778
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.5,
      "epoch": 66.00746268656717,
      "grad_norm": 0.0,
      "learning_rate": 1.6028642737332193e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8779
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.63888931274414,
      "epoch": 66.01492537313433,
      "grad_norm": 0.0,
      "learning_rate": 1.602256438828439e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8780
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.16666603088379,
      "epoch": 66.0223880597015,
      "grad_norm": 0.0,
      "learning_rate": 1.6016486648433118e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8781
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.36111068725586,
      "epoch": 66.02985074626865,
      "grad_norm": 0.0,
      "learning_rate": 1.601040951819082e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8782
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.08333396911621,
      "epoch": 66.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 1.6004332997969866e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8783
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.44444465637207,
      "epoch": 66.04477611940298,
      "grad_norm": 0.0,
      "learning_rate": 1.5998257088182616e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 8784
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.86111068725586,
      "epoch": 66.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 1.5992181789241352e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8785
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.36111068725586,
      "epoch": 66.05970149253731,
      "grad_norm": 0.0,
      "learning_rate": 1.598610710155836e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8786
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.55555534362793,
      "epoch": 66.06716417910448,
      "grad_norm": 0.0,
      "learning_rate": 1.598003302554584e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8787
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.05555534362793,
      "epoch": 66.07462686567165,
      "grad_norm": 0.0,
      "learning_rate": 1.5973959561615976e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8788
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.83333396911621,
      "epoch": 66.08208955223881,
      "grad_norm": 0.0,
      "learning_rate": 1.596788671018091e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8789
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.63888931274414,
      "epoch": 66.08955223880596,
      "grad_norm": 0.0,
      "learning_rate": 1.5961814471652729e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8790
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.75,
      "epoch": 66.09701492537313,
      "grad_norm": 0.0,
      "learning_rate": 1.59557428464435e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8791
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.52777862548828,
      "epoch": 66.1044776119403,
      "grad_norm": 0.0,
      "learning_rate": 1.594967183496522e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8792
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.30555534362793,
      "epoch": 66.11194029850746,
      "grad_norm": 0.0,
      "learning_rate": 1.5943601437629878e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8793
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.94444465637207,
      "epoch": 66.11940298507463,
      "grad_norm": 0.0,
      "learning_rate": 1.5937531654849385e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8794
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.19444465637207,
      "epoch": 66.1268656716418,
      "grad_norm": 0.0,
      "learning_rate": 1.593146248703563e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8795
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.91666603088379,
      "epoch": 66.13432835820896,
      "grad_norm": 0.0,
      "learning_rate": 1.5925393934600467e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8796
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.5,
      "epoch": 66.14179104477611,
      "grad_norm": 0.0,
      "learning_rate": 1.5919325997955694e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8797
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.41666603088379,
      "epoch": 66.14925373134328,
      "grad_norm": 0.0,
      "learning_rate": 1.5913258677513076e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8798
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.5,
      "epoch": 66.15671641791045,
      "grad_norm": 0.0,
      "learning_rate": 1.590719197368433e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8799
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.47222328186035,
      "epoch": 66.16417910447761,
      "grad_norm": 0.0,
      "learning_rate": 1.5901125886881144e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8800
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.97222328186035,
      "epoch": 66.17164179104478,
      "grad_norm": 0.0,
      "learning_rate": 1.5895060417515143e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8801
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.63888931274414,
      "epoch": 66.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 1.588899556599792e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8802
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.13888931274414,
      "epoch": 66.18656716417911,
      "grad_norm": 0.0,
      "learning_rate": 1.5882931332741034e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8803
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.5,
      "epoch": 66.19402985074628,
      "grad_norm": 0.0,
      "learning_rate": 1.5876867718156e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8804
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.52777862548828,
      "epoch": 66.20149253731343,
      "grad_norm": 0.0,
      "learning_rate": 1.5870804722654275e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8805
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.16666603088379,
      "epoch": 66.2089552238806,
      "grad_norm": 0.0,
      "learning_rate": 1.5864742346647299e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8806
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.86111068725586,
      "epoch": 66.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 1.5858680590546445e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8807
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.86111068725586,
      "epoch": 66.22388059701493,
      "grad_norm": 0.0,
      "learning_rate": 1.5852619454763056e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8808
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.97222328186035,
      "epoch": 66.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 1.5846558939708436e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8809
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.02777862548828,
      "epoch": 66.23880597014926,
      "grad_norm": 0.0,
      "learning_rate": 1.5840499045793842e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8810
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.0,
      "epoch": 66.24626865671642,
      "grad_norm": 0.0,
      "learning_rate": 1.58344397734305e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8811
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.88888931274414,
      "epoch": 66.25373134328358,
      "grad_norm": 0.0,
      "learning_rate": 1.5828381123029565e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8812
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.05555534362793,
      "epoch": 66.26119402985074,
      "grad_norm": 0.0,
      "learning_rate": 1.5822323095002192e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8813
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.69444465637207,
      "epoch": 66.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 1.581626568975945e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 8814
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.44444465637207,
      "epoch": 66.27611940298507,
      "grad_norm": 0.0,
      "learning_rate": 1.581020890771239e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8815
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.47222328186035,
      "epoch": 66.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 1.5804152749272027e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8816
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.52777862548828,
      "epoch": 66.2910447761194,
      "grad_norm": 0.0,
      "learning_rate": 1.5798097214849313e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8817
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.72222328186035,
      "epoch": 66.29850746268657,
      "grad_norm": 0.0,
      "learning_rate": 1.5792042304855174e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8818
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.52777862548828,
      "epoch": 66.30597014925372,
      "grad_norm": 0.0,
      "learning_rate": 1.5785988019700486e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8819
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.58333396911621,
      "epoch": 66.31343283582089,
      "grad_norm": 0.0,
      "learning_rate": 1.5779934359796092e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8820
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.41666603088379,
      "epoch": 66.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 1.5773881325552773e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8821
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.33333396911621,
      "epoch": 66.32835820895522,
      "grad_norm": 0.0,
      "learning_rate": 1.5767828917381284e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8822
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.11111068725586,
      "epoch": 66.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 1.5761777135692337e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8823
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.94444465637207,
      "epoch": 66.34328358208955,
      "grad_norm": 0.0,
      "learning_rate": 1.5755725980896588e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8824
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.0,
      "epoch": 66.35074626865672,
      "grad_norm": 0.0,
      "learning_rate": 1.5749675453404676e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8825
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.83333396911621,
      "epoch": 66.35820895522389,
      "grad_norm": 0.0,
      "learning_rate": 1.5743625553627165e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8826
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.69444465637207,
      "epoch": 66.36567164179104,
      "grad_norm": 0.0,
      "learning_rate": 1.573757628197461e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8827
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.27777862548828,
      "epoch": 66.3731343283582,
      "grad_norm": 0.0,
      "learning_rate": 1.573152763885749e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8828
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.66666603088379,
      "epoch": 66.38059701492537,
      "grad_norm": 0.0,
      "learning_rate": 1.5725479624686263e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8829
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.5,
      "epoch": 66.38805970149254,
      "grad_norm": 0.0,
      "learning_rate": 1.5719432239871344e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8830
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.16666603088379,
      "epoch": 66.3955223880597,
      "grad_norm": 0.0,
      "learning_rate": 1.5713385484823095e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8831
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.55555534362793,
      "epoch": 66.40298507462687,
      "grad_norm": 0.0,
      "learning_rate": 1.5707339359951837e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8832
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.47222328186035,
      "epoch": 66.41044776119404,
      "grad_norm": 0.0,
      "learning_rate": 1.5701293865667864e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8833
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.44444465637207,
      "epoch": 66.41791044776119,
      "grad_norm": 0.0,
      "learning_rate": 1.569524900238141e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8834
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.66666603088379,
      "epoch": 66.42537313432835,
      "grad_norm": 0.0,
      "learning_rate": 1.5689204770502664e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8835
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.44444465637207,
      "epoch": 66.43283582089552,
      "grad_norm": 0.0,
      "learning_rate": 1.5683161170441788e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8836
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.5,
      "epoch": 66.44029850746269,
      "grad_norm": 0.0,
      "learning_rate": 1.5677118202608885e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8837
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.75,
      "epoch": 66.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 1.567107586741403e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8838
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.83333396911621,
      "epoch": 66.45522388059702,
      "grad_norm": 0.0,
      "learning_rate": 1.5665034165267238e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8839
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.44444465637207,
      "epoch": 66.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 1.565899309657851e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8840
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.83333396911621,
      "epoch": 66.47014925373135,
      "grad_norm": 0.0,
      "learning_rate": 1.5652952661757764e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8841
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.86111068725586,
      "epoch": 66.4776119402985,
      "grad_norm": 0.0,
      "learning_rate": 1.56469128612149e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8842
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.91666603088379,
      "epoch": 66.48507462686567,
      "grad_norm": 0.0,
      "learning_rate": 1.5640873695359777e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 8843
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.91666603088379,
      "epoch": 66.49253731343283,
      "grad_norm": 0.0,
      "learning_rate": 1.5634835164602196e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8844
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.05555534362793,
      "epoch": 66.5,
      "grad_norm": 0.0,
      "learning_rate": 1.5628797269351938e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8845
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.19444465637207,
      "epoch": 66.50746268656717,
      "grad_norm": 0.0,
      "learning_rate": 1.562276001001871e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8846
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.72222328186035,
      "epoch": 66.51492537313433,
      "grad_norm": 0.0,
      "learning_rate": 1.5616723387012208e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8847
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.58333396911621,
      "epoch": 66.5223880597015,
      "grad_norm": 0.0,
      "learning_rate": 1.5610687400742057e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8848
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.19444465637207,
      "epoch": 66.52985074626865,
      "grad_norm": 0.0,
      "learning_rate": 1.5604652051617846e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8849
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.11111068725586,
      "epoch": 66.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 1.5598617340049142e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8850
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.61111068725586,
      "epoch": 66.54477611940298,
      "grad_norm": 0.0,
      "learning_rate": 1.5592583266445438e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8851
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.77777862548828,
      "epoch": 66.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 1.5586549831216211e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8852
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.44444465637207,
      "epoch": 66.55970149253731,
      "grad_norm": 0.0,
      "learning_rate": 1.5580517034770868e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8853
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.75,
      "epoch": 66.56716417910448,
      "grad_norm": 0.0,
      "learning_rate": 1.55744848775188e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8854
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.94444465637207,
      "epoch": 66.57462686567165,
      "grad_norm": 0.0,
      "learning_rate": 1.5568453359869332e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8855
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.08333396911621,
      "epoch": 66.58208955223881,
      "grad_norm": 0.0,
      "learning_rate": 1.5562422482231751e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8856
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.5,
      "epoch": 66.58955223880596,
      "grad_norm": 0.0,
      "learning_rate": 1.5556392245015318e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8857
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.58333396911621,
      "epoch": 66.59701492537313,
      "grad_norm": 0.0,
      "learning_rate": 1.555036264862922e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8858
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.13888931274414,
      "epoch": 66.6044776119403,
      "grad_norm": 0.0,
      "learning_rate": 1.554433369348263e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8859
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.83333396911621,
      "epoch": 66.61194029850746,
      "grad_norm": 0.0,
      "learning_rate": 1.5538305379984658e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8860
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.16666603088379,
      "epoch": 66.61940298507463,
      "grad_norm": 0.0,
      "learning_rate": 1.553227770854439e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8861
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.72222328186035,
      "epoch": 66.6268656716418,
      "grad_norm": 0.0,
      "learning_rate": 1.5526250679570835e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8862
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.66666603088379,
      "epoch": 66.63432835820896,
      "grad_norm": 0.0,
      "learning_rate": 1.552022429347299e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8863
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.91666603088379,
      "epoch": 66.64179104477611,
      "grad_norm": 0.0,
      "learning_rate": 1.551419855065979e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8864
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.41666603088379,
      "epoch": 66.64925373134328,
      "grad_norm": 0.0,
      "learning_rate": 1.5508173451540152e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8865
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.55555534362793,
      "epoch": 66.65671641791045,
      "grad_norm": 0.0,
      "learning_rate": 1.5502148996522906e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8866
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.80555534362793,
      "epoch": 66.66417910447761,
      "grad_norm": 0.0,
      "learning_rate": 1.5496125186016886e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8867
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.75,
      "epoch": 66.67164179104478,
      "grad_norm": 0.0,
      "learning_rate": 1.5490102020430857e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8868
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.16666603088379,
      "epoch": 66.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 1.5484079500173523e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8869
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.75,
      "epoch": 66.68656716417911,
      "grad_norm": 0.0,
      "learning_rate": 1.547805762565358e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8870
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.19444465637207,
      "epoch": 66.69402985074628,
      "grad_norm": 0.0,
      "learning_rate": 1.5472036397279658e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8871
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.97222328186035,
      "epoch": 66.70149253731343,
      "grad_norm": 0.0,
      "learning_rate": 1.5466015815460358e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8872
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.25,
      "epoch": 66.7089552238806,
      "grad_norm": 0.0,
      "learning_rate": 1.5459995880604217e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8873
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.0,
      "epoch": 66.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 1.5453976593119748e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8874
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.86111068725586,
      "epoch": 66.72388059701493,
      "grad_norm": 0.0,
      "learning_rate": 1.5447957953415414e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8875
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.27777862548828,
      "epoch": 66.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 1.5441939961899619e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8876
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.0,
      "epoch": 66.73880597014926,
      "grad_norm": 0.0,
      "learning_rate": 1.5435922618980747e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8877
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.27777862548828,
      "epoch": 66.74626865671642,
      "grad_norm": 0.0,
      "learning_rate": 1.5429905925067117e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 8878
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.02777862548828,
      "epoch": 66.75373134328358,
      "grad_norm": 0.0,
      "learning_rate": 1.5423889880567025e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8879
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.5,
      "epoch": 66.76119402985074,
      "grad_norm": 0.0,
      "learning_rate": 1.5417874485888703e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8880
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.97222328186035,
      "epoch": 66.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 1.541185974144036e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8881
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.16666603088379,
      "epoch": 66.77611940298507,
      "grad_norm": 0.0,
      "learning_rate": 1.5405845647630135e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8882
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.16666603088379,
      "epoch": 66.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 1.539983220486613e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8883
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.11111068725586,
      "epoch": 66.7910447761194,
      "grad_norm": 0.0,
      "learning_rate": 1.5393819413556432e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8884
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.97222328186035,
      "epoch": 66.79850746268657,
      "grad_norm": 0.0,
      "learning_rate": 1.5387807274109035e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8885
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.61111068725586,
      "epoch": 66.80597014925372,
      "grad_norm": 0.0,
      "learning_rate": 1.5381795786931937e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8886
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.83333396911621,
      "epoch": 66.81343283582089,
      "grad_norm": 0.0,
      "learning_rate": 1.5375784952433055e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8887
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.97222328186035,
      "epoch": 66.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 1.536977477102029e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8888
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.83333396911621,
      "epoch": 66.82835820895522,
      "grad_norm": 0.0,
      "learning_rate": 1.536376524310147e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8889
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.52777862548828,
      "epoch": 66.83582089552239,
      "grad_norm": 0.0,
      "learning_rate": 1.5357756369084397e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8890
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.36111068725586,
      "epoch": 66.84328358208955,
      "grad_norm": 0.0,
      "learning_rate": 1.535174814937683e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8891
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.25,
      "epoch": 66.85074626865672,
      "grad_norm": 0.0,
      "learning_rate": 1.5345740584386468e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8892
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.52777862548828,
      "epoch": 66.85820895522389,
      "grad_norm": 0.0,
      "learning_rate": 1.5339733674520988e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8893
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.16666603088379,
      "epoch": 66.86567164179104,
      "grad_norm": 0.0,
      "learning_rate": 1.5333727420188012e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8894
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.11111068725586,
      "epoch": 66.8731343283582,
      "grad_norm": 0.0,
      "learning_rate": 1.5327721821795113e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8895
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.05555534362793,
      "epoch": 66.88059701492537,
      "grad_norm": 0.0,
      "learning_rate": 1.532171687974981e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8896
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.44444465637207,
      "epoch": 66.88805970149254,
      "grad_norm": 0.0,
      "learning_rate": 1.5315712594459606e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8897
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.94444465637207,
      "epoch": 66.8955223880597,
      "grad_norm": 0.0,
      "learning_rate": 1.5309708966331935e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8898
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.13888931274414,
      "epoch": 66.90298507462687,
      "grad_norm": 0.0,
      "learning_rate": 1.5303705995774203e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8899
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.47222328186035,
      "epoch": 66.91044776119404,
      "grad_norm": 0.0,
      "learning_rate": 1.5297703683193753e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8900
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.16666603088379,
      "epoch": 66.91791044776119,
      "grad_norm": 0.0,
      "learning_rate": 1.5291702028997904e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8901
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.83333396911621,
      "epoch": 66.92537313432835,
      "grad_norm": 0.0,
      "learning_rate": 1.5285701033593924e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8902
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.33333396911621,
      "epoch": 66.93283582089552,
      "grad_norm": 0.0,
      "learning_rate": 1.527970069738901e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8903
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.58333396911621,
      "epoch": 66.94029850746269,
      "grad_norm": 0.0,
      "learning_rate": 1.5273701020790358e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8904
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.61111068725586,
      "epoch": 66.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 1.5267702004205082e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8905
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.97222328186035,
      "epoch": 66.95522388059702,
      "grad_norm": 0.0,
      "learning_rate": 1.526170364804028e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8906
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.19444465637207,
      "epoch": 66.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 1.5255705952702987e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8907
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.22222328186035,
      "epoch": 66.97014925373135,
      "grad_norm": 0.0,
      "learning_rate": 1.5249708918600203e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8908
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.27777862548828,
      "epoch": 66.9776119402985,
      "grad_norm": 0.0,
      "learning_rate": 1.5243712546138878e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8909
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.72222328186035,
      "epoch": 66.98507462686567,
      "grad_norm": 0.0,
      "learning_rate": 1.5237716835725906e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8910
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.58333396911621,
      "epoch": 66.99253731343283,
      "grad_norm": 0.0,
      "learning_rate": 1.5231721787768158e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8911
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.02777862548828,
      "epoch": 67.00746268656717,
      "grad_norm": 0.0,
      "learning_rate": 1.5225727402672444e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8912
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.02777862548828,
      "epoch": 67.01492537313433,
      "grad_norm": 0.0,
      "learning_rate": 1.521973368084555e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8913
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.19444465637207,
      "epoch": 67.0223880597015,
      "grad_norm": 0.0,
      "learning_rate": 1.5213740622694178e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8914
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.88888931274414,
      "epoch": 67.02985074626865,
      "grad_norm": 0.0,
      "learning_rate": 1.5207748228625028e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8915
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.22222328186035,
      "epoch": 67.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 1.520175649904473e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8916
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.25,
      "epoch": 67.04477611940298,
      "grad_norm": 0.0,
      "learning_rate": 1.5195765434359874e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8917
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.27777862548828,
      "epoch": 67.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 1.5189775034977002e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8918
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.08333396911621,
      "epoch": 67.05970149253731,
      "grad_norm": 0.0,
      "learning_rate": 1.5183785301302616e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8919
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.47222328186035,
      "epoch": 67.06716417910448,
      "grad_norm": 0.0,
      "learning_rate": 1.5177796233743174e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8920
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.63888931274414,
      "epoch": 67.07462686567165,
      "grad_norm": 0.0,
      "learning_rate": 1.517180783270508e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8921
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.97222328186035,
      "epoch": 67.08208955223881,
      "grad_norm": 0.0,
      "learning_rate": 1.5165820098594715e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8922
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.83333396911621,
      "epoch": 67.08955223880596,
      "grad_norm": 0.0,
      "learning_rate": 1.515983303181838e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8923
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.38888931274414,
      "epoch": 67.09701492537313,
      "grad_norm": 0.0,
      "learning_rate": 1.5153846632782352e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8924
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.38888931274414,
      "epoch": 67.1044776119403,
      "grad_norm": 0.0,
      "learning_rate": 1.514786090189286e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8925
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.0,
      "epoch": 67.11194029850746,
      "grad_norm": 0.0,
      "learning_rate": 1.51418758395561e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8926
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.86111068725586,
      "epoch": 67.11940298507463,
      "grad_norm": 0.0,
      "learning_rate": 1.5135891446178196e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8927
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.0,
      "epoch": 67.1268656716418,
      "grad_norm": 0.0,
      "learning_rate": 1.5129907722165253e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8928
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.97222328186035,
      "epoch": 67.13432835820896,
      "grad_norm": 0.0,
      "learning_rate": 1.5123924667923314e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8929
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.94444465637207,
      "epoch": 67.14179104477611,
      "grad_norm": 0.0,
      "learning_rate": 1.5117942283858366e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8930
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.19444465637207,
      "epoch": 67.14925373134328,
      "grad_norm": 0.0,
      "learning_rate": 1.5111960570376385e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8931
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.38888931274414,
      "epoch": 67.15671641791045,
      "grad_norm": 0.0,
      "learning_rate": 1.510597952788327e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8932
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.77777862548828,
      "epoch": 67.16417910447761,
      "grad_norm": 0.0,
      "learning_rate": 1.50999991567849e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8933
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.66666603088379,
      "epoch": 67.17164179104478,
      "grad_norm": 0.0,
      "learning_rate": 1.5094019457487074e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8934
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.5,
      "epoch": 67.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 1.508804043039559e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8935
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.30555534362793,
      "epoch": 67.18656716417911,
      "grad_norm": 0.0,
      "learning_rate": 1.5082062075916164e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8936
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.36111068725586,
      "epoch": 67.19402985074628,
      "grad_norm": 0.0,
      "learning_rate": 1.5076084394454475e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8937
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.94444465637207,
      "epoch": 67.20149253731343,
      "grad_norm": 0.0,
      "learning_rate": 1.5070107386416164e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8938
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.61111068725586,
      "epoch": 67.2089552238806,
      "grad_norm": 0.0,
      "learning_rate": 1.5064131052206825e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8939
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.97222328186035,
      "epoch": 67.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 1.5058155392232003e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8940
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.86111068725586,
      "epoch": 67.22388059701493,
      "grad_norm": 0.0,
      "learning_rate": 1.5052180406897194e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8941
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.11111068725586,
      "epoch": 67.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 1.504620609660786e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8942
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.72222328186035,
      "epoch": 67.23880597014926,
      "grad_norm": 0.0,
      "learning_rate": 1.5040232461769415e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8943
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.55555534362793,
      "epoch": 67.24626865671642,
      "grad_norm": 0.0,
      "learning_rate": 1.50342595027872e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8944
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.25,
      "epoch": 67.25373134328358,
      "grad_norm": 0.0,
      "learning_rate": 1.502828722006655e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8945
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.38888931274414,
      "epoch": 67.26119402985074,
      "grad_norm": 0.0,
      "learning_rate": 1.502231561401272e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8946
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.02777862548828,
      "epoch": 67.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 1.5016344685030958e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8947
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.30555534362793,
      "epoch": 67.27611940298507,
      "grad_norm": 0.0,
      "learning_rate": 1.501037443352642e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8948
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.05555534362793,
      "epoch": 67.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 1.5004404859904256e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8949
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.36111068725586,
      "epoch": 67.2910447761194,
      "grad_norm": 0.0,
      "learning_rate": 1.499843596456955e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8950
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.19444465637207,
      "epoch": 67.29850746268657,
      "grad_norm": 0.0,
      "learning_rate": 1.4992467747927332e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8951
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.94444465637207,
      "epoch": 67.30597014925372,
      "grad_norm": 0.0,
      "learning_rate": 1.4986500210382608e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8952
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.33333396911621,
      "epoch": 67.31343283582089,
      "grad_norm": 0.0,
      "learning_rate": 1.4980533352340318e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 8953
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.75,
      "epoch": 67.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 1.4974567174205374e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8954
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.97222328186035,
      "epoch": 67.32835820895522,
      "grad_norm": 0.0,
      "learning_rate": 1.4968601676382635e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8955
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.97222328186035,
      "epoch": 67.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 1.4962636859276907e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 8956
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.47222328186035,
      "epoch": 67.34328358208955,
      "grad_norm": 0.0,
      "learning_rate": 1.4956672723292942e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8957
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.77777862548828,
      "epoch": 67.35074626865672,
      "grad_norm": 0.0,
      "learning_rate": 1.4950709268835475e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8958
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.55555534362793,
      "epoch": 67.35820895522389,
      "grad_norm": 0.0,
      "learning_rate": 1.4944746496309172e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8959
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.91666603088379,
      "epoch": 67.36567164179104,
      "grad_norm": 0.0,
      "learning_rate": 1.493878440611866e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8960
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.47222328186035,
      "epoch": 67.3731343283582,
      "grad_norm": 0.0,
      "learning_rate": 1.4932822998668513e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8961
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.72222328186035,
      "epoch": 67.38059701492537,
      "grad_norm": 0.0,
      "learning_rate": 1.4926862274363271e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8962
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.0,
      "epoch": 67.38805970149254,
      "grad_norm": 0.0,
      "learning_rate": 1.4920902233607424e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8963
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.86111068725586,
      "epoch": 67.3955223880597,
      "grad_norm": 0.0,
      "learning_rate": 1.4914942876805398e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8964
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.19444465637207,
      "epoch": 67.40298507462687,
      "grad_norm": 0.0,
      "learning_rate": 1.4908984204361595e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8965
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.05555534362793,
      "epoch": 67.41044776119404,
      "grad_norm": 0.0,
      "learning_rate": 1.4903026216680363e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8966
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.63888931274414,
      "epoch": 67.41791044776119,
      "grad_norm": 0.0,
      "learning_rate": 1.4897068914166007e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8967
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.44444465637207,
      "epoch": 67.42537313432835,
      "grad_norm": 0.0,
      "learning_rate": 1.4891112297222767e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8968
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.0,
      "epoch": 67.43283582089552,
      "grad_norm": 0.0,
      "learning_rate": 1.4885156366254863e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8969
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.52777862548828,
      "epoch": 67.44029850746269,
      "grad_norm": 0.0,
      "learning_rate": 1.4879201121666466e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8970
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.52777862548828,
      "epoch": 67.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 1.4873246563861663e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8971
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.5,
      "epoch": 67.45522388059702,
      "grad_norm": 0.0,
      "learning_rate": 1.4867292693244547e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8972
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.94444465637207,
      "epoch": 67.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 1.4861339510219123e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8973
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.11111068725586,
      "epoch": 67.47014925373135,
      "grad_norm": 0.0,
      "learning_rate": 1.4855387015189379e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8974
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.13888931274414,
      "epoch": 67.4776119402985,
      "grad_norm": 0.0,
      "learning_rate": 1.484943520855923e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8975
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.13888931274414,
      "epoch": 67.48507462686567,
      "grad_norm": 0.0,
      "learning_rate": 1.4843484090732573e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8976
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.86111068725586,
      "epoch": 67.49253731343283,
      "grad_norm": 0.0,
      "learning_rate": 1.4837533662113236e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8977
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.97222328186035,
      "epoch": 67.5,
      "grad_norm": 0.0,
      "learning_rate": 1.4831583923104998e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8978
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.72222328186035,
      "epoch": 67.50746268656717,
      "grad_norm": 0.0,
      "learning_rate": 1.4825634874111613e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8979
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.02777862548828,
      "epoch": 67.51492537313433,
      "grad_norm": 0.0,
      "learning_rate": 1.481968651553676e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8980
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.08333396911621,
      "epoch": 67.5223880597015,
      "grad_norm": 0.0,
      "learning_rate": 1.4813738847784107e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8981
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.47222328186035,
      "epoch": 67.52985074626865,
      "grad_norm": 0.0,
      "learning_rate": 1.4807791871257237e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8982
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.58333396911621,
      "epoch": 67.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 1.4801845586359713e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8983
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.52777862548828,
      "epoch": 67.54477611940298,
      "grad_norm": 0.0,
      "learning_rate": 1.4795899993495047e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8984
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.13888931274414,
      "epoch": 67.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 1.478995509306669e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8985
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.30555534362793,
      "epoch": 67.55970149253731,
      "grad_norm": 0.0,
      "learning_rate": 1.478401088547805e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8986
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.55555534362793,
      "epoch": 67.56716417910448,
      "grad_norm": 0.0,
      "learning_rate": 1.4778067371132503e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8987
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 22.47222328186035,
      "epoch": 67.57462686567165,
      "grad_norm": 0.0,
      "learning_rate": 1.4772124550433357e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8988
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.75,
      "epoch": 67.58208955223881,
      "grad_norm": 0.0,
      "learning_rate": 1.4766182423783895e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8989
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.69444465637207,
      "epoch": 67.58955223880596,
      "grad_norm": 0.0,
      "learning_rate": 1.4760240991587335e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8990
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.05555534362793,
      "epoch": 67.59701492537313,
      "grad_norm": 0.0,
      "learning_rate": 1.475430025424687e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8991
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.44444465637207,
      "epoch": 67.6044776119403,
      "grad_norm": 0.0,
      "learning_rate": 1.4748360212165607e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8992
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.52777862548828,
      "epoch": 67.61194029850746,
      "grad_norm": 0.0,
      "learning_rate": 1.4742420865746636e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8993
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.27777862548828,
      "epoch": 67.61940298507463,
      "grad_norm": 0.0,
      "learning_rate": 1.4736482215392999e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8994
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.13888931274414,
      "epoch": 67.6268656716418,
      "grad_norm": 0.0,
      "learning_rate": 1.4730544261507676e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8995
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.61111068725586,
      "epoch": 67.63432835820896,
      "grad_norm": 0.0,
      "learning_rate": 1.4724607004493625e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 8996
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.5,
      "epoch": 67.64179104477611,
      "grad_norm": 0.0,
      "learning_rate": 1.4718670444753731e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8997
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.11111068725586,
      "epoch": 67.64925373134328,
      "grad_norm": 0.0,
      "learning_rate": 1.471273458269083e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 8998
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.83333396911621,
      "epoch": 67.65671641791045,
      "grad_norm": 0.0,
      "learning_rate": 1.4706799418707735e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 8999
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.44444465637207,
      "epoch": 67.66417910447761,
      "grad_norm": 0.0,
      "learning_rate": 1.470086495320719e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9000
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.5,
      "epoch": 67.67164179104478,
      "grad_norm": 0.0,
      "learning_rate": 1.4694931186591907e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9001
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.91666603088379,
      "epoch": 67.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 1.4688998119264536e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9002
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.72222328186035,
      "epoch": 67.68656716417911,
      "grad_norm": 0.0,
      "learning_rate": 1.4683065751627696e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9003
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.47222328186035,
      "epoch": 67.69402985074628,
      "grad_norm": 0.0,
      "learning_rate": 1.467713408408395e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9004
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.80555534362793,
      "epoch": 67.70149253731343,
      "grad_norm": 0.0,
      "learning_rate": 1.4671203117035797e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 9005
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.41666603088379,
      "epoch": 67.7089552238806,
      "grad_norm": 0.0,
      "learning_rate": 1.466527285088572e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9006
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.47222328186035,
      "epoch": 67.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 1.4659343286036125e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9007
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.88888931274414,
      "epoch": 67.72388059701493,
      "grad_norm": 0.0,
      "learning_rate": 1.4653414422889398e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9008
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.33333396911621,
      "epoch": 67.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 1.4647486261847855e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9009
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.41666603088379,
      "epoch": 67.73880597014926,
      "grad_norm": 0.0,
      "learning_rate": 1.464155880331378e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9010
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.91666603088379,
      "epoch": 67.74626865671642,
      "grad_norm": 0.0,
      "learning_rate": 1.4635632047689407e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9011
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.77777862548828,
      "epoch": 67.75373134328358,
      "grad_norm": 0.0,
      "learning_rate": 1.462970599537689e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9012
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.33333396911621,
      "epoch": 67.76119402985074,
      "grad_norm": 0.0,
      "learning_rate": 1.462378064677839e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9013
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.5,
      "epoch": 67.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 1.4617856002295985e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9014
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.52777862548828,
      "epoch": 67.77611940298507,
      "grad_norm": 0.0,
      "learning_rate": 1.4611932062331708e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9015
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.05555534362793,
      "epoch": 67.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 1.460600882728756e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9016
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.52777862548828,
      "epoch": 67.7910447761194,
      "grad_norm": 0.0,
      "learning_rate": 1.4600086297565473e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9017
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.11111068725586,
      "epoch": 67.79850746268657,
      "grad_norm": 0.0,
      "learning_rate": 1.4594164473567363e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9018
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.25,
      "epoch": 67.80597014925372,
      "grad_norm": 0.0,
      "learning_rate": 1.4588243355695047e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9019
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.77777862548828,
      "epoch": 67.81343283582089,
      "grad_norm": 0.0,
      "learning_rate": 1.4582322944350333e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9020
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.02777862548828,
      "epoch": 67.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 1.4576403239934982e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9021
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.02777862548828,
      "epoch": 67.82835820895522,
      "grad_norm": 0.0,
      "learning_rate": 1.4570484242850698e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9022
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.27777862548828,
      "epoch": 67.83582089552239,
      "grad_norm": 6.222949153532995,
      "learning_rate": 1.4564565953499118e-07,
      "loss": 0.0129,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 9023
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.25,
      "epoch": 67.84328358208955,
      "grad_norm": 0.0,
      "learning_rate": 1.4558648372281868e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9024
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.61111068725586,
      "epoch": 67.85074626865672,
      "grad_norm": 0.0,
      "learning_rate": 1.4552731499600506e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9025
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.88888931274414,
      "epoch": 67.85820895522389,
      "grad_norm": 0.0,
      "learning_rate": 1.4546815335856526e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9026
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.72222328186035,
      "epoch": 67.86567164179104,
      "grad_norm": 0.0,
      "learning_rate": 1.4540899881451413e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9027
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.72222328186035,
      "epoch": 67.8731343283582,
      "grad_norm": 0.0,
      "learning_rate": 1.453498513678656e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9028
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.33333396911621,
      "epoch": 67.88059701492537,
      "grad_norm": 0.0,
      "learning_rate": 1.452907110226334e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9029
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.47222328186035,
      "epoch": 67.88805970149254,
      "grad_norm": 0.0,
      "learning_rate": 1.452315777828308e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9030
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.55555534362793,
      "epoch": 67.8955223880597,
      "grad_norm": 0.0,
      "learning_rate": 1.4517245165247056e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9031
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.22222328186035,
      "epoch": 67.90298507462687,
      "grad_norm": 0.0,
      "learning_rate": 1.4511333263556474e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9032
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.94444465637207,
      "epoch": 67.91044776119404,
      "grad_norm": 0.0,
      "learning_rate": 1.4505422073612507e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9033
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.16666603088379,
      "epoch": 67.91791044776119,
      "grad_norm": 0.0,
      "learning_rate": 1.4499511595816285e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9034
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.19444465637207,
      "epoch": 67.92537313432835,
      "grad_norm": 0.0,
      "learning_rate": 1.4493601830568885e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9035
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.77777862548828,
      "epoch": 67.93283582089552,
      "grad_norm": 0.0,
      "learning_rate": 1.4487692778271348e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9036
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.08333396911621,
      "epoch": 67.94029850746269,
      "grad_norm": 0.0,
      "learning_rate": 1.4481784439324633e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9037
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.77777862548828,
      "epoch": 67.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 1.4475876814129689e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9038
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.72222328186035,
      "epoch": 67.95522388059702,
      "grad_norm": 0.0,
      "learning_rate": 1.4469969903087383e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9039
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.08333396911621,
      "epoch": 67.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 1.4464063706598562e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9040
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.0,
      "epoch": 67.97014925373135,
      "grad_norm": 0.0,
      "learning_rate": 1.4458158225064016e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9041
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.36111068725586,
      "epoch": 67.9776119402985,
      "grad_norm": 0.0,
      "learning_rate": 1.4452253458884466e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9042
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.02777862548828,
      "epoch": 67.98507462686567,
      "grad_norm": 0.0,
      "learning_rate": 1.4446349408460613e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9043
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.416667938232422,
      "epoch": 67.99253731343283,
      "grad_norm": 0.0,
      "learning_rate": 1.4440446074193096e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9044
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.0,
      "epoch": 68.00746268656717,
      "grad_norm": 0.0,
      "learning_rate": 1.4434543456482518e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9045
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.75,
      "epoch": 68.01492537313433,
      "grad_norm": 0.0,
      "learning_rate": 1.44286415557294e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9046
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.22222328186035,
      "epoch": 68.0223880597015,
      "grad_norm": 0.0,
      "learning_rate": 1.4422740372334262e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9047
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.41666603088379,
      "epoch": 68.02985074626865,
      "grad_norm": 0.0,
      "learning_rate": 1.4416839906697525e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9048
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.08333396911621,
      "epoch": 68.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 1.4410940159219603e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9049
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.16666603088379,
      "epoch": 68.04477611940298,
      "grad_norm": 0.0,
      "learning_rate": 1.4405041130300839e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9050
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.97222328186035,
      "epoch": 68.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 1.439914282034154e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9051
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.47222328186035,
      "epoch": 68.05970149253731,
      "grad_norm": 0.0,
      "learning_rate": 1.4393245229741957e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9052
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.02777862548828,
      "epoch": 68.06716417910448,
      "grad_norm": 0.0,
      "learning_rate": 1.4387348358902278e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9053
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.94444465637207,
      "epoch": 68.07462686567165,
      "grad_norm": 0.0,
      "learning_rate": 1.4381452208222666e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9054
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.36111068725586,
      "epoch": 68.08208955223881,
      "grad_norm": 0.0,
      "learning_rate": 1.4375556778103227e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9055
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.94444465637207,
      "epoch": 68.08955223880596,
      "grad_norm": 0.0,
      "learning_rate": 1.436966206894402e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9056
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.86111068725586,
      "epoch": 68.09701492537313,
      "grad_norm": 0.0,
      "learning_rate": 1.4363768081145045e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9057
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.36111068725586,
      "epoch": 68.1044776119403,
      "grad_norm": 0.0,
      "learning_rate": 1.4357874815106259e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9058
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.66666603088379,
      "epoch": 68.11194029850746,
      "grad_norm": 0.0,
      "learning_rate": 1.4351982271227582e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9059
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.16666603088379,
      "epoch": 68.11940298507463,
      "grad_norm": 0.0,
      "learning_rate": 1.434609044990886e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9060
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.91666603088379,
      "epoch": 68.1268656716418,
      "grad_norm": 0.0,
      "learning_rate": 1.4340199351549923e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9061
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.22222328186035,
      "epoch": 68.13432835820896,
      "grad_norm": 0.0,
      "learning_rate": 1.4334308976550507e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9062
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.30555534362793,
      "epoch": 68.14179104477611,
      "grad_norm": 0.0,
      "learning_rate": 1.4328419325310338e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9063
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.02777862548828,
      "epoch": 68.14925373134328,
      "grad_norm": 0.0,
      "learning_rate": 1.4322530398229082e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9064
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.75,
      "epoch": 68.15671641791045,
      "grad_norm": 0.0,
      "learning_rate": 1.4316642195706363e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9065
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.47222328186035,
      "epoch": 68.16417910447761,
      "grad_norm": 0.0,
      "learning_rate": 1.4310754718141732e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9066
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.30555534362793,
      "epoch": 68.17164179104478,
      "grad_norm": 0.0,
      "learning_rate": 1.43048679659347e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9067
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.91666603088379,
      "epoch": 68.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 1.4298981939484742e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9068
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.05555534362793,
      "epoch": 68.18656716417911,
      "grad_norm": 0.0,
      "learning_rate": 1.4293096639191275e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9069
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.77777862548828,
      "epoch": 68.19402985074628,
      "grad_norm": 0.0,
      "learning_rate": 1.428721206545368e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 9070
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.36111068725586,
      "epoch": 68.20149253731343,
      "grad_norm": 0.0,
      "learning_rate": 1.4281328218671252e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9071
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.61111068725586,
      "epoch": 68.2089552238806,
      "grad_norm": 0.0,
      "learning_rate": 1.4275445099243282e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9072
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.80555534362793,
      "epoch": 68.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 1.4269562707568977e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9073
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.25,
      "epoch": 68.22388059701493,
      "grad_norm": 0.0,
      "learning_rate": 1.4263681044047509e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9074
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.75,
      "epoch": 68.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 1.4257800109078007e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9075
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.36111068725586,
      "epoch": 68.23880597014926,
      "grad_norm": 0.0,
      "learning_rate": 1.4251919903059545e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9076
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.02777862548828,
      "epoch": 68.24626865671642,
      "grad_norm": 0.0,
      "learning_rate": 1.4246040426391138e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9077
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.80555534362793,
      "epoch": 68.25373134328358,
      "grad_norm": 0.0,
      "learning_rate": 1.4240161679471754e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9078
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.5,
      "epoch": 68.26119402985074,
      "grad_norm": 0.0,
      "learning_rate": 1.4234283662700336e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9079
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.11111068725586,
      "epoch": 68.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 1.422840637647574e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9080
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.0,
      "epoch": 68.27611940298507,
      "grad_norm": 0.0,
      "learning_rate": 1.4222529821196805e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9081
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.94444465637207,
      "epoch": 68.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 1.421665399726229e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9082
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.72222328186035,
      "epoch": 68.2910447761194,
      "grad_norm": 0.0,
      "learning_rate": 1.421077890507093e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9083
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.97222328186035,
      "epoch": 68.29850746268657,
      "grad_norm": 0.0,
      "learning_rate": 1.4204904545021395e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9084
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.47222328186035,
      "epoch": 68.30597014925372,
      "grad_norm": 0.0,
      "learning_rate": 1.4199030917512327e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9085
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.58333396911621,
      "epoch": 68.31343283582089,
      "grad_norm": 0.0,
      "learning_rate": 1.419315802294229e-07,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 9086
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.44444465637207,
      "epoch": 68.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 1.4187285861709808e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9087
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.75,
      "epoch": 68.32835820895522,
      "grad_norm": 0.0,
      "learning_rate": 1.4181414434213357e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9088
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.5,
      "epoch": 68.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 1.4175543740851368e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9089
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.11111068725586,
      "epoch": 68.34328358208955,
      "grad_norm": 0.0,
      "learning_rate": 1.416967378202223e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9090
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.88888931274414,
      "epoch": 68.35074626865672,
      "grad_norm": 0.0,
      "learning_rate": 1.4163804558124247e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9091
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.61111068725586,
      "epoch": 68.35820895522389,
      "grad_norm": 0.0,
      "learning_rate": 1.415793606955571e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9092
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.19444465637207,
      "epoch": 68.36567164179104,
      "grad_norm": 0.0,
      "learning_rate": 1.4152068316714853e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9093
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.94444465637207,
      "epoch": 68.3731343283582,
      "grad_norm": 0.0,
      "learning_rate": 1.4146201299999843e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9094
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.02777862548828,
      "epoch": 68.38059701492537,
      "grad_norm": 0.0,
      "learning_rate": 1.4140335019808814e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9095
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.75,
      "epoch": 68.38805970149254,
      "grad_norm": 0.0,
      "learning_rate": 1.4134469476539835e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9096
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.25,
      "epoch": 68.3955223880597,
      "grad_norm": 0.0,
      "learning_rate": 1.412860467059094e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9097
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.5,
      "epoch": 68.40298507462687,
      "grad_norm": 0.0,
      "learning_rate": 1.41227406023601e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 9098
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.16666603088379,
      "epoch": 68.41044776119404,
      "grad_norm": 0.0,
      "learning_rate": 1.411687727224526e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9099
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.80555534362793,
      "epoch": 68.41791044776119,
      "grad_norm": 0.0,
      "learning_rate": 1.411101468064429e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9100
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.30555534362793,
      "epoch": 68.42537313432835,
      "grad_norm": 0.0,
      "learning_rate": 1.4105152827955004e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9101
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.66666603088379,
      "epoch": 68.43283582089552,
      "grad_norm": 0.0,
      "learning_rate": 1.4099291714575183e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9102
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.08333396911621,
      "epoch": 68.44029850746269,
      "grad_norm": 0.0,
      "learning_rate": 1.4093431340902565e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9103
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.94444465637207,
      "epoch": 68.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 1.408757170733482e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9104
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.69444465637207,
      "epoch": 68.45522388059702,
      "grad_norm": 0.0,
      "learning_rate": 1.408171281426959e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9105
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.80555534362793,
      "epoch": 68.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 1.4075854662104426e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9106
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.80555534362793,
      "epoch": 68.47014925373135,
      "grad_norm": 0.0,
      "learning_rate": 1.406999725123688e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 9107
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.77777862548828,
      "epoch": 68.4776119402985,
      "grad_norm": 188.05719407384856,
      "learning_rate": 1.40641405820644e-07,
      "loss": -0.0105,
      "reward": 1.9444444179534912,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.944444477558136,
      "rewards/format_reward": 1.0,
      "step": 9108
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.80555534362793,
      "epoch": 68.48507462686567,
      "grad_norm": 0.0,
      "learning_rate": 1.405828465498443e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9109
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.91666603088379,
      "epoch": 68.49253731343283,
      "grad_norm": 0.0,
      "learning_rate": 1.4052429470394352e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9110
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.83333396911621,
      "epoch": 68.5,
      "grad_norm": 0.0,
      "learning_rate": 1.4046575028691465e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9111
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.47222328186035,
      "epoch": 68.50746268656717,
      "grad_norm": 0.0,
      "learning_rate": 1.404072133027306e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9112
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.19444465637207,
      "epoch": 68.51492537313433,
      "grad_norm": 0.0,
      "learning_rate": 1.4034868375536373e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9113
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.69444465637207,
      "epoch": 68.5223880597015,
      "grad_norm": 0.0,
      "learning_rate": 1.4029016164878552e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9114
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.72222328186035,
      "epoch": 68.52985074626865,
      "grad_norm": 0.0,
      "learning_rate": 1.4023164698696744e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9115
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.22222328186035,
      "epoch": 68.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 1.4017313977387995e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9116
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.5,
      "epoch": 68.54477611940298,
      "grad_norm": 0.0,
      "learning_rate": 1.401146400134935e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9117
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.83333396911621,
      "epoch": 68.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 1.4005614770977763e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9118
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.30555534362793,
      "epoch": 68.55970149253731,
      "grad_norm": 0.0,
      "learning_rate": 1.399976628667018e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9119
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.30555534362793,
      "epoch": 68.56716417910448,
      "grad_norm": 0.0,
      "learning_rate": 1.3993918548823453e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9120
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.77777862548828,
      "epoch": 68.57462686567165,
      "grad_norm": 0.0,
      "learning_rate": 1.3988071557834394e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9121
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.61111068725586,
      "epoch": 68.58208955223881,
      "grad_norm": 0.0,
      "learning_rate": 1.3982225314099783e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9122
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.08333396911621,
      "epoch": 68.58955223880596,
      "grad_norm": 0.0,
      "learning_rate": 1.3976379818016331e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9123
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.75,
      "epoch": 68.59701492537313,
      "grad_norm": 0.0,
      "learning_rate": 1.3970535069980726e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9124
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.83333396911621,
      "epoch": 68.6044776119403,
      "grad_norm": 0.0,
      "learning_rate": 1.396469107038956e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9125
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.0,
      "epoch": 68.61194029850746,
      "grad_norm": 0.0,
      "learning_rate": 1.3958847819639404e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9126
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.72222328186035,
      "epoch": 68.61940298507463,
      "grad_norm": 0.0,
      "learning_rate": 1.3953005318126792e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9127
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.77777862548828,
      "epoch": 68.6268656716418,
      "grad_norm": 0.0,
      "learning_rate": 1.394716356624816e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9128
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.08333396911621,
      "epoch": 68.63432835820896,
      "grad_norm": 0.0,
      "learning_rate": 1.394132256439995e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9129
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.61111068725586,
      "epoch": 68.64179104477611,
      "grad_norm": 0.0,
      "learning_rate": 1.3935482312978492e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9130
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.77777862548828,
      "epoch": 68.64925373134328,
      "grad_norm": 0.0,
      "learning_rate": 1.3929642812380122e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 9131
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.02777862548828,
      "epoch": 68.65671641791045,
      "grad_norm": 0.0,
      "learning_rate": 1.3923804063001088e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9132
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.61111068725586,
      "epoch": 68.66417910447761,
      "grad_norm": 0.0,
      "learning_rate": 1.3917966065237608e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9133
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.91666603088379,
      "epoch": 68.67164179104478,
      "grad_norm": 0.0,
      "learning_rate": 1.3912128819485848e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9134
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.0,
      "epoch": 68.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 1.3906292326141903e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9135
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.94444465637207,
      "epoch": 68.68656716417911,
      "grad_norm": 0.0,
      "learning_rate": 1.3900456585601822e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9136
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.63888931274414,
      "epoch": 68.69402985074628,
      "grad_norm": 0.0,
      "learning_rate": 1.3894621598261618e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9137
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.75,
      "epoch": 68.70149253731343,
      "grad_norm": 0.0,
      "learning_rate": 1.388878736451725e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9138
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.30555534362793,
      "epoch": 68.7089552238806,
      "grad_norm": 0.0,
      "learning_rate": 1.388295388476463e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9139
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.02777862548828,
      "epoch": 68.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 1.3877121159399585e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9140
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.83333396911621,
      "epoch": 68.72388059701493,
      "grad_norm": 0.0,
      "learning_rate": 1.387128918881794e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9141
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.25,
      "epoch": 68.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 1.3865457973415427e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9142
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.11111068725586,
      "epoch": 68.73880597014926,
      "grad_norm": 0.0,
      "learning_rate": 1.3859627513587745e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9143
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.86111068725586,
      "epoch": 68.74626865671642,
      "grad_norm": 0.0,
      "learning_rate": 1.385379780973056e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9144
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.27777862548828,
      "epoch": 68.75373134328358,
      "grad_norm": 0.0,
      "learning_rate": 1.3847968862239445e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9145
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.58333396911621,
      "epoch": 68.76119402985074,
      "grad_norm": 0.0,
      "learning_rate": 1.3842140671509955e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9146
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.88888931274414,
      "epoch": 68.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 1.383631323793759e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9147
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.44444465637207,
      "epoch": 68.77611940298507,
      "grad_norm": 0.0,
      "learning_rate": 1.3830486561917778e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9148
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.13888931274414,
      "epoch": 68.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 1.3824660643845925e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9149
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.58333396911621,
      "epoch": 68.7910447761194,
      "grad_norm": 0.0,
      "learning_rate": 1.3818835484117347e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9150
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.80555534362793,
      "epoch": 68.79850746268657,
      "grad_norm": 0.0,
      "learning_rate": 1.3813011083127346e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9151
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.83333396911621,
      "epoch": 68.80597014925372,
      "grad_norm": 0.0,
      "learning_rate": 1.3807187441271158e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9152
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.25,
      "epoch": 68.81343283582089,
      "grad_norm": 0.0,
      "learning_rate": 1.3801364558943974e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9153
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.27777862548828,
      "epoch": 68.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 1.379554243654092e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9154
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.77777862548828,
      "epoch": 68.82835820895522,
      "grad_norm": 0.0,
      "learning_rate": 1.378972107445706e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9155
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.61111068725586,
      "epoch": 68.83582089552239,
      "grad_norm": 0.0,
      "learning_rate": 1.3783900473087446e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9156
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.80555534362793,
      "epoch": 68.84328358208955,
      "grad_norm": 0.0,
      "learning_rate": 1.377808063282705e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9157
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.25,
      "epoch": 68.85074626865672,
      "grad_norm": 0.0,
      "learning_rate": 1.3772261554070806e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9158
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.47222328186035,
      "epoch": 68.85820895522389,
      "grad_norm": 0.0,
      "learning_rate": 1.376644323721357e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9159
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.27777862548828,
      "epoch": 68.86567164179104,
      "grad_norm": 0.0,
      "learning_rate": 1.376062568265018e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9160
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.36111068725586,
      "epoch": 68.8731343283582,
      "grad_norm": 0.0,
      "learning_rate": 1.375480889077541e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9161
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.72222328186035,
      "epoch": 68.88059701492537,
      "grad_norm": 0.0,
      "learning_rate": 1.3748992861983965e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9162
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.63888931274414,
      "epoch": 68.88805970149254,
      "grad_norm": 0.0,
      "learning_rate": 1.374317759667052e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9163
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.44444465637207,
      "epoch": 68.8955223880597,
      "grad_norm": 0.0,
      "learning_rate": 1.37373630952297e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9164
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.55555534362793,
      "epoch": 68.90298507462687,
      "grad_norm": 0.0,
      "learning_rate": 1.373154935805605e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9165
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.41666603088379,
      "epoch": 68.91044776119404,
      "grad_norm": 0.0,
      "learning_rate": 1.3725736385544096e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9166
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.47222328186035,
      "epoch": 68.91791044776119,
      "grad_norm": 0.0,
      "learning_rate": 1.3719924178088297e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9167
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.77777862548828,
      "epoch": 68.92537313432835,
      "grad_norm": 0.0,
      "learning_rate": 1.3714112736083067e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9168
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.16666603088379,
      "epoch": 68.93283582089552,
      "grad_norm": 0.0,
      "learning_rate": 1.3708302059922756e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 9169
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.05555534362793,
      "epoch": 68.94029850746269,
      "grad_norm": 0.0,
      "learning_rate": 1.3702492150001657e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9170
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.30555534362793,
      "epoch": 68.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 1.3696683006714033e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9171
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.72222328186035,
      "epoch": 68.95522388059702,
      "grad_norm": 0.0,
      "learning_rate": 1.3690874630454085e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9172
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.77777862548828,
      "epoch": 68.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 1.3685067021615977e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9173
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.05555534362793,
      "epoch": 68.97014925373135,
      "grad_norm": 0.0,
      "learning_rate": 1.3679260180593775e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9174
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.77777862548828,
      "epoch": 68.9776119402985,
      "grad_norm": 0.0,
      "learning_rate": 1.3673454107781548e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9175
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.16666603088379,
      "epoch": 68.98507462686567,
      "grad_norm": 0.0,
      "learning_rate": 1.3667648803573272e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9176
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.75,
      "epoch": 68.99253731343283,
      "grad_norm": 0.0,
      "learning_rate": 1.366184426836289e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9177
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.88888931274414,
      "epoch": 69.00746268656717,
      "grad_norm": 0.0,
      "learning_rate": 1.3656040502544306e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9178
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.61111068725586,
      "epoch": 69.01492537313433,
      "grad_norm": 0.0,
      "learning_rate": 1.365023750651133e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9179
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.72222328186035,
      "epoch": 69.0223880597015,
      "grad_norm": 0.0,
      "learning_rate": 1.3644435280657763e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9180
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.47222328186035,
      "epoch": 69.02985074626865,
      "grad_norm": 0.0,
      "learning_rate": 1.3638633825377326e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9181
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.86111068725586,
      "epoch": 69.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 1.363283314106372e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9182
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.16666603088379,
      "epoch": 69.04477611940298,
      "grad_norm": 0.0,
      "learning_rate": 1.362703322811055e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9183
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.11111068725586,
      "epoch": 69.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 1.3621234086911384e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9184
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.83333396911621,
      "epoch": 69.05970149253731,
      "grad_norm": 0.0,
      "learning_rate": 1.3615435717859757e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 9185
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.86111068725586,
      "epoch": 69.06716417910448,
      "grad_norm": 0.0,
      "learning_rate": 1.3609638121349138e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9186
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.72222328186035,
      "epoch": 69.07462686567165,
      "grad_norm": 0.0,
      "learning_rate": 1.360384129777295e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9187
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.88888931274414,
      "epoch": 69.08208955223881,
      "grad_norm": 0.0,
      "learning_rate": 1.3598045247524555e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9188
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.47222328186035,
      "epoch": 69.08955223880596,
      "grad_norm": 0.0,
      "learning_rate": 1.3592249970997243e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9189
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 22.5,
      "epoch": 69.09701492537313,
      "grad_norm": 0.0,
      "learning_rate": 1.358645546858429e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9190
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.72222328186035,
      "epoch": 69.1044776119403,
      "grad_norm": 0.0,
      "learning_rate": 1.358066174067891e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9191
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.16666603088379,
      "epoch": 69.11194029850746,
      "grad_norm": 0.0,
      "learning_rate": 1.3574868787674248e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9192
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.30555534362793,
      "epoch": 69.11940298507463,
      "grad_norm": 0.0,
      "learning_rate": 1.3569076609963417e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9193
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.0,
      "epoch": 69.1268656716418,
      "grad_norm": 0.0,
      "learning_rate": 1.3563285207939452e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9194
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.72222328186035,
      "epoch": 69.13432835820896,
      "grad_norm": 0.0,
      "learning_rate": 1.355749458199536e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9195
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.05555534362793,
      "epoch": 69.14179104477611,
      "grad_norm": 0.0,
      "learning_rate": 1.3551704732524074e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9196
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.22222328186035,
      "epoch": 69.14925373134328,
      "grad_norm": 0.0,
      "learning_rate": 1.3545915659918495e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9197
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.63888931274414,
      "epoch": 69.15671641791045,
      "grad_norm": 0.0,
      "learning_rate": 1.3540127364571462e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9198
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.63888931274414,
      "epoch": 69.16417910447761,
      "grad_norm": 44.36657593161653,
      "learning_rate": 1.3534339846875752e-07,
      "loss": -0.0039,
      "reward": 1.9444444179534912,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.944444477558136,
      "rewards/format_reward": 1.0,
      "step": 9199
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.0,
      "epoch": 69.17164179104478,
      "grad_norm": 0.0,
      "learning_rate": 1.3528553107224106e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9200
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.91666603088379,
      "epoch": 69.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 1.35227671460092e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9201
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.38888931274414,
      "epoch": 69.18656716417911,
      "grad_norm": 0.0,
      "learning_rate": 1.351698196362367e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9202
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.61111068725586,
      "epoch": 69.19402985074628,
      "grad_norm": 0.0,
      "learning_rate": 1.3511197560460086e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9203
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.02777862548828,
      "epoch": 69.20149253731343,
      "grad_norm": 0.0,
      "learning_rate": 1.3505413936910958e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9204
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.16666603088379,
      "epoch": 69.2089552238806,
      "grad_norm": 0.0,
      "learning_rate": 1.3499631093368763e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9205
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.61111068725586,
      "epoch": 69.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 1.3493849030225917e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9206
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.86111068725586,
      "epoch": 69.22388059701493,
      "grad_norm": 0.0,
      "learning_rate": 1.34880677478748e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9207
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.97222328186035,
      "epoch": 69.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 1.3482287246707692e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 9208
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.91666603088379,
      "epoch": 69.23880597014926,
      "grad_norm": 0.0,
      "learning_rate": 1.3476507527116874e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9209
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.38888931274414,
      "epoch": 69.24626865671642,
      "grad_norm": 0.0,
      "learning_rate": 1.3470728589494528e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9210
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.63888931274414,
      "epoch": 69.25373134328358,
      "grad_norm": 0.0,
      "learning_rate": 1.3464950434232819e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9211
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.83333396911621,
      "epoch": 69.26119402985074,
      "grad_norm": 0.0,
      "learning_rate": 1.345917306172385e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9212
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.94444465637207,
      "epoch": 69.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 1.345339647235965e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9213
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.38888931274414,
      "epoch": 69.27611940298507,
      "grad_norm": 0.0,
      "learning_rate": 1.3447620666532222e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9214
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.33333396911621,
      "epoch": 69.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 1.3441845644633498e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9215
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.97222328186035,
      "epoch": 69.2910447761194,
      "grad_norm": 0.0,
      "learning_rate": 1.3436071407055378e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9216
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.52777862548828,
      "epoch": 69.29850746268657,
      "grad_norm": 91.43393755123886,
      "learning_rate": 1.3430297954189678e-07,
      "loss": 0.0031,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 9217
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.61111068725586,
      "epoch": 69.30597014925372,
      "grad_norm": 0.0,
      "learning_rate": 1.342452528642817e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9218
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.27777862548828,
      "epoch": 69.31343283582089,
      "grad_norm": 0.0,
      "learning_rate": 1.341875340416259e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9219
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.11111068725586,
      "epoch": 69.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 1.3412982307784616e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9220
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.38888931274414,
      "epoch": 69.32835820895522,
      "grad_norm": 0.0,
      "learning_rate": 1.3407211997685855e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9221
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.77777862548828,
      "epoch": 69.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 1.34014424742579e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9222
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.52777862548828,
      "epoch": 69.34328358208955,
      "grad_norm": 0.0,
      "learning_rate": 1.339567373789222e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9223
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.30555534362793,
      "epoch": 69.35074626865672,
      "grad_norm": 0.0,
      "learning_rate": 1.3389905788980294e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9224
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.52777862548828,
      "epoch": 69.35820895522389,
      "grad_norm": 0.0,
      "learning_rate": 1.338413862791353e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9225
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.41666603088379,
      "epoch": 69.36567164179104,
      "grad_norm": 0.0,
      "learning_rate": 1.3378372255083275e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9226
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.47222328186035,
      "epoch": 69.3731343283582,
      "grad_norm": 0.0,
      "learning_rate": 1.3372606670880844e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9227
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.05555534362793,
      "epoch": 69.38059701492537,
      "grad_norm": 0.0,
      "learning_rate": 1.336684187569745e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9228
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.13888931274414,
      "epoch": 69.38805970149254,
      "grad_norm": 0.0,
      "learning_rate": 1.3361077869924317e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9229
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.97222328186035,
      "epoch": 69.3955223880597,
      "grad_norm": 0.0,
      "learning_rate": 1.3355314653952553e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9230
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.19444465637207,
      "epoch": 69.40298507462687,
      "grad_norm": 0.0,
      "learning_rate": 1.3349552228173261e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9231
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.25,
      "epoch": 69.41044776119404,
      "grad_norm": 0.0,
      "learning_rate": 1.3343790592977473e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9232
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.5,
      "epoch": 69.41791044776119,
      "grad_norm": 0.0,
      "learning_rate": 1.3338029748756152e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 9233
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.38888931274414,
      "epoch": 69.42537313432835,
      "grad_norm": 0.0,
      "learning_rate": 1.3332269695900225e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9234
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.13888931274414,
      "epoch": 69.43283582089552,
      "grad_norm": 0.0,
      "learning_rate": 1.3326510434800563e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9235
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.38888931274414,
      "epoch": 69.44029850746269,
      "grad_norm": 0.0,
      "learning_rate": 1.3320751965847998e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9236
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.27777862548828,
      "epoch": 69.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 1.3314994289433272e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9237
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.08333396911621,
      "epoch": 69.45522388059702,
      "grad_norm": 0.0,
      "learning_rate": 1.3309237405947094e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9238
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.30555534362793,
      "epoch": 69.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 1.3303481315780116e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9239
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.08333396911621,
      "epoch": 69.47014925373135,
      "grad_norm": 0.0,
      "learning_rate": 1.3297726019322947e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9240
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.0,
      "epoch": 69.4776119402985,
      "grad_norm": 0.0,
      "learning_rate": 1.3291971516966141e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9241
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.41666603088379,
      "epoch": 69.48507462686567,
      "grad_norm": 0.0,
      "learning_rate": 1.328621780910017e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9242
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.63888931274414,
      "epoch": 69.49253731343283,
      "grad_norm": 0.0,
      "learning_rate": 1.3280464896115496e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9243
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.86111068725586,
      "epoch": 69.5,
      "grad_norm": 0.0,
      "learning_rate": 1.3274712778402481e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9244
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.27777862548828,
      "epoch": 69.50746268656717,
      "grad_norm": 0.0,
      "learning_rate": 1.3268961456351462e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9245
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.02777862548828,
      "epoch": 69.51492537313433,
      "grad_norm": 0.0,
      "learning_rate": 1.3263210930352737e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9246
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.36111068725586,
      "epoch": 69.5223880597015,
      "grad_norm": 0.0,
      "learning_rate": 1.32574612007965e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9247
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.27777862548828,
      "epoch": 69.52985074626865,
      "grad_norm": 0.0,
      "learning_rate": 1.325171226807293e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9248
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.58333396911621,
      "epoch": 69.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 1.3245964132572144e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9249
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.22222328186035,
      "epoch": 69.54477611940298,
      "grad_norm": 0.0,
      "learning_rate": 1.3240216794684212e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9250
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.88888931274414,
      "epoch": 69.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 1.323447025479913e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9251
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.55555534362793,
      "epoch": 69.55970149253731,
      "grad_norm": 0.0,
      "learning_rate": 1.3228724513306844e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9252
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.66666603088379,
      "epoch": 69.56716417910448,
      "grad_norm": 0.0,
      "learning_rate": 1.3222979570597256e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9253
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.69444465637207,
      "epoch": 69.57462686567165,
      "grad_norm": 0.0,
      "learning_rate": 1.3217235427060213e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9254
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.13888931274414,
      "epoch": 69.58208955223881,
      "grad_norm": 0.0,
      "learning_rate": 1.321149208308551e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9255
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.25,
      "epoch": 69.58955223880596,
      "grad_norm": 0.0,
      "learning_rate": 1.3205749539062883e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9256
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.36111068725586,
      "epoch": 69.59701492537313,
      "grad_norm": 0.0,
      "learning_rate": 1.320000779538201e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9257
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.19444465637207,
      "epoch": 69.6044776119403,
      "grad_norm": 0.0,
      "learning_rate": 1.3194266852432503e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9258
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.63888931274414,
      "epoch": 69.61194029850746,
      "grad_norm": 0.0,
      "learning_rate": 1.318852671060395e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9259
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.97222328186035,
      "epoch": 69.61940298507463,
      "grad_norm": 0.0,
      "learning_rate": 1.3182787370285865e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9260
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.25,
      "epoch": 69.6268656716418,
      "grad_norm": 0.0,
      "learning_rate": 1.3177048831867724e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9261
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.58333396911621,
      "epoch": 69.63432835820896,
      "grad_norm": 0.0,
      "learning_rate": 1.3171311095738912e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9262
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.47222328186035,
      "epoch": 69.64179104477611,
      "grad_norm": 0.0,
      "learning_rate": 1.316557416228881e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9263
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.69444465637207,
      "epoch": 69.64925373134328,
      "grad_norm": 0.0,
      "learning_rate": 1.31598380319067e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9264
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.13888931274414,
      "epoch": 69.65671641791045,
      "grad_norm": 0.0,
      "learning_rate": 1.315410270498183e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9265
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.86111068725586,
      "epoch": 69.66417910447761,
      "grad_norm": 0.0,
      "learning_rate": 1.3148368181903406e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9266
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.58333396911621,
      "epoch": 69.67164179104478,
      "grad_norm": 0.0,
      "learning_rate": 1.3142634463060542e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9267
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.55555534362793,
      "epoch": 69.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 1.3136901548842338e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9268
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.69444465637207,
      "epoch": 69.68656716417911,
      "grad_norm": 0.0,
      "learning_rate": 1.3131169439637813e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9269
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.97222328186035,
      "epoch": 69.69402985074628,
      "grad_norm": 0.0,
      "learning_rate": 1.3125438135835955e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9270
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.38888931274414,
      "epoch": 69.70149253731343,
      "grad_norm": 0.0,
      "learning_rate": 1.3119707637825666e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9271
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.13888931274414,
      "epoch": 69.7089552238806,
      "grad_norm": 0.0,
      "learning_rate": 1.3113977945995807e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 9272
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.55555534362793,
      "epoch": 69.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 1.31082490607352e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9273
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.41666603088379,
      "epoch": 69.72388059701493,
      "grad_norm": 0.0,
      "learning_rate": 1.3102520982432591e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9274
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.91666603088379,
      "epoch": 69.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 1.3096793711476692e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9275
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.5,
      "epoch": 69.73880597014926,
      "grad_norm": 0.0,
      "learning_rate": 1.3091067248256126e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9276
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.77777862548828,
      "epoch": 69.74626865671642,
      "grad_norm": 0.0,
      "learning_rate": 1.308534159315951e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9277
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.0,
      "epoch": 69.75373134328358,
      "grad_norm": 0.0,
      "learning_rate": 1.3079616746575356e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9278
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.77777862548828,
      "epoch": 69.76119402985074,
      "grad_norm": 0.0,
      "learning_rate": 1.3073892708892148e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9279
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.63888931274414,
      "epoch": 69.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 1.306816948049833e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9280
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.91666603088379,
      "epoch": 69.77611940298507,
      "grad_norm": 0.0,
      "learning_rate": 1.3062447061782247e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9281
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.0,
      "epoch": 69.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 1.3056725453132228e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9282
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.97222328186035,
      "epoch": 69.7910447761194,
      "grad_norm": 0.0,
      "learning_rate": 1.3051004654936532e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9283
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.08333396911621,
      "epoch": 69.79850746268657,
      "grad_norm": 0.0,
      "learning_rate": 1.3045284667583373e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9284
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.72222328186035,
      "epoch": 69.80597014925372,
      "grad_norm": 0.0,
      "learning_rate": 1.303956549146088e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9285
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.80555534362793,
      "epoch": 69.81343283582089,
      "grad_norm": 0.0,
      "learning_rate": 1.3033847126957176e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9286
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.08333396911621,
      "epoch": 69.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 1.3028129574460277e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9287
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.11111068725586,
      "epoch": 69.82835820895522,
      "grad_norm": 0.0,
      "learning_rate": 1.3022412834358177e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9288
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.63888931274414,
      "epoch": 69.83582089552239,
      "grad_norm": 0.0,
      "learning_rate": 1.3016696907038806e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9289
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.69444465637207,
      "epoch": 69.84328358208955,
      "grad_norm": 0.0,
      "learning_rate": 1.3010981792890052e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9290
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.33333396911621,
      "epoch": 69.85074626865672,
      "grad_norm": 0.0,
      "learning_rate": 1.3005267492299726e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9291
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.13888931274414,
      "epoch": 69.85820895522389,
      "grad_norm": 0.0,
      "learning_rate": 1.2999554005655577e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9292
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.80555534362793,
      "epoch": 69.86567164179104,
      "grad_norm": 0.0,
      "learning_rate": 1.2993841333345328e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9293
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.33333396911621,
      "epoch": 69.8731343283582,
      "grad_norm": 0.0,
      "learning_rate": 1.2988129475756631e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9294
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.47222328186035,
      "epoch": 69.88059701492537,
      "grad_norm": 0.0,
      "learning_rate": 1.29824184332771e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9295
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.41666603088379,
      "epoch": 69.88805970149254,
      "grad_norm": 0.0,
      "learning_rate": 1.2976708206294252e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9296
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.44444465637207,
      "epoch": 69.8955223880597,
      "grad_norm": 0.0,
      "learning_rate": 1.2970998795195587e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9297
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.02777862548828,
      "epoch": 69.90298507462687,
      "grad_norm": 0.0,
      "learning_rate": 1.296529020036855e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9298
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 22.94444465637207,
      "epoch": 69.91044776119404,
      "grad_norm": 0.0,
      "learning_rate": 1.29595824222005e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9299
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.63888931274414,
      "epoch": 69.91791044776119,
      "grad_norm": 0.0,
      "learning_rate": 1.2953875461078774e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9300
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.33333396911621,
      "epoch": 69.92537313432835,
      "grad_norm": 0.0,
      "learning_rate": 1.2948169317390623e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9301
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.88888931274414,
      "epoch": 69.93283582089552,
      "grad_norm": 0.0,
      "learning_rate": 1.2942463991523268e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9302
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.58333396911621,
      "epoch": 69.94029850746269,
      "grad_norm": 0.0,
      "learning_rate": 1.2936759483863857e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9303
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.69444465637207,
      "epoch": 69.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 1.293105579479951e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9304
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.58333396911621,
      "epoch": 69.95522388059702,
      "grad_norm": 0.0,
      "learning_rate": 1.292535292471726e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9305
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.02777862548828,
      "epoch": 69.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 1.2919650874004078e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 9306
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.52777862548828,
      "epoch": 69.97014925373135,
      "grad_norm": 0.0,
      "learning_rate": 1.2913949643046919e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9307
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.25,
      "epoch": 69.9776119402985,
      "grad_norm": 0.0,
      "learning_rate": 1.2908249232232648e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9308
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.41666603088379,
      "epoch": 69.98507462686567,
      "grad_norm": 0.0,
      "learning_rate": 1.2902549641948108e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9309
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.25,
      "epoch": 69.99253731343283,
      "grad_norm": 0.0,
      "learning_rate": 1.289685087258004e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9310
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.58333396911621,
      "epoch": 70.00746268656717,
      "grad_norm": 0.0,
      "learning_rate": 1.2891152924515174e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9311
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.41666603088379,
      "epoch": 70.01492537313433,
      "grad_norm": 0.0,
      "learning_rate": 1.288545579814015e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9312
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.22222328186035,
      "epoch": 70.0223880597015,
      "grad_norm": 0.0,
      "learning_rate": 1.2879759493841575e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9313
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.88888931274414,
      "epoch": 70.02985074626865,
      "grad_norm": 0.0,
      "learning_rate": 1.287406401200599e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9314
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.80555534362793,
      "epoch": 70.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 1.286836935301989e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9315
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.33333396911621,
      "epoch": 70.04477611940298,
      "grad_norm": 0.0,
      "learning_rate": 1.28626755172697e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9316
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.05555534362793,
      "epoch": 70.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 1.2856982505141788e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9317
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.77777862548828,
      "epoch": 70.05970149253731,
      "grad_norm": 0.0,
      "learning_rate": 1.28512903170225e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9318
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.94444465637207,
      "epoch": 70.06716417910448,
      "grad_norm": 0.0,
      "learning_rate": 1.284559895329807e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9319
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.27777862548828,
      "epoch": 70.07462686567165,
      "grad_norm": 0.0,
      "learning_rate": 1.2839908414354728e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9320
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.94444465637207,
      "epoch": 70.08208955223881,
      "grad_norm": 0.0,
      "learning_rate": 1.283421870057861e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9321
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.41666603088379,
      "epoch": 70.08955223880596,
      "grad_norm": 0.0,
      "learning_rate": 1.2828529812355821e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9322
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.88888931274414,
      "epoch": 70.09701492537313,
      "grad_norm": 100.76273526870698,
      "learning_rate": 1.2822841750072396e-07,
      "loss": -0.0011,
      "reward": 1.9166666269302368,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/format_reward": 1.0,
      "step": 9323
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.08333396911621,
      "epoch": 70.1044776119403,
      "grad_norm": 0.0,
      "learning_rate": 1.2817154514114336e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9324
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.75,
      "epoch": 70.11194029850746,
      "grad_norm": 87.25903135966219,
      "learning_rate": 1.2811468104867553e-07,
      "loss": -0.0052,
      "reward": 1.9444444179534912,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.944444477558136,
      "rewards/format_reward": 1.0,
      "step": 9325
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.66666603088379,
      "epoch": 70.11940298507463,
      "grad_norm": 0.0,
      "learning_rate": 1.2805782522717915e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9326
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.33333396911621,
      "epoch": 70.1268656716418,
      "grad_norm": 0.0,
      "learning_rate": 1.2800097768051244e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9327
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.33333396911621,
      "epoch": 70.13432835820896,
      "grad_norm": 0.0,
      "learning_rate": 1.27944138412533e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9328
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.97222328186035,
      "epoch": 70.14179104477611,
      "grad_norm": 0.0,
      "learning_rate": 1.2788730742709795e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9329
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.30555534362793,
      "epoch": 70.14925373134328,
      "grad_norm": 0.0,
      "learning_rate": 1.2783048472806363e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9330
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.02777862548828,
      "epoch": 70.15671641791045,
      "grad_norm": 0.0,
      "learning_rate": 1.2777367031928598e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9331
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.05555534362793,
      "epoch": 70.16417910447761,
      "grad_norm": 0.0,
      "learning_rate": 1.2771686420462052e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9332
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.72222328186035,
      "epoch": 70.17164179104478,
      "grad_norm": 0.0,
      "learning_rate": 1.2766006638792176e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9333
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.69444465637207,
      "epoch": 70.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 1.2760327687304411e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9334
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.61111068725586,
      "epoch": 70.18656716417911,
      "grad_norm": 0.0,
      "learning_rate": 1.2754649566384113e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9335
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.88888931274414,
      "epoch": 70.19402985074628,
      "grad_norm": 0.0,
      "learning_rate": 1.2748972276416592e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9336
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.94444465637207,
      "epoch": 70.20149253731343,
      "grad_norm": 0.0,
      "learning_rate": 1.2743295817787108e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9337
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.08333396911621,
      "epoch": 70.2089552238806,
      "grad_norm": 0.0,
      "learning_rate": 1.273762019088086e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9338
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.27777862548828,
      "epoch": 70.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 1.2731945396082987e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9339
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.02777862548828,
      "epoch": 70.22388059701493,
      "grad_norm": 0.0,
      "learning_rate": 1.2726271433778558e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9340
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.0,
      "epoch": 70.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 1.2720598304352608e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9341
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.41666603088379,
      "epoch": 70.23880597014926,
      "grad_norm": 0.0,
      "learning_rate": 1.2714926008190114e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9342
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.61111068725586,
      "epoch": 70.24626865671642,
      "grad_norm": 0.0,
      "learning_rate": 1.2709254545675987e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9343
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.19444465637207,
      "epoch": 70.25373134328358,
      "grad_norm": 0.0,
      "learning_rate": 1.2703583917195094e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9344
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.58333396911621,
      "epoch": 70.26119402985074,
      "grad_norm": 0.0,
      "learning_rate": 1.2697914123132229e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9345
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.22222328186035,
      "epoch": 70.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 1.2692245163872123e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9346
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.13888931274414,
      "epoch": 70.27611940298507,
      "grad_norm": 0.0,
      "learning_rate": 1.2686577039799474e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9347
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.05555534362793,
      "epoch": 70.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 1.2680909751298916e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9348
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.0,
      "epoch": 70.2910447761194,
      "grad_norm": 0.0,
      "learning_rate": 1.267524329875503e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9349
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.11111068725586,
      "epoch": 70.29850746268657,
      "grad_norm": 0.0,
      "learning_rate": 1.2669577682552317e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9350
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.91666603088379,
      "epoch": 70.30597014925372,
      "grad_norm": 0.0,
      "learning_rate": 1.2663912903075248e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9351
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.94444465637207,
      "epoch": 70.31343283582089,
      "grad_norm": 0.0,
      "learning_rate": 1.2658248960708235e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9352
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.05555534362793,
      "epoch": 70.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 1.2652585855835604e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9353
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.72222328186035,
      "epoch": 70.32835820895522,
      "grad_norm": 0.0,
      "learning_rate": 1.2646923588841667e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9354
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.72222328186035,
      "epoch": 70.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 1.2641262160110644e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9355
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.5,
      "epoch": 70.34328358208955,
      "grad_norm": 0.0,
      "learning_rate": 1.2635601570026715e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9356
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.11111068725586,
      "epoch": 70.35074626865672,
      "grad_norm": 0.0,
      "learning_rate": 1.2629941818974e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9357
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.36111068725586,
      "epoch": 70.35820895522389,
      "grad_norm": 0.0,
      "learning_rate": 1.2624282907336572e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9358
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.91666603088379,
      "epoch": 70.36567164179104,
      "grad_norm": 0.0,
      "learning_rate": 1.2618624835498432e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9359
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.11111068725586,
      "epoch": 70.3731343283582,
      "grad_norm": 0.0,
      "learning_rate": 1.261296760384351e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9360
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.38888931274414,
      "epoch": 70.38059701492537,
      "grad_norm": 0.0,
      "learning_rate": 1.2607311212755716e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9361
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.77777862548828,
      "epoch": 70.38805970149254,
      "grad_norm": 0.0,
      "learning_rate": 1.2601655662618887e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9362
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.5,
      "epoch": 70.3955223880597,
      "grad_norm": 0.0,
      "learning_rate": 1.25960009538168e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9363
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.80555534362793,
      "epoch": 70.40298507462687,
      "grad_norm": 0.0,
      "learning_rate": 1.2590347086733167e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9364
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.30555534362793,
      "epoch": 70.41044776119404,
      "grad_norm": 0.0,
      "learning_rate": 1.2584694061751653e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9365
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.61111068725586,
      "epoch": 70.41791044776119,
      "grad_norm": 0.0,
      "learning_rate": 1.257904187925588e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9366
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.08333396911621,
      "epoch": 70.42537313432835,
      "grad_norm": 0.0,
      "learning_rate": 1.2573390539629374e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9367
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.13888931274414,
      "epoch": 70.43283582089552,
      "grad_norm": 0.0,
      "learning_rate": 1.256774004325565e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 9368
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.91666603088379,
      "epoch": 70.44029850746269,
      "grad_norm": 0.0,
      "learning_rate": 1.2562090390518123e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9369
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.61111068725586,
      "epoch": 70.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 1.2556441581800181e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9370
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.83333396911621,
      "epoch": 70.45522388059702,
      "grad_norm": 0.0,
      "learning_rate": 1.255079361748514e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9371
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.55555534362793,
      "epoch": 70.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 1.2545146497956268e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9372
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.58333396911621,
      "epoch": 70.47014925373135,
      "grad_norm": 0.0,
      "learning_rate": 1.253950022359678e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9373
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.02777862548828,
      "epoch": 70.4776119402985,
      "grad_norm": 0.0,
      "learning_rate": 1.253385479478981e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9374
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.41666603088379,
      "epoch": 70.48507462686567,
      "grad_norm": 0.0,
      "learning_rate": 1.2528210211918447e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9375
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.94444465637207,
      "epoch": 70.49253731343283,
      "grad_norm": 0.0,
      "learning_rate": 1.2522566475365732e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9376
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.69444465637207,
      "epoch": 70.5,
      "grad_norm": 0.0,
      "learning_rate": 1.2516923585514634e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9377
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.66666603088379,
      "epoch": 70.50746268656717,
      "grad_norm": 0.0,
      "learning_rate": 1.2511281542748089e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9378
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.41666603088379,
      "epoch": 70.51492537313433,
      "grad_norm": 0.0,
      "learning_rate": 1.2505640347448947e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9379
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.22222328186035,
      "epoch": 70.5223880597015,
      "grad_norm": 0.0,
      "learning_rate": 1.2500000000000005e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9380
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.33333396911621,
      "epoch": 70.52985074626865,
      "grad_norm": 0.0,
      "learning_rate": 1.2494360500784012e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9381
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.77777862548828,
      "epoch": 70.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 1.2488721850183666e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9382
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.52777862548828,
      "epoch": 70.54477611940298,
      "grad_norm": 0.0,
      "learning_rate": 1.2483084048581598e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9383
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.5,
      "epoch": 70.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 1.2477447096360367e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9384
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.5,
      "epoch": 70.55970149253731,
      "grad_norm": 0.0,
      "learning_rate": 1.2471810993902498e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9385
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.86111068725586,
      "epoch": 70.56716417910448,
      "grad_norm": 0.0,
      "learning_rate": 1.2466175741590459e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9386
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.22222328186035,
      "epoch": 70.57462686567165,
      "grad_norm": 0.0,
      "learning_rate": 1.2460541339806632e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9387
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.30555534362793,
      "epoch": 70.58208955223881,
      "grad_norm": 0.0,
      "learning_rate": 1.245490778893338e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9388
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.36111068725586,
      "epoch": 70.58955223880596,
      "grad_norm": 0.0,
      "learning_rate": 1.2449275089352965e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9389
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.83333396911621,
      "epoch": 70.59701492537313,
      "grad_norm": 0.0,
      "learning_rate": 1.2443643241447627e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9390
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.83333396911621,
      "epoch": 70.6044776119403,
      "grad_norm": 0.0,
      "learning_rate": 1.2438012245599537e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9391
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.61111068725586,
      "epoch": 70.61194029850746,
      "grad_norm": 0.0,
      "learning_rate": 1.2432382102190812e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9392
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.97222328186035,
      "epoch": 70.61940298507463,
      "grad_norm": 0.0,
      "learning_rate": 1.2426752811603496e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9393
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.72222328186035,
      "epoch": 70.6268656716418,
      "grad_norm": 0.0,
      "learning_rate": 1.242112437421958e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9394
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.61111068725586,
      "epoch": 70.63432835820896,
      "grad_norm": 0.0,
      "learning_rate": 1.241549679042101e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9395
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.08333396911621,
      "epoch": 70.64179104477611,
      "grad_norm": 0.0,
      "learning_rate": 1.2409870060589665e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9396
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.44444465637207,
      "epoch": 70.64925373134328,
      "grad_norm": 0.0,
      "learning_rate": 1.2404244185107378e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9397
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.83333396911621,
      "epoch": 70.65671641791045,
      "grad_norm": 0.0,
      "learning_rate": 1.239861916435589e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9398
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.05555534362793,
      "epoch": 70.66417910447761,
      "grad_norm": 0.0,
      "learning_rate": 1.2392994998716925e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9399
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.88888931274414,
      "epoch": 70.67164179104478,
      "grad_norm": 0.0,
      "learning_rate": 1.2387371688572133e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9400
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.83333396911621,
      "epoch": 70.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 1.238174923430309e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9401
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.44444465637207,
      "epoch": 70.68656716417911,
      "grad_norm": 0.0,
      "learning_rate": 1.2376127636291332e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9402
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.08333396911621,
      "epoch": 70.69402985074628,
      "grad_norm": 0.0,
      "learning_rate": 1.2370506894918347e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9403
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.44444465637207,
      "epoch": 70.70149253731343,
      "grad_norm": 0.0,
      "learning_rate": 1.2364887010565535e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9404
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.72222328186035,
      "epoch": 70.7089552238806,
      "grad_norm": 0.0,
      "learning_rate": 1.2359267983614255e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9405
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.13888931274414,
      "epoch": 70.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 1.2353649814445812e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9406
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.5,
      "epoch": 70.72388059701493,
      "grad_norm": 0.0,
      "learning_rate": 1.2348032503441456e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9407
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.75,
      "epoch": 70.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 1.234241605098236e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9408
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.05555534362793,
      "epoch": 70.73880597014926,
      "grad_norm": 0.0,
      "learning_rate": 1.233680045744964e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9409
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.38888931274414,
      "epoch": 70.74626865671642,
      "grad_norm": 0.0,
      "learning_rate": 1.233118572322437e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9410
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.41666603088379,
      "epoch": 70.75373134328358,
      "grad_norm": 0.0,
      "learning_rate": 1.2325571848687558e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9411
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.02777862548828,
      "epoch": 70.76119402985074,
      "grad_norm": 0.0,
      "learning_rate": 1.231995883422017e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9412
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.08333396911621,
      "epoch": 70.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 1.2314346680203078e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9413
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.47222328186035,
      "epoch": 70.77611940298507,
      "grad_norm": 0.0,
      "learning_rate": 1.2308735387017111e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9414
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.36111068725586,
      "epoch": 70.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 1.2303124955043053e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9415
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.13888931274414,
      "epoch": 70.7910447761194,
      "grad_norm": 0.0,
      "learning_rate": 1.229751538466162e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9416
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 22.72222328186035,
      "epoch": 70.79850746268657,
      "grad_norm": 0.0,
      "learning_rate": 1.2291906676253484e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9417
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.47222328186035,
      "epoch": 70.80597014925372,
      "grad_norm": 0.0,
      "learning_rate": 1.2286298830199214e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9418
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.16666603088379,
      "epoch": 70.81343283582089,
      "grad_norm": 0.0,
      "learning_rate": 1.228069184687937e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9419
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.75,
      "epoch": 70.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 1.227508572667444e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9420
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.77777862548828,
      "epoch": 70.82835820895522,
      "grad_norm": 0.0,
      "learning_rate": 1.2269480469964832e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9421
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.41666603088379,
      "epoch": 70.83582089552239,
      "grad_norm": 0.0,
      "learning_rate": 1.2263876077130925e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9422
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.19444465637207,
      "epoch": 70.84328358208955,
      "grad_norm": 0.0,
      "learning_rate": 1.2258272548553007e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9423
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.72222328186035,
      "epoch": 70.85074626865672,
      "grad_norm": 0.0,
      "learning_rate": 1.2252669884611343e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9424
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.19444465637207,
      "epoch": 70.85820895522389,
      "grad_norm": 0.0,
      "learning_rate": 1.224706808568611e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9425
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.19444465637207,
      "epoch": 70.86567164179104,
      "grad_norm": 0.0,
      "learning_rate": 1.2241467152157457e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9426
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.33333396911621,
      "epoch": 70.8731343283582,
      "grad_norm": 0.0,
      "learning_rate": 1.2235867084405445e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 9427
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.27777862548828,
      "epoch": 70.88059701492537,
      "grad_norm": 0.0,
      "learning_rate": 1.2230267882810073e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9428
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.94444465637207,
      "epoch": 70.88805970149254,
      "grad_norm": 0.0,
      "learning_rate": 1.2224669547751308e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9429
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.16666603088379,
      "epoch": 70.8955223880597,
      "grad_norm": 0.0,
      "learning_rate": 1.2219072079609043e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9430
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.52777862548828,
      "epoch": 70.90298507462687,
      "grad_norm": 0.0,
      "learning_rate": 1.2213475478763122e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9431
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.11111068725586,
      "epoch": 70.91044776119404,
      "grad_norm": 0.0,
      "learning_rate": 1.2207879745593321e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9432
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.13888931274414,
      "epoch": 70.91791044776119,
      "grad_norm": 0.0,
      "learning_rate": 1.220228488047935e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9433
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.0,
      "epoch": 70.92537313432835,
      "grad_norm": 0.0,
      "learning_rate": 1.219669088380088e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9434
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.16666603088379,
      "epoch": 70.93283582089552,
      "grad_norm": 0.0,
      "learning_rate": 1.2191097755937498e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9435
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.13888931274414,
      "epoch": 70.94029850746269,
      "grad_norm": 0.0,
      "learning_rate": 1.2185505497268754e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9436
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.63888931274414,
      "epoch": 70.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 1.217991410817414e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9437
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.02777862548828,
      "epoch": 70.95522388059702,
      "grad_norm": 0.0,
      "learning_rate": 1.2174323589033064e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9438
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.94444465637207,
      "epoch": 70.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 1.2168733940224897e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9439
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.16666603088379,
      "epoch": 70.97014925373135,
      "grad_norm": 0.0,
      "learning_rate": 1.2163145162128946e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9440
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.66666603088379,
      "epoch": 70.9776119402985,
      "grad_norm": 0.0,
      "learning_rate": 1.2157557255124466e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9441
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.0,
      "epoch": 70.98507462686567,
      "grad_norm": 0.0,
      "learning_rate": 1.2151970219590638e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9442
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.0,
      "epoch": 70.99253731343283,
      "grad_norm": 0.0,
      "learning_rate": 1.214638405590658e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9443
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.69444465637207,
      "epoch": 71.00746268656717,
      "grad_norm": 0.0,
      "learning_rate": 1.2140798764451367e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9444
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.0,
      "epoch": 71.01492537313433,
      "grad_norm": 0.0,
      "learning_rate": 1.2135214345604016e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9445
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.0,
      "epoch": 71.0223880597015,
      "grad_norm": 0.0,
      "learning_rate": 1.2129630799743485e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9446
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.08333396911621,
      "epoch": 71.02985074626865,
      "grad_norm": 0.0,
      "learning_rate": 1.2124048127248644e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9447
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.27777862548828,
      "epoch": 71.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 1.2118466328498347e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9448
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.69444465637207,
      "epoch": 71.04477611940298,
      "grad_norm": 0.0,
      "learning_rate": 1.211288540387135e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9449
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.33333396911621,
      "epoch": 71.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 1.2107305353746376e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9450
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.25,
      "epoch": 71.05970149253731,
      "grad_norm": 0.0,
      "learning_rate": 1.2101726178502084e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9451
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.02777862548828,
      "epoch": 71.06716417910448,
      "grad_norm": 0.0,
      "learning_rate": 1.2096147878517054e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9452
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.08333396911621,
      "epoch": 71.07462686567165,
      "grad_norm": 0.0,
      "learning_rate": 1.2090570454169832e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9453
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.91666603088379,
      "epoch": 71.08208955223881,
      "grad_norm": 0.0,
      "learning_rate": 1.2084993905838902e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9454
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.30555534362793,
      "epoch": 71.08955223880596,
      "grad_norm": 0.0,
      "learning_rate": 1.2079418233902667e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9455
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.41666603088379,
      "epoch": 71.09701492537313,
      "grad_norm": 0.0,
      "learning_rate": 1.2073843438739496e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9456
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.52777862548828,
      "epoch": 71.1044776119403,
      "grad_norm": 0.0,
      "learning_rate": 1.2068269520727672e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9457
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.88888931274414,
      "epoch": 71.11194029850746,
      "grad_norm": 0.0,
      "learning_rate": 1.2062696480245444e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9458
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.22222328186035,
      "epoch": 71.11940298507463,
      "grad_norm": 0.0,
      "learning_rate": 1.2057124317670988e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9459
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.38888931274414,
      "epoch": 71.1268656716418,
      "grad_norm": 0.0,
      "learning_rate": 1.2051553033382424e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9460
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.63888931274414,
      "epoch": 71.13432835820896,
      "grad_norm": 0.0,
      "learning_rate": 1.2045982627757835e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9461
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.02777862548828,
      "epoch": 71.14179104477611,
      "grad_norm": 0.0,
      "learning_rate": 1.2040413101175176e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9462
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.25,
      "epoch": 71.14925373134328,
      "grad_norm": 0.0,
      "learning_rate": 1.203484445401241e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9463
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.33333396911621,
      "epoch": 71.15671641791045,
      "grad_norm": 0.0,
      "learning_rate": 1.202927668664742e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9464
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.83333396911621,
      "epoch": 71.16417910447761,
      "grad_norm": 0.0,
      "learning_rate": 1.2023709799458026e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9465
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.88888931274414,
      "epoch": 71.17164179104478,
      "grad_norm": 0.0,
      "learning_rate": 1.2018143792821995e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9466
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.75,
      "epoch": 71.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 1.2012578667117016e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9467
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.91666603088379,
      "epoch": 71.18656716417911,
      "grad_norm": 0.0,
      "learning_rate": 1.2007014422720744e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9468
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.25,
      "epoch": 71.19402985074628,
      "grad_norm": 0.0,
      "learning_rate": 1.2001451060010741e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9469
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.30555534362793,
      "epoch": 71.20149253731343,
      "grad_norm": 0.0,
      "learning_rate": 1.199588857936455e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9470
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.11111068725586,
      "epoch": 71.2089552238806,
      "grad_norm": 0.0,
      "learning_rate": 1.199032698115963e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9471
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.52777862548828,
      "epoch": 71.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 1.1984766265773368e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9472
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.61111068725586,
      "epoch": 71.22388059701493,
      "grad_norm": 0.0,
      "learning_rate": 1.1979206433583118e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9473
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.16666603088379,
      "epoch": 71.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 1.1973647484966167e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9474
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.52777862548828,
      "epoch": 71.23880597014926,
      "grad_norm": 0.0,
      "learning_rate": 1.1968089420299739e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9475
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.22222328186035,
      "epoch": 71.24626865671642,
      "grad_norm": 0.0,
      "learning_rate": 1.196253223996099e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9476
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.69444465637207,
      "epoch": 71.25373134328358,
      "grad_norm": 0.0,
      "learning_rate": 1.1956975944327013e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9477
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.05555534362793,
      "epoch": 71.26119402985074,
      "grad_norm": 0.0,
      "learning_rate": 1.1951420533774864e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9478
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.77777862548828,
      "epoch": 71.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 1.194586600868152e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9479
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.22222328186035,
      "epoch": 71.27611940298507,
      "grad_norm": 0.0,
      "learning_rate": 1.1940312369423916e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9480
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.22222328186035,
      "epoch": 71.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 1.1934759616378894e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9481
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.61111068725586,
      "epoch": 71.2910447761194,
      "grad_norm": 0.0,
      "learning_rate": 1.192920774992328e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9482
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.75,
      "epoch": 71.29850746268657,
      "grad_norm": 0.0,
      "learning_rate": 1.1923656770433787e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9483
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.55555534362793,
      "epoch": 71.30597014925372,
      "grad_norm": 0.0,
      "learning_rate": 1.1918106678287116e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9484
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.91666603088379,
      "epoch": 71.31343283582089,
      "grad_norm": 0.0,
      "learning_rate": 1.1912557473859893e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9485
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.97222328186035,
      "epoch": 71.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 1.1907009157528664e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9486
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.38888931274414,
      "epoch": 71.32835820895522,
      "grad_norm": 0.0,
      "learning_rate": 1.1901461729669937e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9487
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.05555534362793,
      "epoch": 71.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 1.1895915190660152e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 9488
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.30555534362793,
      "epoch": 71.34328358208955,
      "grad_norm": 0.0,
      "learning_rate": 1.1890369540875703e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9489
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.02777862548828,
      "epoch": 71.35074626865672,
      "grad_norm": 0.0,
      "learning_rate": 1.1884824780692898e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 9490
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.61111068725586,
      "epoch": 71.35820895522389,
      "grad_norm": 0.0,
      "learning_rate": 1.1879280910487988e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9491
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.16666603088379,
      "epoch": 71.36567164179104,
      "grad_norm": 0.0,
      "learning_rate": 1.1873737930637182e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9492
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.36111068725586,
      "epoch": 71.3731343283582,
      "grad_norm": 0.0,
      "learning_rate": 1.1868195841516618e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9493
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.44444465637207,
      "epoch": 71.38059701492537,
      "grad_norm": 0.0,
      "learning_rate": 1.1862654643502376e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9494
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.69444465637207,
      "epoch": 71.38805970149254,
      "grad_norm": 0.0,
      "learning_rate": 1.1857114336970484e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9495
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.41666603088379,
      "epoch": 71.3955223880597,
      "grad_norm": 0.0,
      "learning_rate": 1.1851574922296889e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9496
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.97222328186035,
      "epoch": 71.40298507462687,
      "grad_norm": 0.0,
      "learning_rate": 1.1846036399857479e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9497
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.77777862548828,
      "epoch": 71.41044776119404,
      "grad_norm": 0.0,
      "learning_rate": 1.1840498770028098e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9498
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.27777862548828,
      "epoch": 71.41791044776119,
      "grad_norm": 0.0,
      "learning_rate": 1.1834962033184526e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9499
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.38888931274414,
      "epoch": 71.42537313432835,
      "grad_norm": 0.0,
      "learning_rate": 1.1829426189702485e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9500
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.55555534362793,
      "epoch": 71.43283582089552,
      "grad_norm": 0.0,
      "learning_rate": 1.1823891239957615e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9501
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.44444465637207,
      "epoch": 71.44029850746269,
      "grad_norm": 0.0,
      "learning_rate": 1.1818357184325522e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9502
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.61111068725586,
      "epoch": 71.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 1.1812824023181726e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9503
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.44444465637207,
      "epoch": 71.45522388059702,
      "grad_norm": 0.0,
      "learning_rate": 1.1807291756901704e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9504
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.25,
      "epoch": 71.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 1.1801760385860884e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9505
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.66666603088379,
      "epoch": 71.47014925373135,
      "grad_norm": 0.0,
      "learning_rate": 1.1796229910434597e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9506
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.61111068725586,
      "epoch": 71.4776119402985,
      "grad_norm": 0.0,
      "learning_rate": 1.179070033099814e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9507
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.72222328186035,
      "epoch": 71.48507462686567,
      "grad_norm": 0.0,
      "learning_rate": 1.1785171647926745e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9508
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.11111068725586,
      "epoch": 71.49253731343283,
      "grad_norm": 0.0,
      "learning_rate": 1.1779643861595587e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9509
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.38888931274414,
      "epoch": 71.5,
      "grad_norm": 0.0,
      "learning_rate": 1.1774116972379769e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9510
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.41666603088379,
      "epoch": 71.50746268656717,
      "grad_norm": 0.0,
      "learning_rate": 1.1768590980654328e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9511
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.16666603088379,
      "epoch": 71.51492537313433,
      "grad_norm": 0.0,
      "learning_rate": 1.1763065886794257e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9512
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.0,
      "epoch": 71.5223880597015,
      "grad_norm": 0.0,
      "learning_rate": 1.1757541691174483e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9513
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.63888931274414,
      "epoch": 71.52985074626865,
      "grad_norm": 0.0,
      "learning_rate": 1.175201839416988e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9514
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.5,
      "epoch": 71.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 1.1746495996155231e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9515
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.83333396911621,
      "epoch": 71.54477611940298,
      "grad_norm": 0.0,
      "learning_rate": 1.1740974497505299e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9516
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.11111068725586,
      "epoch": 71.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 1.1735453898594746e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9517
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.38888931274414,
      "epoch": 71.55970149253731,
      "grad_norm": 0.0,
      "learning_rate": 1.1729934199798203e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9518
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.58333396911621,
      "epoch": 71.56716417910448,
      "grad_norm": 0.0,
      "learning_rate": 1.1724415401490237e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9519
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.91666603088379,
      "epoch": 71.57462686567165,
      "grad_norm": 0.0,
      "learning_rate": 1.1718897504045328e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9520
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.97222328186035,
      "epoch": 71.58208955223881,
      "grad_norm": 0.0,
      "learning_rate": 1.1713380507837919e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9521
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.61111068725586,
      "epoch": 71.58955223880596,
      "grad_norm": 0.0,
      "learning_rate": 1.1707864413242393e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9522
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.16666603088379,
      "epoch": 71.59701492537313,
      "grad_norm": 0.0,
      "learning_rate": 1.1702349220633067e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9523
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.63888931274414,
      "epoch": 71.6044776119403,
      "grad_norm": 0.0,
      "learning_rate": 1.1696834930384181e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9524
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.16666603088379,
      "epoch": 71.61194029850746,
      "grad_norm": 0.0,
      "learning_rate": 1.1691321542869942e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9525
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.63888931274414,
      "epoch": 71.61940298507463,
      "grad_norm": 0.0,
      "learning_rate": 1.1685809058464466e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9526
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.41666603088379,
      "epoch": 71.6268656716418,
      "grad_norm": 0.0,
      "learning_rate": 1.1680297477541826e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9527
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.97222328186035,
      "epoch": 71.63432835820896,
      "grad_norm": 0.0,
      "learning_rate": 1.1674786800476036e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9528
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.08333396911621,
      "epoch": 71.64179104477611,
      "grad_norm": 0.0,
      "learning_rate": 1.1669277027641053e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9529
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.66666603088379,
      "epoch": 71.64925373134328,
      "grad_norm": 0.0,
      "learning_rate": 1.1663768159410748e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9530
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.11111068725586,
      "epoch": 71.65671641791045,
      "grad_norm": 0.0,
      "learning_rate": 1.1658260196158939e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9531
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.0,
      "epoch": 71.66417910447761,
      "grad_norm": 0.0,
      "learning_rate": 1.16527531382594e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9532
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.69444465637207,
      "epoch": 71.67164179104478,
      "grad_norm": 0.0,
      "learning_rate": 1.1647246986085829e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9533
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.5,
      "epoch": 71.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 1.1641741740011878e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9534
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.66666603088379,
      "epoch": 71.68656716417911,
      "grad_norm": 0.0,
      "learning_rate": 1.1636237400411106e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9535
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.77777862548828,
      "epoch": 71.69402985074628,
      "grad_norm": 0.0,
      "learning_rate": 1.1630733967657047e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9536
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.33333396911621,
      "epoch": 71.70149253731343,
      "grad_norm": 0.0,
      "learning_rate": 1.162523144212314e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9537
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.30555534362793,
      "epoch": 71.7089552238806,
      "grad_norm": 0.0,
      "learning_rate": 1.1619729824182787e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9538
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.5,
      "epoch": 71.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 1.1614229114209329e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9539
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.80555534362793,
      "epoch": 71.72388059701493,
      "grad_norm": 0.0,
      "learning_rate": 1.1608729312576019e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9540
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.66666603088379,
      "epoch": 71.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 1.1603230419656077e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9541
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.05555534362793,
      "epoch": 71.73880597014926,
      "grad_norm": 0.0,
      "learning_rate": 1.1597732435822646e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9542
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.88888931274414,
      "epoch": 71.74626865671642,
      "grad_norm": 0.0,
      "learning_rate": 1.1592235361448826e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9543
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.47222328186035,
      "epoch": 71.75373134328358,
      "grad_norm": 0.0,
      "learning_rate": 1.158673919690763e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9544
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.80555534362793,
      "epoch": 71.76119402985074,
      "grad_norm": 0.0,
      "learning_rate": 1.1581243942572008e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9545
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.97222328186035,
      "epoch": 71.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 1.1575749598814875e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9546
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.05555534362793,
      "epoch": 71.77611940298507,
      "grad_norm": 0.0,
      "learning_rate": 1.1570256166009063e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9547
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.41666603088379,
      "epoch": 71.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 1.1564763644527355e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9548
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.25,
      "epoch": 71.7910447761194,
      "grad_norm": 0.0,
      "learning_rate": 1.1559272034742474e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9549
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.02777862548828,
      "epoch": 71.79850746268657,
      "grad_norm": 134.54034418235096,
      "learning_rate": 1.155378133702706e-07,
      "loss": 0.0043,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 9550
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.86111068725586,
      "epoch": 71.80597014925372,
      "grad_norm": 0.0,
      "learning_rate": 1.1548291551753697e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9551
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.27777862548828,
      "epoch": 71.81343283582089,
      "grad_norm": 0.0,
      "learning_rate": 1.1542802679294928e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9552
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.66666603088379,
      "epoch": 71.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 1.1537314720023214e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 9553
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.13888931274414,
      "epoch": 71.82835820895522,
      "grad_norm": 0.0,
      "learning_rate": 1.1531827674310973e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9554
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.13888931274414,
      "epoch": 71.83582089552239,
      "grad_norm": 0.0,
      "learning_rate": 1.1526341542530529e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9555
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.88888931274414,
      "epoch": 71.84328358208955,
      "grad_norm": 0.0,
      "learning_rate": 1.1520856325054173e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9556
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.94444465637207,
      "epoch": 71.85074626865672,
      "grad_norm": 0.0,
      "learning_rate": 1.1515372022254135e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9557
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.58333396911621,
      "epoch": 71.85820895522389,
      "grad_norm": 0.0,
      "learning_rate": 1.1509888634502552e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9558
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.22222328186035,
      "epoch": 71.86567164179104,
      "grad_norm": 0.0,
      "learning_rate": 1.1504406162171537e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9559
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.88888931274414,
      "epoch": 71.8731343283582,
      "grad_norm": 0.0,
      "learning_rate": 1.149892460563311e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9560
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.19444465637207,
      "epoch": 71.88059701492537,
      "grad_norm": 0.0,
      "learning_rate": 1.1493443965259242e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9561
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.08333396911621,
      "epoch": 71.88805970149254,
      "grad_norm": 0.0,
      "learning_rate": 1.1487964241421849e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9562
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.44444465637207,
      "epoch": 71.8955223880597,
      "grad_norm": 0.0,
      "learning_rate": 1.1482485434492784e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9563
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.97222328186035,
      "epoch": 71.90298507462687,
      "grad_norm": 0.0,
      "learning_rate": 1.1477007544843823e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9564
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.16666603088379,
      "epoch": 71.91044776119404,
      "grad_norm": 0.0,
      "learning_rate": 1.1471530572846677e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9565
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.08333396911621,
      "epoch": 71.91791044776119,
      "grad_norm": 0.0,
      "learning_rate": 1.1466054518873019e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9566
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.66666603088379,
      "epoch": 71.92537313432835,
      "grad_norm": 0.0,
      "learning_rate": 1.1460579383294444e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9567
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.97222328186035,
      "epoch": 71.93283582089552,
      "grad_norm": 0.0,
      "learning_rate": 1.1455105166482495e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9568
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.91666603088379,
      "epoch": 71.94029850746269,
      "grad_norm": 0.0,
      "learning_rate": 1.1449631868808629e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9569
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.66666603088379,
      "epoch": 71.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 1.1444159490644276e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9570
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.5,
      "epoch": 71.95522388059702,
      "grad_norm": 0.0,
      "learning_rate": 1.143868803236076e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9571
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.05555534362793,
      "epoch": 71.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 1.1433217494329384e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9572
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.0,
      "epoch": 71.97014925373135,
      "grad_norm": 0.0,
      "learning_rate": 1.1427747876921373e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9573
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.83333396911621,
      "epoch": 71.9776119402985,
      "grad_norm": 0.0,
      "learning_rate": 1.1422279180507874e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9574
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.30555534362793,
      "epoch": 71.98507462686567,
      "grad_norm": 0.0,
      "learning_rate": 1.1416811405459991e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9575
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.58333396911621,
      "epoch": 71.99253731343283,
      "grad_norm": 0.0,
      "learning_rate": 1.1411344552148764e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9576
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.05555534362793,
      "epoch": 72.00746268656717,
      "grad_norm": 0.0,
      "learning_rate": 1.1405878620945172e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9577
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.19444465637207,
      "epoch": 72.01492537313433,
      "grad_norm": 0.0,
      "learning_rate": 1.1400413612220116e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9578
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.02777862548828,
      "epoch": 72.0223880597015,
      "grad_norm": 0.0,
      "learning_rate": 1.1394949526344442e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9579
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.97222328186035,
      "epoch": 72.02985074626865,
      "grad_norm": 0.0,
      "learning_rate": 1.1389486363688932e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9580
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.55555534362793,
      "epoch": 72.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 1.1384024124624322e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9581
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.72222328186035,
      "epoch": 72.04477611940298,
      "grad_norm": 0.0,
      "learning_rate": 1.1378562809521262e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9582
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.33333396911621,
      "epoch": 72.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 1.1373102418750363e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9583
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 22.83333396911621,
      "epoch": 72.05970149253731,
      "grad_norm": 0.0,
      "learning_rate": 1.1367642952682152e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9584
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.47222328186035,
      "epoch": 72.06716417910448,
      "grad_norm": 0.0,
      "learning_rate": 1.1362184411687089e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9585
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.69444465637207,
      "epoch": 72.07462686567165,
      "grad_norm": 0.0,
      "learning_rate": 1.1356726796135593e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9586
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.41666603088379,
      "epoch": 72.08208955223881,
      "grad_norm": 0.0,
      "learning_rate": 1.1351270106398008e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9587
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.80555534362793,
      "epoch": 72.08955223880596,
      "grad_norm": 0.0,
      "learning_rate": 1.1345814342844631e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9588
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.33333396911621,
      "epoch": 72.09701492537313,
      "grad_norm": 0.0,
      "learning_rate": 1.1340359505845664e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9589
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.55555534362793,
      "epoch": 72.1044776119403,
      "grad_norm": 0.0,
      "learning_rate": 1.1334905595771271e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9590
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.63888931274414,
      "epoch": 72.11194029850746,
      "grad_norm": 0.0,
      "learning_rate": 1.1329452612991558e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9591
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.52777862548828,
      "epoch": 72.11940298507463,
      "grad_norm": 0.0,
      "learning_rate": 1.1324000557876536e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9592
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.91666603088379,
      "epoch": 72.1268656716418,
      "grad_norm": 0.0,
      "learning_rate": 1.1318549430796196e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9593
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.11111068725586,
      "epoch": 72.13432835820896,
      "grad_norm": 0.0,
      "learning_rate": 1.1313099232120424e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9594
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.27777862548828,
      "epoch": 72.14179104477611,
      "grad_norm": 0.0,
      "learning_rate": 1.1307649962219073e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9595
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.91666603088379,
      "epoch": 72.14925373134328,
      "grad_norm": 0.0,
      "learning_rate": 1.1302201621461923e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9596
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.19444465637207,
      "epoch": 72.15671641791045,
      "grad_norm": 0.0,
      "learning_rate": 1.1296754210218698e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9597
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.88888931274414,
      "epoch": 72.16417910447761,
      "grad_norm": 0.0,
      "learning_rate": 1.1291307728859045e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9598
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.08333396911621,
      "epoch": 72.17164179104478,
      "grad_norm": 0.0,
      "learning_rate": 1.1285862177752544e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9599
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.16666603088379,
      "epoch": 72.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 1.1280417557268735e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9600
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.88888931274414,
      "epoch": 72.18656716417911,
      "grad_norm": 0.0,
      "learning_rate": 1.1274973867777079e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9601
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.97222328186035,
      "epoch": 72.19402985074628,
      "grad_norm": 0.0,
      "learning_rate": 1.1269531109646987e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9602
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.86111068725586,
      "epoch": 72.20149253731343,
      "grad_norm": 0.0,
      "learning_rate": 1.126408928324778e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9603
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.41666603088379,
      "epoch": 72.2089552238806,
      "grad_norm": 12.633542556521242,
      "learning_rate": 1.1258648388948753e-07,
      "loss": 0.009,
      "reward": 1.7222222089767456,
      "reward_std": 0.06415002793073654,
      "rewards/accuracy_reward": 0.7222222089767456,
      "rewards/format_reward": 1.0,
      "step": 9604
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.13888931274414,
      "epoch": 72.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 1.1253208427119093e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9605
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.63888931274414,
      "epoch": 72.22388059701493,
      "grad_norm": 0.0,
      "learning_rate": 1.1247769398127966e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9606
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.86111068725586,
      "epoch": 72.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 1.124233130234446e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9607
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.44444465637207,
      "epoch": 72.23880597014926,
      "grad_norm": 0.0,
      "learning_rate": 1.1236894140137582e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9608
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.88888931274414,
      "epoch": 72.24626865671642,
      "grad_norm": 0.0,
      "learning_rate": 1.1231457911876293e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9609
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.36111068725586,
      "epoch": 72.25373134328358,
      "grad_norm": 0.0,
      "learning_rate": 1.1226022617929498e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9610
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.25,
      "epoch": 72.26119402985074,
      "grad_norm": 0.0,
      "learning_rate": 1.1220588258666033e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9611
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.75,
      "epoch": 72.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 1.1215154834454647e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9612
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.58333396911621,
      "epoch": 72.27611940298507,
      "grad_norm": 0.0,
      "learning_rate": 1.120972234566406e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9613
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.47222328186035,
      "epoch": 72.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 1.1204290792662904e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9614
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.83333396911621,
      "epoch": 72.2910447761194,
      "grad_norm": 0.0,
      "learning_rate": 1.1198860175819758e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9615
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.72222328186035,
      "epoch": 72.29850746268657,
      "grad_norm": 0.0,
      "learning_rate": 1.119343049550314e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9616
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.25,
      "epoch": 72.30597014925372,
      "grad_norm": 0.0,
      "learning_rate": 1.1188001752081508e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9617
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.08333396911621,
      "epoch": 72.31343283582089,
      "grad_norm": 0.0,
      "learning_rate": 1.118257394592324e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9618
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.52777862548828,
      "epoch": 72.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 1.1177147077396653e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9619
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.77777862548828,
      "epoch": 72.32835820895522,
      "grad_norm": 0.0,
      "learning_rate": 1.1171721146870014e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9620
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.55555534362793,
      "epoch": 72.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 1.1166296154711518e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9621
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.02777862548828,
      "epoch": 72.34328358208955,
      "grad_norm": 0.0,
      "learning_rate": 1.1160872101289312e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9622
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.66666603088379,
      "epoch": 72.35074626865672,
      "grad_norm": 0.0,
      "learning_rate": 1.1155448986971438e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9623
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.16666603088379,
      "epoch": 72.35820895522389,
      "grad_norm": 0.0,
      "learning_rate": 1.1150026812125918e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9624
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.86111068725586,
      "epoch": 72.36567164179104,
      "grad_norm": 0.0,
      "learning_rate": 1.11446055771207e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9625
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.13888931274414,
      "epoch": 72.3731343283582,
      "grad_norm": 0.0,
      "learning_rate": 1.113918528232364e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9626
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.91666603088379,
      "epoch": 72.38059701492537,
      "grad_norm": 0.0,
      "learning_rate": 1.1133765928102575e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9627
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.08333396911621,
      "epoch": 72.38805970149254,
      "grad_norm": 0.0,
      "learning_rate": 1.1128347514825235e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9628
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.16666603088379,
      "epoch": 72.3955223880597,
      "grad_norm": 0.0,
      "learning_rate": 1.1122930042859313e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9629
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.25,
      "epoch": 72.40298507462687,
      "grad_norm": 0.0,
      "learning_rate": 1.1117513512572435e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9630
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.77777862548828,
      "epoch": 72.41044776119404,
      "grad_norm": 0.0,
      "learning_rate": 1.1112097924332167e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9631
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.08333396911621,
      "epoch": 72.41791044776119,
      "grad_norm": 0.0,
      "learning_rate": 1.1106683278505994e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9632
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.47222328186035,
      "epoch": 72.42537313432835,
      "grad_norm": 0.0,
      "learning_rate": 1.1101269575461336e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 9633
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.11111068725586,
      "epoch": 72.43283582089552,
      "grad_norm": 0.0,
      "learning_rate": 1.1095856815565571e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9634
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.52777862548828,
      "epoch": 72.44029850746269,
      "grad_norm": 0.0,
      "learning_rate": 1.1090444999185999e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9635
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.75,
      "epoch": 72.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 1.1085034126689871e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9636
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.94444465637207,
      "epoch": 72.45522388059702,
      "grad_norm": 0.0,
      "learning_rate": 1.107962419844434e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9637
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.08333396911621,
      "epoch": 72.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 1.1074215214816529e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9638
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.72222328186035,
      "epoch": 72.47014925373135,
      "grad_norm": 0.0,
      "learning_rate": 1.1068807176173489e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9639
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.13888931274414,
      "epoch": 72.4776119402985,
      "grad_norm": 0.0,
      "learning_rate": 1.1063400082882188e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9640
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.66666603088379,
      "epoch": 72.48507462686567,
      "grad_norm": 0.0,
      "learning_rate": 1.1057993935309548e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9641
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.22222328186035,
      "epoch": 72.49253731343283,
      "grad_norm": 0.0,
      "learning_rate": 1.1052588733822438e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9642
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.19444465637207,
      "epoch": 72.5,
      "grad_norm": 0.0,
      "learning_rate": 1.1047184478787625e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9643
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.19444465637207,
      "epoch": 72.50746268656717,
      "grad_norm": 0.0,
      "learning_rate": 1.1041781170571845e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9644
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.86111068725586,
      "epoch": 72.51492537313433,
      "grad_norm": 0.0,
      "learning_rate": 1.1036378809541769e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9645
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.91666603088379,
      "epoch": 72.5223880597015,
      "grad_norm": 0.0,
      "learning_rate": 1.1030977396063973e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9646
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.30555534362793,
      "epoch": 72.52985074626865,
      "grad_norm": 0.0,
      "learning_rate": 1.1025576930505013e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9647
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.22222328186035,
      "epoch": 72.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 1.1020177413231332e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9648
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.33333396911621,
      "epoch": 72.54477611940298,
      "grad_norm": 0.0,
      "learning_rate": 1.1014778844609349e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9649
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.58333396911621,
      "epoch": 72.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 1.1009381225005399e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9650
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.5,
      "epoch": 72.55970149253731,
      "grad_norm": 0.0,
      "learning_rate": 1.100398455478577e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9651
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.36111068725586,
      "epoch": 72.56716417910448,
      "grad_norm": 0.0,
      "learning_rate": 1.099858883431666e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9652
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.69444465637207,
      "epoch": 72.57462686567165,
      "grad_norm": 0.0,
      "learning_rate": 1.099319406396421e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9653
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.97222328186035,
      "epoch": 72.58208955223881,
      "grad_norm": 0.0,
      "learning_rate": 1.0987800244094506e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9654
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.86111068725586,
      "epoch": 72.58955223880596,
      "grad_norm": 0.0,
      "learning_rate": 1.0982407375073571e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9655
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.33333396911621,
      "epoch": 72.59701492537313,
      "grad_norm": 0.0,
      "learning_rate": 1.0977015457267364e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9656
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.08333396911621,
      "epoch": 72.6044776119403,
      "grad_norm": 0.0,
      "learning_rate": 1.0971624491041753e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9657
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.94444465637207,
      "epoch": 72.61194029850746,
      "grad_norm": 0.0,
      "learning_rate": 1.0966234476762574e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9658
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.86111068725586,
      "epoch": 72.61940298507463,
      "grad_norm": 0.0,
      "learning_rate": 1.0960845414795592e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9659
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.91666603088379,
      "epoch": 72.6268656716418,
      "grad_norm": 0.0,
      "learning_rate": 1.0955457305506487e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9660
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.47222328186035,
      "epoch": 72.63432835820896,
      "grad_norm": 0.0,
      "learning_rate": 1.0950070149260904e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9661
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.11111068725586,
      "epoch": 72.64179104477611,
      "grad_norm": 0.0,
      "learning_rate": 1.0944683946424391e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9662
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.72222328186035,
      "epoch": 72.64925373134328,
      "grad_norm": 0.0,
      "learning_rate": 1.0939298697362456e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9663
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.97222328186035,
      "epoch": 72.65671641791045,
      "grad_norm": 0.0,
      "learning_rate": 1.0933914402440539e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9664
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.55555534362793,
      "epoch": 72.66417910447761,
      "grad_norm": 65.78153078563282,
      "learning_rate": 1.0928531062024016e-07,
      "loss": -0.0027,
      "reward": 1.8611111640930176,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 1.0,
      "step": 9665
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.61111068725586,
      "epoch": 72.67164179104478,
      "grad_norm": 0.0,
      "learning_rate": 1.0923148676478184e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9666
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.77777862548828,
      "epoch": 72.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 1.0917767246168275e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9667
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.41666603088379,
      "epoch": 72.68656716417911,
      "grad_norm": 0.0,
      "learning_rate": 1.0912386771459478e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9668
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.47222328186035,
      "epoch": 72.69402985074628,
      "grad_norm": 0.0,
      "learning_rate": 1.0907007252716901e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9669
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.02777862548828,
      "epoch": 72.70149253731343,
      "grad_norm": 0.0,
      "learning_rate": 1.0901628690305592e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9670
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.91666603088379,
      "epoch": 72.7089552238806,
      "grad_norm": 0.0,
      "learning_rate": 1.0896251084590543e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9671
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.05555534362793,
      "epoch": 72.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 1.0890874435936654e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9672
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.5,
      "epoch": 72.72388059701493,
      "grad_norm": 0.0,
      "learning_rate": 1.088549874470879e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9673
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.22222328186035,
      "epoch": 72.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 1.0880124011271727e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9674
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.16666603088379,
      "epoch": 72.73880597014926,
      "grad_norm": 0.0,
      "learning_rate": 1.087475023599019e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9675
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.0,
      "epoch": 72.74626865671642,
      "grad_norm": 0.0,
      "learning_rate": 1.0869377419228848e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9676
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.02777862548828,
      "epoch": 72.75373134328358,
      "grad_norm": 0.0,
      "learning_rate": 1.0864005561352275e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9677
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.97222328186035,
      "epoch": 72.76119402985074,
      "grad_norm": 0.0,
      "learning_rate": 1.0858634662725005e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9678
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.13888931274414,
      "epoch": 72.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 1.0853264723711511e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9679
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.08333396911621,
      "epoch": 72.77611940298507,
      "grad_norm": 0.0,
      "learning_rate": 1.0847895744676172e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9680
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.36111068725586,
      "epoch": 72.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 1.0842527725983336e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9681
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.55555534362793,
      "epoch": 72.7910447761194,
      "grad_norm": 0.0,
      "learning_rate": 1.0837160667997249e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9682
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.91666603088379,
      "epoch": 72.79850746268657,
      "grad_norm": 0.0,
      "learning_rate": 1.0831794571082129e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9683
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.66666603088379,
      "epoch": 72.80597014925372,
      "grad_norm": 0.0,
      "learning_rate": 1.0826429435602105e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9684
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.38888931274414,
      "epoch": 72.81343283582089,
      "grad_norm": 0.0,
      "learning_rate": 1.0821065261921261e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9685
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.5,
      "epoch": 72.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 1.0815702050403589e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9686
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.25,
      "epoch": 72.82835820895522,
      "grad_norm": 0.0,
      "learning_rate": 1.0810339801413024e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9687
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.27777862548828,
      "epoch": 72.83582089552239,
      "grad_norm": 0.0,
      "learning_rate": 1.0804978515313448e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9688
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.30555534362793,
      "epoch": 72.84328358208955,
      "grad_norm": 0.0,
      "learning_rate": 1.0799618192468674e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9689
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.41666603088379,
      "epoch": 72.85074626865672,
      "grad_norm": 0.0,
      "learning_rate": 1.079425883324245e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9690
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.94444465637207,
      "epoch": 72.85820895522389,
      "grad_norm": 0.0,
      "learning_rate": 1.0788900437998442e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9691
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.88888931274414,
      "epoch": 72.86567164179104,
      "grad_norm": 0.0,
      "learning_rate": 1.0783543007100265e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9692
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.08333396911621,
      "epoch": 72.8731343283582,
      "grad_norm": 0.0,
      "learning_rate": 1.0778186540911483e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9693
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.08333396911621,
      "epoch": 72.88059701492537,
      "grad_norm": 0.0,
      "learning_rate": 1.077283103979556e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9694
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.5,
      "epoch": 72.88805970149254,
      "grad_norm": 0.0,
      "learning_rate": 1.0767476504115927e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9695
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.72222328186035,
      "epoch": 72.8955223880597,
      "grad_norm": 0.0,
      "learning_rate": 1.0762122934235921e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9696
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.08333396911621,
      "epoch": 72.90298507462687,
      "grad_norm": 0.0,
      "learning_rate": 1.0756770330518832e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9697
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.75,
      "epoch": 72.91044776119404,
      "grad_norm": 0.0,
      "learning_rate": 1.0751418693327888e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9698
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.47222328186035,
      "epoch": 72.91791044776119,
      "grad_norm": 0.0,
      "learning_rate": 1.0746068023026239e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9699
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.11111068725586,
      "epoch": 72.92537313432835,
      "grad_norm": 0.0,
      "learning_rate": 1.0740718319976991e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9700
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.0,
      "epoch": 72.93283582089552,
      "grad_norm": 0.0,
      "learning_rate": 1.0735369584543136e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9701
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.58333396911621,
      "epoch": 72.94029850746269,
      "grad_norm": 0.0,
      "learning_rate": 1.0730021817087645e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9702
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.63888931274414,
      "epoch": 72.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 1.0724675017973415e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9703
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.19444465637207,
      "epoch": 72.95522388059702,
      "grad_norm": 0.0,
      "learning_rate": 1.0719329187563269e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 9704
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.52777862548828,
      "epoch": 72.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 1.0713984326219977e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9705
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.13888931274414,
      "epoch": 72.97014925373135,
      "grad_norm": 0.0,
      "learning_rate": 1.0708640434306218e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9706
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.02777862548828,
      "epoch": 72.9776119402985,
      "grad_norm": 0.0,
      "learning_rate": 1.070329751218464e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9707
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.13888931274414,
      "epoch": 72.98507462686567,
      "grad_norm": 0.0,
      "learning_rate": 1.0697955560217783e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9708
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.166667938232422,
      "epoch": 72.99253731343283,
      "grad_norm": 0.0,
      "learning_rate": 1.0692614578768158e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9709
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.80555534362793,
      "epoch": 72.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 1.0687274568198207e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9710
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.63888931274414,
      "epoch": 72.47014925373135,
      "grad_norm": 0.0,
      "learning_rate": 1.0681935528870273e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9711
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.63888931274414,
      "epoch": 72.4776119402985,
      "grad_norm": 0.0,
      "learning_rate": 1.067659746114667e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9712
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.08333396911621,
      "epoch": 72.48507462686567,
      "grad_norm": 0.0,
      "learning_rate": 1.0671260365389625e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9713
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.75,
      "epoch": 72.49253731343283,
      "grad_norm": 0.0,
      "learning_rate": 1.0665924241961325e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9714
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.77777862548828,
      "epoch": 72.5,
      "grad_norm": 0.0,
      "learning_rate": 1.0660589091223854e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9715
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.11111068725586,
      "epoch": 72.50746268656717,
      "grad_norm": 0.0,
      "learning_rate": 1.0655254913539244e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9716
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.94444465637207,
      "epoch": 72.51492537313433,
      "grad_norm": 0.0,
      "learning_rate": 1.0649921709269472e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9717
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.02777862548828,
      "epoch": 72.5223880597015,
      "grad_norm": 0.0,
      "learning_rate": 1.0644589478776445e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9718
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.91666603088379,
      "epoch": 72.52985074626865,
      "grad_norm": 0.0,
      "learning_rate": 1.0639258222422003e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9719
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.61111068725586,
      "epoch": 72.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 1.063392794056792e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9720
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.05555534362793,
      "epoch": 72.54477611940298,
      "grad_norm": 0.0,
      "learning_rate": 1.0628598633575881e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9721
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.94444465637207,
      "epoch": 72.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 1.0623270301807541e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9722
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.86111068725586,
      "epoch": 72.55970149253731,
      "grad_norm": 0.0,
      "learning_rate": 1.061794294562447e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9723
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.86111068725586,
      "epoch": 72.56716417910448,
      "grad_norm": 0.0,
      "learning_rate": 1.0612616565388188e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9724
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.47222328186035,
      "epoch": 72.57462686567165,
      "grad_norm": 0.0,
      "learning_rate": 1.0607291161460116e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9725
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.16666603088379,
      "epoch": 72.58208955223881,
      "grad_norm": 0.0,
      "learning_rate": 1.0601966734201637e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9726
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.61111068725586,
      "epoch": 72.58955223880596,
      "grad_norm": 0.0,
      "learning_rate": 1.0596643283974068e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9727
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.02777862548828,
      "epoch": 72.59701492537313,
      "grad_norm": 0.0,
      "learning_rate": 1.0591320811138634e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9728
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.05555534362793,
      "epoch": 72.6044776119403,
      "grad_norm": 0.0,
      "learning_rate": 1.0585999316056523e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9729
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.80555534362793,
      "epoch": 72.61194029850746,
      "grad_norm": 0.0,
      "learning_rate": 1.0580678799088847e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9730
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.22222328186035,
      "epoch": 72.61940298507463,
      "grad_norm": 0.0,
      "learning_rate": 1.0575359260596636e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9731
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.86111068725586,
      "epoch": 72.6268656716418,
      "grad_norm": 0.0,
      "learning_rate": 1.0570040700940872e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9732
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.88888931274414,
      "epoch": 72.63432835820896,
      "grad_norm": 0.0,
      "learning_rate": 1.0564723120482469e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9733
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.22222328186035,
      "epoch": 72.64179104477611,
      "grad_norm": 0.0,
      "learning_rate": 1.0559406519582275e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9734
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.88888931274414,
      "epoch": 72.64925373134328,
      "grad_norm": 0.0,
      "learning_rate": 1.0554090898601062e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9735
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.69444465637207,
      "epoch": 72.65671641791045,
      "grad_norm": 0.0,
      "learning_rate": 1.0548776257899531e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9736
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.69444465637207,
      "epoch": 72.66417910447761,
      "grad_norm": 0.0,
      "learning_rate": 1.0543462597838335e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9737
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.11111068725586,
      "epoch": 72.67164179104478,
      "grad_norm": 0.0,
      "learning_rate": 1.0538149918778053e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9738
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.91666603088379,
      "epoch": 72.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 1.0532838221079205e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9739
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.91666603088379,
      "epoch": 72.68656716417911,
      "grad_norm": 0.0,
      "learning_rate": 1.0527527505102213e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9740
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.0,
      "epoch": 72.69402985074628,
      "grad_norm": 0.0,
      "learning_rate": 1.0522217771207479e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9741
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.33333396911621,
      "epoch": 72.70149253731343,
      "grad_norm": 0.0,
      "learning_rate": 1.051690901975529e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9742
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.27777862548828,
      "epoch": 72.7089552238806,
      "grad_norm": 0.0,
      "learning_rate": 1.0511601251105909e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9743
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.25,
      "epoch": 72.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 1.0506294465619514e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9744
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.83333396911621,
      "epoch": 72.72388059701493,
      "grad_norm": 0.0,
      "learning_rate": 1.0500988663656202e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9745
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.19444465637207,
      "epoch": 72.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 1.0495683845576025e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9746
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.66666603088379,
      "epoch": 72.73880597014926,
      "grad_norm": 0.0,
      "learning_rate": 1.0490380011738963e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9747
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.86111068725586,
      "epoch": 72.74626865671642,
      "grad_norm": 0.0,
      "learning_rate": 1.0485077162504935e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9748
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.94444465637207,
      "epoch": 72.75373134328358,
      "grad_norm": 0.0,
      "learning_rate": 1.0479775298233776e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9749
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.16666603088379,
      "epoch": 72.76119402985074,
      "grad_norm": 81.31113518008362,
      "learning_rate": 1.0474474419285254e-07,
      "loss": -0.0005,
      "reward": 1.8055555820465088,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.8055555820465088,
      "rewards/format_reward": 1.0,
      "step": 9750
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.44444465637207,
      "epoch": 72.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 1.0469174526019089e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9751
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.75,
      "epoch": 72.77611940298507,
      "grad_norm": 0.0,
      "learning_rate": 1.0463875618794923e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9752
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.27777862548828,
      "epoch": 72.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 1.0458577697972343e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9753
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.72222328186035,
      "epoch": 72.7910447761194,
      "grad_norm": 0.0,
      "learning_rate": 1.0453280763910841e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9754
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.72222328186035,
      "epoch": 72.79850746268657,
      "grad_norm": 0.0,
      "learning_rate": 1.0447984816969873e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9755
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.13888931274414,
      "epoch": 72.80597014925372,
      "grad_norm": 0.0,
      "learning_rate": 1.0442689857508804e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9756
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.63888931274414,
      "epoch": 72.81343283582089,
      "grad_norm": 0.0,
      "learning_rate": 1.0437395885886952e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9757
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.25,
      "epoch": 72.82089552238806,
      "grad_norm": 0.0,
      "learning_rate": 1.0432102902463549e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9758
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.25,
      "epoch": 72.82835820895522,
      "grad_norm": 0.0,
      "learning_rate": 1.0426810907597788e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9759
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.19444465637207,
      "epoch": 72.83582089552239,
      "grad_norm": 0.0,
      "learning_rate": 1.0421519901648757e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9760
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.38888931274414,
      "epoch": 72.84328358208955,
      "grad_norm": 0.0,
      "learning_rate": 1.0416229884975511e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9761
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.47222328186035,
      "epoch": 72.85074626865672,
      "grad_norm": 0.0,
      "learning_rate": 1.0410940857937007e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9762
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.0,
      "epoch": 72.85820895522389,
      "grad_norm": 0.0,
      "learning_rate": 1.040565282089216e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9763
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.91666603088379,
      "epoch": 72.86567164179104,
      "grad_norm": 0.0,
      "learning_rate": 1.0400365774199818e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9764
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.38888931274414,
      "epoch": 72.8731343283582,
      "grad_norm": 0.0,
      "learning_rate": 1.0395079718218738e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9765
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.33333396911621,
      "epoch": 72.88059701492537,
      "grad_norm": 0.0,
      "learning_rate": 1.0389794653307629e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9766
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.44444465637207,
      "epoch": 72.88805970149254,
      "grad_norm": 0.0,
      "learning_rate": 1.0384510579825129e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9767
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.22222328186035,
      "epoch": 72.8955223880597,
      "grad_norm": 0.0,
      "learning_rate": 1.037922749812982e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9768
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.86111068725586,
      "epoch": 72.90298507462687,
      "grad_norm": 0.0,
      "learning_rate": 1.037394540858019e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9769
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.19444465637207,
      "epoch": 72.91044776119404,
      "grad_norm": 0.0,
      "learning_rate": 1.0368664311534672e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9770
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.05555534362793,
      "epoch": 72.91791044776119,
      "grad_norm": 0.0,
      "learning_rate": 1.0363384207351638e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9771
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.94444465637207,
      "epoch": 72.92537313432835,
      "grad_norm": 0.0,
      "learning_rate": 1.0358105096389394e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9772
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.55555534362793,
      "epoch": 72.93283582089552,
      "grad_norm": 0.0,
      "learning_rate": 1.0352826979006177e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9773
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.61111068725586,
      "epoch": 72.94029850746269,
      "grad_norm": 0.0,
      "learning_rate": 1.0347549855560136e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9774
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.38888931274414,
      "epoch": 72.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 1.0342273726409393e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9775
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.80555534362793,
      "epoch": 72.95522388059702,
      "grad_norm": 0.0,
      "learning_rate": 1.0336998591911949e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9776
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.11111068725586,
      "epoch": 72.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 1.0331724452425788e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9777
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.33333396911621,
      "epoch": 72.97014925373135,
      "grad_norm": 0.0,
      "learning_rate": 1.0326451308308812e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9778
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.94444465637207,
      "epoch": 72.9776119402985,
      "grad_norm": 0.0,
      "learning_rate": 1.0321179159918827e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9779
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.86111068725586,
      "epoch": 72.98507462686567,
      "grad_norm": 0.0,
      "learning_rate": 1.0315908007613608e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9780
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.77777862548828,
      "epoch": 72.99253731343283,
      "grad_norm": 0.0,
      "learning_rate": 1.0310637851750844e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9781
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.55555534362793,
      "epoch": 73.00746268656717,
      "grad_norm": 0.0,
      "learning_rate": 1.0305368692688174e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9782
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.63888931274414,
      "epoch": 73.01492537313433,
      "grad_norm": 0.0,
      "learning_rate": 1.0300100530783143e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9783
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.38888931274414,
      "epoch": 73.0223880597015,
      "grad_norm": 0.0,
      "learning_rate": 1.0294833366393233e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9784
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.86111068725586,
      "epoch": 73.02985074626865,
      "grad_norm": 0.0,
      "learning_rate": 1.0289567199875876e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9785
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.19444465637207,
      "epoch": 73.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 1.028430203158843e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9786
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.36111068725586,
      "epoch": 73.04477611940298,
      "grad_norm": 0.0,
      "learning_rate": 1.0279037861888177e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9787
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.55555534362793,
      "epoch": 73.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 1.0273774691132347e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9788
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.83333396911621,
      "epoch": 73.05970149253731,
      "grad_norm": 0.0,
      "learning_rate": 1.0268512519678085e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9789
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.36111068725586,
      "epoch": 73.06716417910448,
      "grad_norm": 0.0,
      "learning_rate": 1.0263251347882465e-07,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 9790
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.72222328186035,
      "epoch": 73.07462686567165,
      "grad_norm": 0.0,
      "learning_rate": 1.025799117610251e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9791
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.02777862548828,
      "epoch": 73.08208955223881,
      "grad_norm": 0.0,
      "learning_rate": 1.025273200469517e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9792
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.97222328186035,
      "epoch": 73.08955223880596,
      "grad_norm": 0.0,
      "learning_rate": 1.0247473834017334e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9793
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.75,
      "epoch": 73.09701492537313,
      "grad_norm": 0.0,
      "learning_rate": 1.0242216664425793e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9794
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.52777862548828,
      "epoch": 73.1044776119403,
      "grad_norm": 0.0,
      "learning_rate": 1.0236960496277313e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9795
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.55555534362793,
      "epoch": 73.11194029850746,
      "grad_norm": 0.0,
      "learning_rate": 1.0231705329928552e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9796
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.47222328186035,
      "epoch": 73.11940298507463,
      "grad_norm": 0.0,
      "learning_rate": 1.0226451165736128e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9797
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.19444465637207,
      "epoch": 73.1268656716418,
      "grad_norm": 0.0,
      "learning_rate": 1.0221198004056586e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9798
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.97222328186035,
      "epoch": 73.13432835820896,
      "grad_norm": 0.0,
      "learning_rate": 1.0215945845246385e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9799
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.55555534362793,
      "epoch": 73.14179104477611,
      "grad_norm": 0.0,
      "learning_rate": 1.0210694689661939e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9800
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.94444465637207,
      "epoch": 73.14925373134328,
      "grad_norm": 0.0,
      "learning_rate": 1.0205444537659579e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9801
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.72222328186035,
      "epoch": 73.15671641791045,
      "grad_norm": 0.0,
      "learning_rate": 1.020019538959559e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9802
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.97222328186035,
      "epoch": 73.16417910447761,
      "grad_norm": 0.0,
      "learning_rate": 1.0194947245826155e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9803
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.22222328186035,
      "epoch": 73.17164179104478,
      "grad_norm": 0.0,
      "learning_rate": 1.0189700106707399e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9804
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.63888931274414,
      "epoch": 73.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 1.01844539725954e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9805
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.52777862548828,
      "epoch": 73.18656716417911,
      "grad_norm": 0.0,
      "learning_rate": 1.0179208843846146e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9806
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.11111068725586,
      "epoch": 73.19402985074628,
      "grad_norm": 0.0,
      "learning_rate": 1.0173964720815578e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9807
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.86111068725586,
      "epoch": 73.20149253731343,
      "grad_norm": 0.0,
      "learning_rate": 1.0168721603859537e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9808
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.55555534362793,
      "epoch": 73.2089552238806,
      "grad_norm": 0.0,
      "learning_rate": 1.0163479493333829e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9809
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.77777862548828,
      "epoch": 73.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 1.0158238389594162e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9810
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.05555534362793,
      "epoch": 73.22388059701493,
      "grad_norm": 0.0,
      "learning_rate": 1.0152998292996196e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9811
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.33333396911621,
      "epoch": 73.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 1.0147759203895525e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9812
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.19444465637207,
      "epoch": 73.23880597014926,
      "grad_norm": 0.0,
      "learning_rate": 1.0142521122647654e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9813
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.30555534362793,
      "epoch": 73.24626865671642,
      "grad_norm": 0.0,
      "learning_rate": 1.0137284049608036e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9814
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.55555534362793,
      "epoch": 73.25373134328358,
      "grad_norm": 0.0,
      "learning_rate": 1.0132047985132052e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9815
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.80555534362793,
      "epoch": 73.26119402985074,
      "grad_norm": 0.0,
      "learning_rate": 1.0126812929575027e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9816
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.02777862548828,
      "epoch": 73.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 1.0121578883292189e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9817
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.13888931274414,
      "epoch": 73.27611940298507,
      "grad_norm": 0.0,
      "learning_rate": 1.0116345846638712e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9818
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.55555534362793,
      "epoch": 73.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 1.0111113819969708e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9819
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.47222328186035,
      "epoch": 73.2910447761194,
      "grad_norm": 0.0,
      "learning_rate": 1.0105882803640214e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9820
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.33333396911621,
      "epoch": 73.29850746268657,
      "grad_norm": 0.0,
      "learning_rate": 1.0100652798005202e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9821
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.88888931274414,
      "epoch": 73.30597014925372,
      "grad_norm": 0.0,
      "learning_rate": 1.0095423803419579e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9822
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.02777862548828,
      "epoch": 73.31343283582089,
      "grad_norm": 0.0,
      "learning_rate": 1.0090195820238171e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9823
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.30555534362793,
      "epoch": 73.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 1.0084968848815734e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9824
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.38888931274414,
      "epoch": 73.32835820895522,
      "grad_norm": 0.0,
      "learning_rate": 1.0079742889506967e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9825
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.88888931274414,
      "epoch": 73.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 1.0074517942666502e-07,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9826
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.25,
      "epoch": 73.34328358208955,
      "grad_norm": 0.0,
      "learning_rate": 1.0069294008648905e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9827
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.47222328186035,
      "epoch": 73.35074626865672,
      "grad_norm": 0.0,
      "learning_rate": 1.0064071087808642e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9828
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.77777862548828,
      "epoch": 73.35820895522389,
      "grad_norm": 0.0,
      "learning_rate": 1.0058849180500147e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9829
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.55555534362793,
      "epoch": 73.36567164179104,
      "grad_norm": 0.0,
      "learning_rate": 1.0053628287077781e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9830
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.61111068725586,
      "epoch": 73.3731343283582,
      "grad_norm": 0.0,
      "learning_rate": 1.0048408407895806e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9831
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.52777862548828,
      "epoch": 73.38059701492537,
      "grad_norm": 0.0,
      "learning_rate": 1.0043189543308456e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9832
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.88888931274414,
      "epoch": 73.38805970149254,
      "grad_norm": 0.0,
      "learning_rate": 1.0037971693669859e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9833
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.05555534362793,
      "epoch": 73.3955223880597,
      "grad_norm": 0.0,
      "learning_rate": 1.0032754859334094e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9834
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.61111068725586,
      "epoch": 73.40298507462687,
      "grad_norm": 0.0,
      "learning_rate": 1.0027539040655173e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9835
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.16666603088379,
      "epoch": 73.41044776119404,
      "grad_norm": 0.0,
      "learning_rate": 1.0022324237987046e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9836
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.91666603088379,
      "epoch": 73.41791044776119,
      "grad_norm": 0.0,
      "learning_rate": 1.0017110451683567e-07,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9837
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.33333396911621,
      "epoch": 73.42537313432835,
      "grad_norm": 0.0,
      "learning_rate": 1.001189768209853e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9838
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.27777862548828,
      "epoch": 73.43283582089552,
      "grad_norm": 0.0,
      "learning_rate": 1.0006685929585679e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9839
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.97222328186035,
      "epoch": 73.44029850746269,
      "grad_norm": 0.0,
      "learning_rate": 1.000147519449867e-07,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9840
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.97222328186035,
      "epoch": 73.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 9.996265477191113e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9841
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.75,
      "epoch": 73.45522388059702,
      "grad_norm": 0.0,
      "learning_rate": 9.991056778016507e-08,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9842
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.30555534362793,
      "epoch": 73.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 9.985849097328331e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9843
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.27777862548828,
      "epoch": 73.47014925373135,
      "grad_norm": 0.0,
      "learning_rate": 9.98064243547995e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9844
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.05555534362793,
      "epoch": 73.4776119402985,
      "grad_norm": 0.0,
      "learning_rate": 9.97543679282469e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9845
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.97222328186035,
      "epoch": 73.48507462686567,
      "grad_norm": 0.0,
      "learning_rate": 9.970232169715807e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9846
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.30555534362793,
      "epoch": 73.49253731343283,
      "grad_norm": 0.0,
      "learning_rate": 9.965028566506464e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9847
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.52777862548828,
      "epoch": 73.5,
      "grad_norm": 0.0,
      "learning_rate": 9.959825983549778e-08,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9848
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.61111068725586,
      "epoch": 73.50746268656717,
      "grad_norm": 0.0,
      "learning_rate": 9.95462442119879e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9849
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.91666603088379,
      "epoch": 73.51492537313433,
      "grad_norm": 0.0,
      "learning_rate": 9.949423879806479e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9850
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.80555534362793,
      "epoch": 73.5223880597015,
      "grad_norm": 0.0,
      "learning_rate": 9.944224359725728e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9851
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.61111068725586,
      "epoch": 73.52985074626865,
      "grad_norm": 0.0,
      "learning_rate": 9.939025861309391e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9852
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.25,
      "epoch": 73.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 9.933828384910208e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9853
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.27777862548828,
      "epoch": 73.54477611940298,
      "grad_norm": 0.0,
      "learning_rate": 9.928631930880885e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9854
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 22.86111068725586,
      "epoch": 73.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 9.923436499574044e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9855
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.5,
      "epoch": 73.55970149253731,
      "grad_norm": 0.0,
      "learning_rate": 9.918242091342255e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9856
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.11111068725586,
      "epoch": 73.56716417910448,
      "grad_norm": 0.0,
      "learning_rate": 9.913048706537985e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9857
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.33333396911621,
      "epoch": 73.57462686567165,
      "grad_norm": 0.0,
      "learning_rate": 9.907856345513646e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9858
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.66666603088379,
      "epoch": 73.58208955223881,
      "grad_norm": 0.0,
      "learning_rate": 9.902665008621597e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9859
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.33333396911621,
      "epoch": 73.58955223880596,
      "grad_norm": 0.0,
      "learning_rate": 9.897474696214109e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9860
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.25,
      "epoch": 73.59701492537313,
      "grad_norm": 0.0,
      "learning_rate": 9.8922854086434e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9861
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.19444465637207,
      "epoch": 73.6044776119403,
      "grad_norm": 0.0,
      "learning_rate": 9.887097146261591e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9862
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.55555534362793,
      "epoch": 73.61194029850746,
      "grad_norm": 0.0,
      "learning_rate": 9.881909909420761e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9863
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.86111068725586,
      "epoch": 73.61940298507463,
      "grad_norm": 0.0,
      "learning_rate": 9.876723698472913e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9864
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.33333396911621,
      "epoch": 73.6268656716418,
      "grad_norm": 0.0,
      "learning_rate": 9.871538513769965e-08,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9865
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.44444465637207,
      "epoch": 73.63432835820896,
      "grad_norm": 0.0,
      "learning_rate": 9.866354355663786e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9866
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.05555534362793,
      "epoch": 73.64179104477611,
      "grad_norm": 0.0,
      "learning_rate": 9.861171224506157e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9867
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.16666603088379,
      "epoch": 73.64925373134328,
      "grad_norm": 0.0,
      "learning_rate": 9.8559891206488e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9868
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.52777862548828,
      "epoch": 73.65671641791045,
      "grad_norm": 0.0,
      "learning_rate": 9.850808044443371e-08,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 9869
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.33333396911621,
      "epoch": 73.66417910447761,
      "grad_norm": 0.0,
      "learning_rate": 9.845627996241457e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9870
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.44444465637207,
      "epoch": 73.67164179104478,
      "grad_norm": 0.0,
      "learning_rate": 9.840448976394558e-08,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 9871
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.38888931274414,
      "epoch": 73.67910447761194,
      "grad_norm": 0.0,
      "learning_rate": 9.83527098525411e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9872
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.36111068725586,
      "epoch": 73.68656716417911,
      "grad_norm": 0.0,
      "learning_rate": 9.83009402317149e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9873
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.0,
      "epoch": 73.69402985074628,
      "grad_norm": 0.0,
      "learning_rate": 9.824918090498005e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9874
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.22222328186035,
      "epoch": 73.70149253731343,
      "grad_norm": 0.0,
      "learning_rate": 9.819743187584889e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9875
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.55555534362793,
      "epoch": 73.7089552238806,
      "grad_norm": 0.0,
      "learning_rate": 9.814569314783288e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9876
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.72222328186035,
      "epoch": 73.71641791044776,
      "grad_norm": 0.0,
      "learning_rate": 9.809396472444317e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9877
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.19444465637207,
      "epoch": 73.72388059701493,
      "grad_norm": 0.0,
      "learning_rate": 9.804224660918975e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9878
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.97222328186035,
      "epoch": 73.73134328358209,
      "grad_norm": 0.0,
      "learning_rate": 9.799053880558222e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9879
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.94444465637207,
      "epoch": 73.73880597014926,
      "grad_norm": 0.0,
      "learning_rate": 9.793884131712943e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9880
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.66666603088379,
      "epoch": 73.74626865671642,
      "grad_norm": 0.0,
      "learning_rate": 9.788715414733958e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9881
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.38888931274414,
      "epoch": 73.75373134328358,
      "grad_norm": 0.0,
      "learning_rate": 9.783547729971992e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9882
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.55555534362793,
      "epoch": 73.76119402985074,
      "grad_norm": 0.0,
      "learning_rate": 9.778381077777725e-08,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9883
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.97222328186035,
      "epoch": 73.76865671641791,
      "grad_norm": 0.0,
      "learning_rate": 9.773215458501769e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9884
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.66666603088379,
      "epoch": 73.77611940298507,
      "grad_norm": 0.0,
      "learning_rate": 9.768050872494637e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9885
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.77777862548828,
      "epoch": 73.78358208955224,
      "grad_norm": 0.0,
      "learning_rate": 9.762887320106808e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9886
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.86111068725586,
      "epoch": 73.7910447761194,
      "grad_norm": 0.0,
      "learning_rate": 9.757724801688658e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9887
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.86111068725586,
      "epoch": 73.79850746268657,
      "grad_norm": 0.0,
      "learning_rate": 9.752563317590515e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9888
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.91666603088379,
      "epoch": 73.80597014925372,
      "grad_norm": 0.0,
      "learning_rate": 9.747402868162632e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9889
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.36111068725586,
      "epoch": 73.81343283582089,
      "grad_norm": 0.0,
      "learning_rate": 9.7422434537552e-08,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9890
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.86111068725586,
      "epoch": 73.82089552238806,
      "grad_norm": 1.6854578175976003,
      "learning_rate": 9.737085074718319e-08,
      "loss": -0.0114,
      "reward": 1.9722222089767456,
      "reward_std": 0.0555555559694767,
      "rewards/accuracy_reward": 0.9722222089767456,
      "rewards/format_reward": 1.0,
      "step": 9891
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 23.55555534362793,
      "epoch": 73.82835820895522,
      "grad_norm": 0.0,
      "learning_rate": 9.731927731402018e-08,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9892
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.02777862548828,
      "epoch": 73.83582089552239,
      "grad_norm": 0.0,
      "learning_rate": 9.72677142415628e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9893
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.88888931274414,
      "epoch": 73.84328358208955,
      "grad_norm": 0.0,
      "learning_rate": 9.721616153331005e-08,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9894
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.97222328186035,
      "epoch": 73.85074626865672,
      "grad_norm": 0.0,
      "learning_rate": 9.716461919276031e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9895
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.11111068725586,
      "epoch": 73.85820895522389,
      "grad_norm": 0.0,
      "learning_rate": 9.711308722341096e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9896
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 39.9444465637207,
      "epoch": 73.86567164179104,
      "grad_norm": 2.1735846610498517,
      "learning_rate": 9.706156562875905e-08,
      "loss": 0.2993,
      "reward": 1.8333333730697632,
      "reward_std": 0.1111111119389534,
      "rewards/accuracy_reward": 0.8611111044883728,
      "rewards/format_reward": 0.9722222089767456,
      "step": 9897
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.13888931274414,
      "epoch": 73.8731343283582,
      "grad_norm": 0.0,
      "learning_rate": 9.701005441230078e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9898
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.16666603088379,
      "epoch": 73.88059701492537,
      "grad_norm": 0.0,
      "learning_rate": 9.695855357753152e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9899
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.97222328186035,
      "epoch": 73.88805970149254,
      "grad_norm": 0.0,
      "learning_rate": 9.690706312794617e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9900
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.30555534362793,
      "epoch": 73.8955223880597,
      "grad_norm": 0.0,
      "learning_rate": 9.685558306703865e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9901
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.11111068725586,
      "epoch": 73.90298507462687,
      "grad_norm": 0.0,
      "learning_rate": 9.680411339830242e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9902
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.83333396911621,
      "epoch": 73.91044776119404,
      "grad_norm": 0.0,
      "learning_rate": 9.675265412523012e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9903
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.0,
      "epoch": 73.91791044776119,
      "grad_norm": 0.0,
      "learning_rate": 9.670120525131378e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9904
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.88888931274414,
      "epoch": 73.92537313432835,
      "grad_norm": 0.0,
      "learning_rate": 9.664976678004464e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9905
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.5,
      "epoch": 73.93283582089552,
      "grad_norm": 0.0,
      "learning_rate": 9.659833871491308e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9906
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.38888931274414,
      "epoch": 73.94029850746269,
      "grad_norm": 0.0,
      "learning_rate": 9.654692105940904e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9907
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.27777862548828,
      "epoch": 73.94776119402985,
      "grad_norm": 0.0,
      "learning_rate": 9.649551381702167e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9908
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.91666603088379,
      "epoch": 73.95522388059702,
      "grad_norm": 0.0,
      "learning_rate": 9.644411699123939e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9909
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.19444465637207,
      "epoch": 73.96268656716418,
      "grad_norm": 0.0,
      "learning_rate": 9.639273058555003e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9910
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.13888931274414,
      "epoch": 73.97014925373135,
      "grad_norm": 0.0,
      "learning_rate": 9.634135460344045e-08,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9911
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.16666603088379,
      "epoch": 73.9776119402985,
      "grad_norm": 0.0,
      "learning_rate": 9.628998904839692e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9912
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.94444465637207,
      "epoch": 73.98507462686567,
      "grad_norm": 0.0,
      "learning_rate": 9.62386339239051e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9913
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.25,
      "epoch": 73.99253731343283,
      "grad_norm": 0.0,
      "learning_rate": 9.61872892334499e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9914
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.36111068725586,
      "epoch": 74.00746268656717,
      "grad_norm": 0.0,
      "learning_rate": 9.613595498051557e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9915
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.72222328186035,
      "epoch": 74.01492537313433,
      "grad_norm": 0.0,
      "learning_rate": 9.608463116858542e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9916
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.5,
      "epoch": 74.0223880597015,
      "grad_norm": 0.0,
      "learning_rate": 9.60333178011423e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9917
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.36111068725586,
      "epoch": 74.02985074626865,
      "grad_norm": 0.0,
      "learning_rate": 9.598201488166835e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9918
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.94444465637207,
      "epoch": 74.03731343283582,
      "grad_norm": 0.0,
      "learning_rate": 9.593072241364473e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9919
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.19444465637207,
      "epoch": 74.04477611940298,
      "grad_norm": 0.0,
      "learning_rate": 9.587944040055223e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9920
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.66666603088379,
      "epoch": 74.05223880597015,
      "grad_norm": 0.0,
      "learning_rate": 9.582816884587066e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9921
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.02777862548828,
      "epoch": 74.05970149253731,
      "grad_norm": 0.0,
      "learning_rate": 9.577690775307932e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9922
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.88888931274414,
      "epoch": 74.06716417910448,
      "grad_norm": 0.0,
      "learning_rate": 9.572565712565667e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9923
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.13888931274414,
      "epoch": 74.07462686567165,
      "grad_norm": 0.0,
      "learning_rate": 9.567441696708061e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9924
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.08333396911621,
      "epoch": 74.08208955223881,
      "grad_norm": 0.0,
      "learning_rate": 9.562318728082819e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9925
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.55555534362793,
      "epoch": 74.08955223880596,
      "grad_norm": 0.0,
      "learning_rate": 9.557196807037562e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9926
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.88888931274414,
      "epoch": 74.09701492537313,
      "grad_norm": 0.0,
      "learning_rate": 9.552075933919874e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9927
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.16666603088379,
      "epoch": 74.1044776119403,
      "grad_norm": 0.0,
      "learning_rate": 9.546956109077242e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9928
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.11111068725586,
      "epoch": 74.11194029850746,
      "grad_norm": 0.0,
      "learning_rate": 9.541837332857103e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9929
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.97222328186035,
      "epoch": 74.11940298507463,
      "grad_norm": 0.0,
      "learning_rate": 9.536719605606794e-08,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9930
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.72222328186035,
      "epoch": 74.1268656716418,
      "grad_norm": 0.0,
      "learning_rate": 9.531602927673604e-08,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9931
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.16666603088379,
      "epoch": 74.13432835820896,
      "grad_norm": 0.0,
      "learning_rate": 9.52648729940475e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9932
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.58333396911621,
      "epoch": 74.14179104477611,
      "grad_norm": 0.0,
      "learning_rate": 9.52137272114736e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9933
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.0,
      "epoch": 74.14925373134328,
      "grad_norm": 0.0,
      "learning_rate": 9.516259193248515e-08,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9934
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.22222328186035,
      "epoch": 74.15671641791045,
      "grad_norm": 0.0,
      "learning_rate": 9.5111467160552e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9935
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.16666603088379,
      "epoch": 74.16417910447761,
      "grad_norm": 0.0,
      "learning_rate": 9.50603528991434e-08,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9936
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.66666603088379,
      "epoch": 74.17164179104478,
      "grad_norm": 0.0,
      "learning_rate": 9.500924915172801e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9937
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.77777862548828,
      "epoch": 74.17910447761194,
      "grad_norm": 0.0,
      "learning_rate": 9.495815592177356e-08,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9938
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.80555534362793,
      "epoch": 74.18656716417911,
      "grad_norm": 0.0,
      "learning_rate": 9.490707321274732e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9939
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.41666603088379,
      "epoch": 74.19402985074628,
      "grad_norm": 0.0,
      "learning_rate": 9.485600102811555e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9940
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.69444465637207,
      "epoch": 74.20149253731343,
      "grad_norm": 0.0,
      "learning_rate": 9.480493937134393e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9941
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.19444465637207,
      "epoch": 74.2089552238806,
      "grad_norm": 0.0,
      "learning_rate": 9.475388824589744e-08,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9942
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.33333396911621,
      "epoch": 74.21641791044776,
      "grad_norm": 0.0,
      "learning_rate": 9.470284765524039e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9943
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.41666603088379,
      "epoch": 74.22388059701493,
      "grad_norm": 0.0,
      "learning_rate": 9.465181760283638e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9944
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.80555534362793,
      "epoch": 74.23134328358209,
      "grad_norm": 0.0,
      "learning_rate": 9.460079809214808e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9945
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.91666603088379,
      "epoch": 74.23880597014926,
      "grad_norm": 0.0,
      "learning_rate": 9.45497891266378e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9946
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 25.58333396911621,
      "epoch": 74.24626865671642,
      "grad_norm": 0.0,
      "learning_rate": 9.449879070976674e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9947
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.61111068725586,
      "epoch": 74.25373134328358,
      "grad_norm": 0.0,
      "learning_rate": 9.444780284499568e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9948
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.36111068725586,
      "epoch": 74.26119402985074,
      "grad_norm": 0.0,
      "learning_rate": 9.439682553578465e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9949
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.91666603088379,
      "epoch": 74.26865671641791,
      "grad_norm": 0.0,
      "learning_rate": 9.434585878559275e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9950
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.88888931274414,
      "epoch": 74.27611940298507,
      "grad_norm": 0.0,
      "learning_rate": 9.429490259787862e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9951
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.41666603088379,
      "epoch": 74.28358208955224,
      "grad_norm": 0.0,
      "learning_rate": 9.424395697610013e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9952
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.61111068725586,
      "epoch": 74.2910447761194,
      "grad_norm": 0.0,
      "learning_rate": 9.419302192371423e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9953
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.25,
      "epoch": 74.29850746268657,
      "grad_norm": 0.0,
      "learning_rate": 9.414209744417745e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9954
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.86111068725586,
      "epoch": 74.30597014925372,
      "grad_norm": 0.0,
      "learning_rate": 9.409118354094528e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9955
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 30.33333396911621,
      "epoch": 74.31343283582089,
      "grad_norm": 0.0,
      "learning_rate": 9.40402802174728e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9956
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.75,
      "epoch": 74.32089552238806,
      "grad_norm": 0.0,
      "learning_rate": 9.398938747721419e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9957
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.44444465637207,
      "epoch": 74.32835820895522,
      "grad_norm": 0.0,
      "learning_rate": 9.393850532362311e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9958
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.05555534362793,
      "epoch": 74.33582089552239,
      "grad_norm": 0.0,
      "learning_rate": 9.388763376015219e-08,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9959
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.97222328186035,
      "epoch": 74.34328358208955,
      "grad_norm": 0.0,
      "learning_rate": 9.383677279025346e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9960
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.38888931274414,
      "epoch": 74.35074626865672,
      "grad_norm": 0.0,
      "learning_rate": 9.378592241737837e-08,
      "loss": 0.0,
      "reward": 1.7777777910232544,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.7777777910232544,
      "rewards/format_reward": 1.0,
      "step": 9961
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.80555534362793,
      "epoch": 74.35820895522389,
      "grad_norm": 0.0,
      "learning_rate": 9.373508264497753e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9962
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.77777862548828,
      "epoch": 74.36567164179104,
      "grad_norm": 0.0,
      "learning_rate": 9.368425347650099e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9963
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.16666603088379,
      "epoch": 74.3731343283582,
      "grad_norm": 0.0,
      "learning_rate": 9.363343491539772e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9964
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.66666603088379,
      "epoch": 74.38059701492537,
      "grad_norm": 0.0,
      "learning_rate": 9.358262696511632e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9965
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.94444465637207,
      "epoch": 74.38805970149254,
      "grad_norm": 0.0,
      "learning_rate": 9.353182962910461e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9966
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.11111068725586,
      "epoch": 74.3955223880597,
      "grad_norm": 0.0,
      "learning_rate": 9.34810429108095e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9967
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.61111068725586,
      "epoch": 74.40298507462687,
      "grad_norm": 0.0,
      "learning_rate": 9.343026681367733e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9968
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.36111068725586,
      "epoch": 74.41044776119404,
      "grad_norm": 0.0,
      "learning_rate": 9.337950134115383e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9969
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.25,
      "epoch": 74.41791044776119,
      "grad_norm": 0.0,
      "learning_rate": 9.332874649668368e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9970
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.11111068725586,
      "epoch": 74.42537313432835,
      "grad_norm": 0.0,
      "learning_rate": 9.327800228371116e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9971
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.52777862548828,
      "epoch": 74.43283582089552,
      "grad_norm": 0.0,
      "learning_rate": 9.322726870567965e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9972
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.69444465637207,
      "epoch": 74.44029850746269,
      "grad_norm": 0.0,
      "learning_rate": 9.317654576603196e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9973
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.5,
      "epoch": 74.44776119402985,
      "grad_norm": 0.0,
      "learning_rate": 9.312583346821001e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9974
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.91666603088379,
      "epoch": 74.45522388059702,
      "grad_norm": 0.0,
      "learning_rate": 9.307513181565499e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9975
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.80555534362793,
      "epoch": 74.46268656716418,
      "grad_norm": 0.0,
      "learning_rate": 9.302444081180751e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9976
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.02777862548828,
      "epoch": 74.47014925373135,
      "grad_norm": 0.0,
      "learning_rate": 9.297376046010741e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9977
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.69444465637207,
      "epoch": 74.4776119402985,
      "grad_norm": 0.0,
      "learning_rate": 9.292309076399385e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9978
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.66666603088379,
      "epoch": 74.48507462686567,
      "grad_norm": 0.0,
      "learning_rate": 9.287243172690504e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9979
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.75,
      "epoch": 74.49253731343283,
      "grad_norm": 0.0,
      "learning_rate": 9.282178335227883e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9980
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.36111068725586,
      "epoch": 74.5,
      "grad_norm": 0.0,
      "learning_rate": 9.277114564355196e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9981
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.11111068725586,
      "epoch": 74.50746268656717,
      "grad_norm": 0.0,
      "learning_rate": 9.272051860416071e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9982
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.63888931274414,
      "epoch": 74.51492537313433,
      "grad_norm": 0.0,
      "learning_rate": 9.266990223754067e-08,
      "loss": 0.0,
      "reward": 1.5555555820465088,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.5555555820465088,
      "rewards/format_reward": 1.0,
      "step": 9983
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.97222328186035,
      "epoch": 74.5223880597015,
      "grad_norm": 0.0,
      "learning_rate": 9.261929654712645e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9984
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.77777862548828,
      "epoch": 74.52985074626865,
      "grad_norm": 0.0,
      "learning_rate": 9.256870153635208e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9985
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.02777862548828,
      "epoch": 74.53731343283582,
      "grad_norm": 0.0,
      "learning_rate": 9.251811720865105e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9986
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.41666603088379,
      "epoch": 74.54477611940298,
      "grad_norm": 0.0,
      "learning_rate": 9.246754356745571e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9987
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.55555534362793,
      "epoch": 74.55223880597015,
      "grad_norm": 0.0,
      "learning_rate": 9.241698061619813e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9988
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.02777862548828,
      "epoch": 74.55970149253731,
      "grad_norm": 0.0,
      "learning_rate": 9.236642835830924e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9989
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 24.83333396911621,
      "epoch": 74.56716417910448,
      "grad_norm": 0.0,
      "learning_rate": 9.231588679721955e-08,
      "loss": 0.0,
      "reward": 1.6666666269302368,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 1.0,
      "step": 9990
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.47222328186035,
      "epoch": 74.57462686567165,
      "grad_norm": 0.0,
      "learning_rate": 9.226535593635873e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9991
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.16666603088379,
      "epoch": 74.58208955223881,
      "grad_norm": 0.0,
      "learning_rate": 9.221483577915584e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9992
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 31.16666603088379,
      "epoch": 74.58955223880596,
      "grad_norm": 0.0,
      "learning_rate": 9.216432632903901e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9993
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 29.47222328186035,
      "epoch": 74.59701492537313,
      "grad_norm": 0.0,
      "learning_rate": 9.211382758943568e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9994
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 26.19444465637207,
      "epoch": 74.6044776119403,
      "grad_norm": 0.0,
      "learning_rate": 9.206333956377266e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9995
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.33333396911621,
      "epoch": 74.61194029850746,
      "grad_norm": 0.0,
      "learning_rate": 9.201286225547602e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9996
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.25,
      "epoch": 74.61940298507463,
      "grad_norm": 0.0,
      "learning_rate": 9.196239566797113e-08,
      "loss": 0.0,
      "reward": 1.888888955116272,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.8888888955116272,
      "rewards/format_reward": 1.0,
      "step": 9997
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.44444465637207,
      "epoch": 74.6268656716418,
      "grad_norm": 0.0,
      "learning_rate": 9.19119398046826e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9998
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 27.25,
      "epoch": 74.63432835820896,
      "grad_norm": 0.0,
      "learning_rate": 9.186149466903414e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 9999
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 28.97222328186035,
      "epoch": 74.64179104477611,
      "grad_norm": 0.0,
      "learning_rate": 9.181106026444912e-08,
      "loss": 0.0,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 1.0,
      "rewards/format_reward": 1.0,
      "step": 10000
    }
  ],
  "logging_steps": 1,
  "max_steps": 13400,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 100,
  "save_steps": 1000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 12,
  "trial_name": null,
  "trial_params": null
}