{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.4,
  "eval_steps": 500,
  "global_step": 1600,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "completion_length": 254.375,
      "epoch": 0.00025,
      "grad_norm": 0.37493768334388733,
      "kl": 0.0,
      "learning_rate": 1.2500000000000001e-08,
      "loss": -0.0,
      "reward": 0.25,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.125,
      "rewards/_format_reward": 0.125,
      "step": 1
    },
    {
      "completion_length": 220.875,
      "epoch": 0.0005,
      "grad_norm": 0.37041813135147095,
      "kl": 0.0,
      "learning_rate": 2.5000000000000002e-08,
      "loss": -0.0,
      "reward": 0.7687499523162842,
      "reward_std": 0.7151111364364624,
      "rewards/_accuracy_reward": 0.26874998211860657,
      "rewards/_format_reward": 0.5,
      "step": 2
    },
    {
      "completion_length": 225.5,
      "epoch": 0.00075,
      "grad_norm": 0.37694671750068665,
      "kl": 0.0006723726983182132,
      "learning_rate": 3.7500000000000005e-08,
      "loss": 0.0,
      "reward": 0.7875000238418579,
      "reward_std": 0.9026746153831482,
      "rewards/_accuracy_reward": 0.2874999940395355,
      "rewards/_format_reward": 0.5,
      "step": 3
    },
    {
      "completion_length": 238.875,
      "epoch": 0.001,
      "grad_norm": 0.34139618277549744,
      "kl": 0.0005685070063918829,
      "learning_rate": 5.0000000000000004e-08,
      "loss": 0.0,
      "reward": 0.375,
      "reward_std": 0.7440237998962402,
      "rewards/_accuracy_reward": 0.25,
      "rewards/_format_reward": 0.125,
      "step": 4
    },
    {
      "completion_length": 179.75,
      "epoch": 0.00125,
      "grad_norm": 0.3876967430114746,
      "kl": 0.0005563868908211589,
      "learning_rate": 6.250000000000001e-08,
      "loss": 0.0,
      "reward": 1.125,
      "reward_std": 0.9910312294960022,
      "rewards/_accuracy_reward": 0.625,
      "rewards/_format_reward": 0.5,
      "step": 5
    },
    {
      "completion_length": 210.5,
      "epoch": 0.0015,
      "grad_norm": 0.32642900943756104,
      "kl": 0.0006381691200658679,
      "learning_rate": 7.500000000000001e-08,
      "loss": 0.0,
      "reward": 0.25,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.125,
      "rewards/_format_reward": 0.125,
      "step": 6
    },
    {
      "completion_length": 114.875,
      "epoch": 0.00175,
      "grad_norm": 0.63201904296875,
      "kl": 0.00071949657285586,
      "learning_rate": 8.750000000000001e-08,
      "loss": 0.0,
      "reward": 1.25,
      "reward_std": 1.0350983142852783,
      "rewards/_accuracy_reward": 0.625,
      "rewards/_format_reward": 0.625,
      "step": 7
    },
    {
      "completion_length": 233.375,
      "epoch": 0.002,
      "grad_norm": 0.6539371013641357,
      "kl": 0.0006772859487682581,
      "learning_rate": 1.0000000000000001e-07,
      "loss": 0.0,
      "reward": 0.13749998807907104,
      "reward_std": 0.3691205382347107,
      "rewards/_accuracy_reward": 0.012500000186264515,
      "rewards/_format_reward": 0.125,
      "step": 8
    },
    {
      "completion_length": 201.875,
      "epoch": 0.00225,
      "grad_norm": 0.45297423005104065,
      "kl": 0.0006543596973642707,
      "learning_rate": 1.1250000000000001e-07,
      "loss": 0.0,
      "reward": 0.875,
      "reward_std": 0.9910312294960022,
      "rewards/_accuracy_reward": 0.5,
      "rewards/_format_reward": 0.375,
      "step": 9
    },
    {
      "completion_length": 194.5,
      "epoch": 0.0025,
      "grad_norm": 0.4227246046066284,
      "kl": 0.000667984364554286,
      "learning_rate": 1.2500000000000002e-07,
      "loss": 0.0,
      "reward": 0.71875,
      "reward_std": 0.8066409826278687,
      "rewards/_accuracy_reward": 0.21875,
      "rewards/_format_reward": 0.5,
      "step": 10
    },
    {
      "completion_length": 243.0,
      "epoch": 0.00275,
      "grad_norm": 0.0012034112587571144,
      "kl": 0.0005753615405410528,
      "learning_rate": 1.375e-07,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 0.0,
      "rewards/_format_reward": 0.0,
      "step": 11
    },
    {
      "completion_length": 209.625,
      "epoch": 0.003,
      "grad_norm": 0.3236827254295349,
      "kl": 0.0004996673669666052,
      "learning_rate": 1.5000000000000002e-07,
      "loss": 0.0,
      "reward": 0.574999988079071,
      "reward_std": 0.619331419467926,
      "rewards/_accuracy_reward": 0.07500000298023224,
      "rewards/_format_reward": 0.5,
      "step": 12
    },
    {
      "completion_length": 226.375,
      "epoch": 0.00325,
      "grad_norm": 0.3909885287284851,
      "kl": 0.0006868684431537986,
      "learning_rate": 1.625e-07,
      "loss": 0.0,
      "reward": 0.34375,
      "reward_std": 0.4988826811313629,
      "rewards/_accuracy_reward": 0.21875,
      "rewards/_format_reward": 0.125,
      "step": 13
    },
    {
      "completion_length": 232.0,
      "epoch": 0.0035,
      "grad_norm": 0.2995592951774597,
      "kl": 0.0005955615197308362,
      "learning_rate": 1.7500000000000002e-07,
      "loss": 0.0,
      "reward": 0.5625,
      "reward_std": 0.810092568397522,
      "rewards/_accuracy_reward": 0.1875,
      "rewards/_format_reward": 0.375,
      "step": 14
    },
    {
      "completion_length": 172.625,
      "epoch": 0.00375,
      "grad_norm": 0.5309815406799316,
      "kl": 0.0006232442683540285,
      "learning_rate": 1.875e-07,
      "loss": 0.0,
      "reward": 0.6312500238418579,
      "reward_std": 0.9192144870758057,
      "rewards/_accuracy_reward": 0.2562499940395355,
      "rewards/_format_reward": 0.375,
      "step": 15
    },
    {
      "completion_length": 123.375,
      "epoch": 0.004,
      "grad_norm": 0.3811752200126648,
      "kl": 0.000560120097361505,
      "learning_rate": 2.0000000000000002e-07,
      "loss": 0.0,
      "reward": 0.96875,
      "reward_std": 0.5250425338745117,
      "rewards/_accuracy_reward": 0.21875,
      "rewards/_format_reward": 0.75,
      "step": 16
    },
    {
      "completion_length": 226.125,
      "epoch": 0.00425,
      "grad_norm": 0.3893718123435974,
      "kl": 0.0008009783923625946,
      "learning_rate": 2.1250000000000003e-07,
      "loss": 0.0,
      "reward": 0.4437499940395355,
      "reward_std": 0.6155354380607605,
      "rewards/_accuracy_reward": 0.06875000149011612,
      "rewards/_format_reward": 0.375,
      "step": 17
    },
    {
      "completion_length": 204.25,
      "epoch": 0.0045,
      "grad_norm": 0.3759849965572357,
      "kl": 0.0006915747653692961,
      "learning_rate": 2.2500000000000002e-07,
      "loss": 0.0,
      "reward": 0.5625,
      "reward_std": 0.7647361755371094,
      "rewards/_accuracy_reward": 0.3125,
      "rewards/_format_reward": 0.25,
      "step": 18
    },
    {
      "completion_length": 231.0,
      "epoch": 0.00475,
      "grad_norm": 0.34655511379241943,
      "kl": 0.000734607398044318,
      "learning_rate": 2.3750000000000003e-07,
      "loss": 0.0,
      "reward": 0.53125,
      "reward_std": 0.9106267690658569,
      "rewards/_accuracy_reward": 0.28125,
      "rewards/_format_reward": 0.25,
      "step": 19
    },
    {
      "completion_length": 244.25,
      "epoch": 0.005,
      "grad_norm": 0.32063984870910645,
      "kl": 0.0005592820816673338,
      "learning_rate": 2.5000000000000004e-07,
      "loss": 0.0,
      "reward": 0.5,
      "reward_std": 0.9258201122283936,
      "rewards/_accuracy_reward": 0.25,
      "rewards/_format_reward": 0.25,
      "step": 20
    },
    {
      "completion_length": 237.625,
      "epoch": 0.00525,
      "grad_norm": 0.3625517189502716,
      "kl": 0.0005329761188477278,
      "learning_rate": 2.6250000000000003e-07,
      "loss": 0.0,
      "reward": 0.1875,
      "reward_std": 0.4381372928619385,
      "rewards/_accuracy_reward": 0.0625,
      "rewards/_format_reward": 0.125,
      "step": 21
    },
    {
      "completion_length": 240.5,
      "epoch": 0.0055,
      "grad_norm": 0.39223137497901917,
      "kl": 0.0006619459018111229,
      "learning_rate": 2.75e-07,
      "loss": 0.0,
      "reward": 0.375,
      "reward_std": 0.7440237998962402,
      "rewards/_accuracy_reward": 0.25,
      "rewards/_format_reward": 0.125,
      "step": 22
    },
    {
      "completion_length": 243.5,
      "epoch": 0.00575,
      "grad_norm": 0.4175410866737366,
      "kl": 0.0005919833201915026,
      "learning_rate": 2.8750000000000005e-07,
      "loss": 0.0,
      "reward": 0.13124999403953552,
      "reward_std": 0.3712310194969177,
      "rewards/_accuracy_reward": 0.0062500000931322575,
      "rewards/_format_reward": 0.125,
      "step": 23
    },
    {
      "completion_length": 221.625,
      "epoch": 0.006,
      "grad_norm": 0.3331623673439026,
      "kl": 0.0006004280294291675,
      "learning_rate": 3.0000000000000004e-07,
      "loss": 0.0,
      "reward": 0.13124999403953552,
      "reward_std": 0.3712310194969177,
      "rewards/_accuracy_reward": 0.0062500000931322575,
      "rewards/_format_reward": 0.125,
      "step": 24
    },
    {
      "completion_length": 235.0,
      "epoch": 0.00625,
      "grad_norm": 0.3354165852069855,
      "kl": 0.0007247485918924212,
      "learning_rate": 3.125e-07,
      "loss": 0.0,
      "reward": 0.5187499523162842,
      "reward_std": 0.554808497428894,
      "rewards/_accuracy_reward": 0.14374999701976776,
      "rewards/_format_reward": 0.375,
      "step": 25
    },
    {
      "completion_length": 183.625,
      "epoch": 0.0065,
      "grad_norm": 0.36789894104003906,
      "kl": 0.0005746211390942335,
      "learning_rate": 3.25e-07,
      "loss": 0.0,
      "reward": 0.65625,
      "reward_std": 0.6399986147880554,
      "rewards/_accuracy_reward": 0.15625,
      "rewards/_format_reward": 0.5,
      "step": 26
    },
    {
      "completion_length": 249.75,
      "epoch": 0.00675,
      "grad_norm": 0.34738096594810486,
      "kl": 0.0005474050994962454,
      "learning_rate": 3.3750000000000005e-07,
      "loss": 0.0,
      "reward": 0.3125,
      "reward_std": 0.5786375403404236,
      "rewards/_accuracy_reward": 0.0625,
      "rewards/_format_reward": 0.25,
      "step": 27
    },
    {
      "completion_length": 225.125,
      "epoch": 0.007,
      "grad_norm": 0.40637290477752686,
      "kl": 0.0006180583732202649,
      "learning_rate": 3.5000000000000004e-07,
      "loss": 0.0,
      "reward": 0.65625,
      "reward_std": 0.9348175525665283,
      "rewards/_accuracy_reward": 0.28125,
      "rewards/_format_reward": 0.375,
      "step": 28
    },
    {
      "completion_length": 220.375,
      "epoch": 0.00725,
      "grad_norm": 0.3404392600059509,
      "kl": 0.0006671351147815585,
      "learning_rate": 3.625e-07,
      "loss": 0.0,
      "reward": 0.875,
      "reward_std": 0.9910312294960022,
      "rewards/_accuracy_reward": 0.5,
      "rewards/_format_reward": 0.375,
      "step": 29
    },
    {
      "completion_length": 217.75,
      "epoch": 0.0075,
      "grad_norm": 0.3346198797225952,
      "kl": 0.0005711165722459555,
      "learning_rate": 3.75e-07,
      "loss": 0.0,
      "reward": 0.28125,
      "reward_std": 0.5250425338745117,
      "rewards/_accuracy_reward": 0.15625,
      "rewards/_format_reward": 0.125,
      "step": 30
    },
    {
      "completion_length": 203.75,
      "epoch": 0.00775,
      "grad_norm": 0.3994467854499817,
      "kl": 0.0006567926029674709,
      "learning_rate": 3.8750000000000005e-07,
      "loss": 0.0,
      "reward": 0.9375,
      "reward_std": 0.8530408143997192,
      "rewards/_accuracy_reward": 0.4375,
      "rewards/_format_reward": 0.5,
      "step": 31
    },
    {
      "completion_length": 245.25,
      "epoch": 0.008,
      "grad_norm": 0.3885516822338104,
      "kl": 0.0007667718455195427,
      "learning_rate": 4.0000000000000003e-07,
      "loss": 0.0,
      "reward": 0.15625,
      "reward_std": 0.4419417381286621,
      "rewards/_accuracy_reward": 0.03125,
      "rewards/_format_reward": 0.125,
      "step": 32
    },
    {
      "completion_length": 142.5,
      "epoch": 0.00825,
      "grad_norm": 0.5926032066345215,
      "kl": 0.0007175234495662153,
      "learning_rate": 4.125000000000001e-07,
      "loss": 0.0,
      "reward": 0.78125,
      "reward_std": 0.6469364762306213,
      "rewards/_accuracy_reward": 0.15625,
      "rewards/_format_reward": 0.625,
      "step": 33
    },
    {
      "completion_length": 256.0,
      "epoch": 0.0085,
      "grad_norm": 0.31638824939727783,
      "kl": 0.0005166275659576058,
      "learning_rate": 4.2500000000000006e-07,
      "loss": 0.0,
      "reward": 0.25,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.125,
      "rewards/_format_reward": 0.125,
      "step": 34
    },
    {
      "completion_length": 135.75,
      "epoch": 0.00875,
      "grad_norm": 0.48894402384757996,
      "kl": 0.0006614525336772203,
      "learning_rate": 4.375e-07,
      "loss": 0.0,
      "reward": 1.40625,
      "reward_std": 0.9057110548019409,
      "rewards/_accuracy_reward": 0.65625,
      "rewards/_format_reward": 0.75,
      "step": 35
    },
    {
      "completion_length": 199.875,
      "epoch": 0.009,
      "grad_norm": 0.35523107647895813,
      "kl": 0.0007132225437089801,
      "learning_rate": 4.5000000000000003e-07,
      "loss": 0.0,
      "reward": 1.256250023841858,
      "reward_std": 1.0265884399414062,
      "rewards/_accuracy_reward": 0.6312500238418579,
      "rewards/_format_reward": 0.625,
      "step": 36
    },
    {
      "completion_length": 231.25,
      "epoch": 0.00925,
      "grad_norm": 0.35712504386901855,
      "kl": 0.0005631354288198054,
      "learning_rate": 4.625e-07,
      "loss": 0.0,
      "reward": 0.34375,
      "reward_std": 0.5659615993499756,
      "rewards/_accuracy_reward": 0.09375,
      "rewards/_format_reward": 0.25,
      "step": 37
    },
    {
      "completion_length": 128.75,
      "epoch": 0.0095,
      "grad_norm": 0.48980286717414856,
      "kl": 0.0007973555475473404,
      "learning_rate": 4.7500000000000006e-07,
      "loss": 0.0,
      "reward": 1.15625,
      "reward_std": 0.9904679656028748,
      "rewards/_accuracy_reward": 0.53125,
      "rewards/_format_reward": 0.625,
      "step": 38
    },
    {
      "completion_length": 119.875,
      "epoch": 0.00975,
      "grad_norm": 0.4735913872718811,
      "kl": 0.0006368064787238836,
      "learning_rate": 4.875000000000001e-07,
      "loss": 0.0,
      "reward": 0.9375,
      "reward_std": 0.5786375403404236,
      "rewards/_accuracy_reward": 0.1875,
      "rewards/_format_reward": 0.75,
      "step": 39
    },
    {
      "completion_length": 238.25,
      "epoch": 0.01,
      "grad_norm": 0.0012446728069335222,
      "kl": 0.0006722843972966075,
      "learning_rate": 5.000000000000001e-07,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 0.0,
      "rewards/_format_reward": 0.0,
      "step": 40
    },
    {
      "completion_length": 175.625,
      "epoch": 0.01025,
      "grad_norm": 0.403473436832428,
      "kl": 0.0006806729943491518,
      "learning_rate": 5.125e-07,
      "loss": 0.0,
      "reward": 1.225000023841858,
      "reward_std": 0.782395601272583,
      "rewards/_accuracy_reward": 0.4749999940395355,
      "rewards/_format_reward": 0.75,
      "step": 41
    },
    {
      "completion_length": 231.875,
      "epoch": 0.0105,
      "grad_norm": 0.49770158529281616,
      "kl": 0.0007452387944795191,
      "learning_rate": 5.250000000000001e-07,
      "loss": 0.0,
      "reward": 0.3125,
      "reward_std": 0.5786375403404236,
      "rewards/_accuracy_reward": 0.0625,
      "rewards/_format_reward": 0.25,
      "step": 42
    },
    {
      "completion_length": 153.375,
      "epoch": 0.01075,
      "grad_norm": 0.4276140332221985,
      "kl": 0.0006472233217209578,
      "learning_rate": 5.375e-07,
      "loss": 0.0,
      "reward": 1.40625,
      "reward_std": 0.9057110548019409,
      "rewards/_accuracy_reward": 0.65625,
      "rewards/_format_reward": 0.75,
      "step": 43
    },
    {
      "completion_length": 253.125,
      "epoch": 0.011,
      "grad_norm": 0.3752562701702118,
      "kl": 0.0006933521945029497,
      "learning_rate": 5.5e-07,
      "loss": 0.0,
      "reward": 0.25,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.125,
      "rewards/_format_reward": 0.125,
      "step": 44
    },
    {
      "completion_length": 238.0,
      "epoch": 0.01125,
      "grad_norm": 0.36442264914512634,
      "kl": 0.0006443914026021957,
      "learning_rate": 5.625e-07,
      "loss": 0.0,
      "reward": 0.26374998688697815,
      "reward_std": 0.4852962791919708,
      "rewards/_accuracy_reward": 0.013749999925494194,
      "rewards/_format_reward": 0.25,
      "step": 45
    },
    {
      "completion_length": 245.25,
      "epoch": 0.0115,
      "grad_norm": 0.3032134473323822,
      "kl": 0.0007067061378620565,
      "learning_rate": 5.750000000000001e-07,
      "loss": 0.0,
      "reward": 0.25,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.125,
      "rewards/_format_reward": 0.125,
      "step": 46
    },
    {
      "completion_length": 244.0,
      "epoch": 0.01175,
      "grad_norm": 0.29296252131462097,
      "kl": 0.0005294690490700305,
      "learning_rate": 5.875e-07,
      "loss": 0.0,
      "reward": 0.5,
      "reward_std": 0.9258201122283936,
      "rewards/_accuracy_reward": 0.25,
      "rewards/_format_reward": 0.25,
      "step": 47
    },
    {
      "completion_length": 217.875,
      "epoch": 0.012,
      "grad_norm": 0.452722430229187,
      "kl": 0.0006610968266613781,
      "learning_rate": 6.000000000000001e-07,
      "loss": 0.0,
      "reward": 0.6312500238418579,
      "reward_std": 0.9192146062850952,
      "rewards/_accuracy_reward": 0.2562499940395355,
      "rewards/_format_reward": 0.375,
      "step": 48
    },
    {
      "completion_length": 212.75,
      "epoch": 0.01225,
      "grad_norm": 0.3818938136100769,
      "kl": 0.000738343340344727,
      "learning_rate": 6.125000000000001e-07,
      "loss": 0.0,
      "reward": 0.59375,
      "reward_std": 0.7898632287979126,
      "rewards/_accuracy_reward": 0.21875,
      "rewards/_format_reward": 0.375,
      "step": 49
    },
    {
      "completion_length": 253.75,
      "epoch": 0.0125,
      "grad_norm": 0.3251837491989136,
      "kl": 0.0006078524165786803,
      "learning_rate": 6.25e-07,
      "loss": 0.0,
      "reward": 0.13124999403953552,
      "reward_std": 0.3712310194969177,
      "rewards/_accuracy_reward": 0.0062500000931322575,
      "rewards/_format_reward": 0.125,
      "step": 50
    },
    {
      "completion_length": 243.0,
      "epoch": 0.01275,
      "grad_norm": 0.5190939903259277,
      "kl": 0.0007083836244419217,
      "learning_rate": 6.375e-07,
      "loss": 0.0,
      "reward": 0.375,
      "reward_std": 0.7440237998962402,
      "rewards/_accuracy_reward": 0.25,
      "rewards/_format_reward": 0.125,
      "step": 51
    },
    {
      "completion_length": 238.875,
      "epoch": 0.013,
      "grad_norm": 0.28036755323410034,
      "kl": 0.0006517173023894429,
      "learning_rate": 6.5e-07,
      "loss": 0.0,
      "reward": 0.14374998211860657,
      "reward_std": 0.3668762743473053,
      "rewards/_accuracy_reward": 0.01875000074505806,
      "rewards/_format_reward": 0.125,
      "step": 52
    },
    {
      "completion_length": 246.75,
      "epoch": 0.01325,
      "grad_norm": 0.35812488198280334,
      "kl": 0.0008360664360225201,
      "learning_rate": 6.625000000000001e-07,
      "loss": 0.0,
      "reward": 0.125,
      "reward_std": 0.3535533845424652,
      "rewards/_accuracy_reward": 0.125,
      "rewards/_format_reward": 0.0,
      "step": 53
    },
    {
      "completion_length": 224.125,
      "epoch": 0.0135,
      "grad_norm": 0.6414341926574707,
      "kl": 0.0006303292466327548,
      "learning_rate": 6.750000000000001e-07,
      "loss": 0.0,
      "reward": 0.13124999403953552,
      "reward_std": 0.35146379470825195,
      "rewards/_accuracy_reward": 0.13124999403953552,
      "rewards/_format_reward": 0.0,
      "step": 54
    },
    {
      "completion_length": 179.25,
      "epoch": 0.01375,
      "grad_norm": 0.48622655868530273,
      "kl": 0.0005767670809291303,
      "learning_rate": 6.875000000000001e-07,
      "loss": 0.0,
      "reward": 1.0625,
      "reward_std": 0.933025062084198,
      "rewards/_accuracy_reward": 0.4375,
      "rewards/_format_reward": 0.625,
      "step": 55
    },
    {
      "completion_length": 249.875,
      "epoch": 0.014,
      "grad_norm": 0.3496423661708832,
      "kl": 0.0007510894211009145,
      "learning_rate": 7.000000000000001e-07,
      "loss": 0.0,
      "reward": 0.25,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.125,
      "rewards/_format_reward": 0.125,
      "step": 56
    },
    {
      "completion_length": 203.625,
      "epoch": 0.01425,
      "grad_norm": 0.4185102880001068,
      "kl": 0.0006905872724018991,
      "learning_rate": 7.125e-07,
      "loss": 0.0,
      "reward": 0.4437499940395355,
      "reward_std": 0.6155354380607605,
      "rewards/_accuracy_reward": 0.06875000149011612,
      "rewards/_format_reward": 0.375,
      "step": 57
    },
    {
      "completion_length": 168.125,
      "epoch": 0.0145,
      "grad_norm": 0.4493039846420288,
      "kl": 0.0008549755439162254,
      "learning_rate": 7.25e-07,
      "loss": 0.0,
      "reward": 1.0625,
      "reward_std": 0.933025062084198,
      "rewards/_accuracy_reward": 0.4375,
      "rewards/_format_reward": 0.625,
      "step": 58
    },
    {
      "completion_length": 191.375,
      "epoch": 0.01475,
      "grad_norm": 0.47024667263031006,
      "kl": 0.0006958736339583993,
      "learning_rate": 7.375e-07,
      "loss": 0.0,
      "reward": 0.9375,
      "reward_std": 0.8530408143997192,
      "rewards/_accuracy_reward": 0.4375,
      "rewards/_format_reward": 0.5,
      "step": 59
    },
    {
      "completion_length": 221.875,
      "epoch": 0.015,
      "grad_norm": 0.38048815727233887,
      "kl": 0.0005862182006239891,
      "learning_rate": 7.5e-07,
      "loss": 0.0,
      "reward": 0.39374998211860657,
      "reward_std": 0.5434265732765198,
      "rewards/_accuracy_reward": 0.01875000074505806,
      "rewards/_format_reward": 0.375,
      "step": 60
    },
    {
      "completion_length": 168.375,
      "epoch": 0.01525,
      "grad_norm": 0.4688246548175812,
      "kl": 0.0007134783663786948,
      "learning_rate": 7.625e-07,
      "loss": 0.0,
      "reward": 0.762499988079071,
      "reward_std": 0.5736786127090454,
      "rewards/_accuracy_reward": 0.13750000298023224,
      "rewards/_format_reward": 0.625,
      "step": 61
    },
    {
      "completion_length": 223.375,
      "epoch": 0.0155,
      "grad_norm": 0.42805564403533936,
      "kl": 0.0006862103473395109,
      "learning_rate": 7.750000000000001e-07,
      "loss": 0.0,
      "reward": 0.15625,
      "reward_std": 0.4419417381286621,
      "rewards/_accuracy_reward": 0.03125,
      "rewards/_format_reward": 0.125,
      "step": 62
    },
    {
      "completion_length": 134.5,
      "epoch": 0.01575,
      "grad_norm": 0.3511326014995575,
      "kl": 0.0005350976716727018,
      "learning_rate": 7.875000000000001e-07,
      "loss": 0.0,
      "reward": 1.09375,
      "reward_std": 0.4419417381286621,
      "rewards/_accuracy_reward": 0.21875,
      "rewards/_format_reward": 0.875,
      "step": 63
    },
    {
      "completion_length": 179.5,
      "epoch": 0.016,
      "grad_norm": 0.3511122763156891,
      "kl": 0.0006030978402122855,
      "learning_rate": 8.000000000000001e-07,
      "loss": 0.0,
      "reward": 0.7999999523162842,
      "reward_std": 0.7319250702857971,
      "rewards/_accuracy_reward": 0.17500001192092896,
      "rewards/_format_reward": 0.625,
      "step": 64
    },
    {
      "completion_length": 186.625,
      "epoch": 0.01625,
      "grad_norm": 0.40380579233169556,
      "kl": 0.0007325903279706836,
      "learning_rate": 8.125000000000001e-07,
      "loss": 0.0,
      "reward": 0.71875,
      "reward_std": 0.8066409826278687,
      "rewards/_accuracy_reward": 0.21875,
      "rewards/_format_reward": 0.5,
      "step": 65
    },
    {
      "completion_length": 243.75,
      "epoch": 0.0165,
      "grad_norm": 0.32375988364219666,
      "kl": 0.0006421853322535753,
      "learning_rate": 8.250000000000001e-07,
      "loss": 0.0,
      "reward": 0.25,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.125,
      "rewards/_format_reward": 0.125,
      "step": 66
    },
    {
      "completion_length": 227.625,
      "epoch": 0.01675,
      "grad_norm": 0.320794939994812,
      "kl": 0.000636743672657758,
      "learning_rate": 8.375000000000001e-07,
      "loss": 0.0,
      "reward": 0.8125,
      "reward_std": 0.9136856198310852,
      "rewards/_accuracy_reward": 0.3125,
      "rewards/_format_reward": 0.5,
      "step": 67
    },
    {
      "completion_length": 212.0,
      "epoch": 0.017,
      "grad_norm": 0.3829336166381836,
      "kl": 0.0007118759676814079,
      "learning_rate": 8.500000000000001e-07,
      "loss": 0.0,
      "reward": 0.71875,
      "reward_std": 0.8066409826278687,
      "rewards/_accuracy_reward": 0.21875,
      "rewards/_format_reward": 0.5,
      "step": 68
    },
    {
      "completion_length": 242.0,
      "epoch": 0.01725,
      "grad_norm": 0.3430902361869812,
      "kl": 0.0006913796532899141,
      "learning_rate": 8.625e-07,
      "loss": 0.0,
      "reward": 0.03125,
      "reward_std": 0.0883883461356163,
      "rewards/_accuracy_reward": 0.03125,
      "rewards/_format_reward": 0.0,
      "step": 69
    },
    {
      "completion_length": 238.5,
      "epoch": 0.0175,
      "grad_norm": 0.3244885504245758,
      "kl": 0.0006061598542146385,
      "learning_rate": 8.75e-07,
      "loss": 0.0,
      "reward": 0.65625,
      "reward_std": 0.9348175525665283,
      "rewards/_accuracy_reward": 0.28125,
      "rewards/_format_reward": 0.375,
      "step": 70
    },
    {
      "completion_length": 142.625,
      "epoch": 0.01775,
      "grad_norm": 0.5040633678436279,
      "kl": 0.0006145286024548113,
      "learning_rate": 8.875000000000001e-07,
      "loss": 0.0,
      "reward": 0.875,
      "reward_std": 0.5175491571426392,
      "rewards/_accuracy_reward": 0.25,
      "rewards/_format_reward": 0.625,
      "step": 71
    },
    {
      "completion_length": 256.0,
      "epoch": 0.018,
      "grad_norm": 0.0008479771786369383,
      "kl": 0.00054691091645509,
      "learning_rate": 9.000000000000001e-07,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 0.0,
      "rewards/_format_reward": 0.0,
      "step": 72
    },
    {
      "completion_length": 203.75,
      "epoch": 0.01825,
      "grad_norm": 0.441141813993454,
      "kl": 0.0006427373737096786,
      "learning_rate": 9.125e-07,
      "loss": 0.0,
      "reward": 0.5625,
      "reward_std": 0.7647361755371094,
      "rewards/_accuracy_reward": 0.3125,
      "rewards/_format_reward": 0.25,
      "step": 73
    },
    {
      "completion_length": 213.125,
      "epoch": 0.0185,
      "grad_norm": 0.4041379392147064,
      "kl": 0.0007986929267644882,
      "learning_rate": 9.25e-07,
      "loss": 0.0,
      "reward": 0.2749999761581421,
      "reward_std": 0.47883784770965576,
      "rewards/_accuracy_reward": 0.02500000037252903,
      "rewards/_format_reward": 0.25,
      "step": 74
    },
    {
      "completion_length": 240.625,
      "epoch": 0.01875,
      "grad_norm": 0.3502941429615021,
      "kl": 0.0006043448811396956,
      "learning_rate": 9.375000000000001e-07,
      "loss": 0.0,
      "reward": 0.40625,
      "reward_std": 0.7784771919250488,
      "rewards/_accuracy_reward": 0.15625,
      "rewards/_format_reward": 0.25,
      "step": 75
    },
    {
      "completion_length": 238.75,
      "epoch": 0.019,
      "grad_norm": 0.36953458189964294,
      "kl": 0.0006860418943688273,
      "learning_rate": 9.500000000000001e-07,
      "loss": 0.0,
      "reward": 0.5,
      "reward_std": 0.9258201122283936,
      "rewards/_accuracy_reward": 0.25,
      "rewards/_format_reward": 0.25,
      "step": 76
    },
    {
      "completion_length": 234.625,
      "epoch": 0.01925,
      "grad_norm": 0.3768980801105499,
      "kl": 0.000608474132604897,
      "learning_rate": 9.625e-07,
      "loss": 0.0,
      "reward": 0.26249998807907104,
      "reward_std": 0.48605549335479736,
      "rewards/_accuracy_reward": 0.012500000186264515,
      "rewards/_format_reward": 0.25,
      "step": 77
    },
    {
      "completion_length": 252.875,
      "epoch": 0.0195,
      "grad_norm": 0.3738728165626526,
      "kl": 0.0006259999936446548,
      "learning_rate": 9.750000000000002e-07,
      "loss": 0.0,
      "reward": 0.03125,
      "reward_std": 0.0883883461356163,
      "rewards/_accuracy_reward": 0.03125,
      "rewards/_format_reward": 0.0,
      "step": 78
    },
    {
      "completion_length": 186.625,
      "epoch": 0.01975,
      "grad_norm": 0.3504292666912079,
      "kl": 0.0006338249077089131,
      "learning_rate": 9.875e-07,
      "loss": 0.0,
      "reward": 1.2625000476837158,
      "reward_std": 0.7024192810058594,
      "rewards/_accuracy_reward": 0.637499988079071,
      "rewards/_format_reward": 0.625,
      "step": 79
    },
    {
      "completion_length": 193.0,
      "epoch": 0.02,
      "grad_norm": 0.3745087683200836,
      "kl": 0.000602383108343929,
      "learning_rate": 1.0000000000000002e-06,
      "loss": 0.0,
      "reward": 0.96875,
      "reward_std": 0.8602066040039062,
      "rewards/_accuracy_reward": 0.34375,
      "rewards/_format_reward": 0.625,
      "step": 80
    },
    {
      "completion_length": 214.0,
      "epoch": 0.02025,
      "grad_norm": 0.327633798122406,
      "kl": 0.0005732266581617296,
      "learning_rate": 1.0125e-06,
      "loss": 0.0,
      "reward": 0.78125,
      "reward_std": 0.900768518447876,
      "rewards/_accuracy_reward": 0.40625,
      "rewards/_format_reward": 0.375,
      "step": 81
    },
    {
      "completion_length": 217.875,
      "epoch": 0.0205,
      "grad_norm": 0.43696385622024536,
      "kl": 0.000646731466986239,
      "learning_rate": 1.025e-06,
      "loss": 0.0,
      "reward": 0.512499988079071,
      "reward_std": 0.765669584274292,
      "rewards/_accuracy_reward": 0.13749998807907104,
      "rewards/_format_reward": 0.375,
      "step": 82
    },
    {
      "completion_length": 189.125,
      "epoch": 0.02075,
      "grad_norm": 0.44965532422065735,
      "kl": 0.0007412461563944817,
      "learning_rate": 1.0375e-06,
      "loss": 0.0,
      "reward": 0.90625,
      "reward_std": 0.9994418025016785,
      "rewards/_accuracy_reward": 0.40625,
      "rewards/_format_reward": 0.5,
      "step": 83
    },
    {
      "completion_length": 182.5,
      "epoch": 0.021,
      "grad_norm": 0.32483235001564026,
      "kl": 0.0006356970407068729,
      "learning_rate": 1.0500000000000001e-06,
      "loss": 0.0,
      "reward": 1.375,
      "reward_std": 0.6681531071662903,
      "rewards/_accuracy_reward": 0.5,
      "rewards/_format_reward": 0.875,
      "step": 84
    },
    {
      "completion_length": 218.375,
      "epoch": 0.02125,
      "grad_norm": 0.36401814222335815,
      "kl": 0.0006372305797412992,
      "learning_rate": 1.0625e-06,
      "loss": 0.0,
      "reward": 0.5625,
      "reward_std": 0.810092568397522,
      "rewards/_accuracy_reward": 0.1875,
      "rewards/_format_reward": 0.375,
      "step": 85
    },
    {
      "completion_length": 192.875,
      "epoch": 0.0215,
      "grad_norm": 0.40159401297569275,
      "kl": 0.0006454067770391703,
      "learning_rate": 1.075e-06,
      "loss": 0.0,
      "reward": 0.625,
      "reward_std": 0.6681531071662903,
      "rewards/_accuracy_reward": 0.125,
      "rewards/_format_reward": 0.5,
      "step": 86
    },
    {
      "completion_length": 199.375,
      "epoch": 0.02175,
      "grad_norm": 0.3774471879005432,
      "kl": 0.000684591883327812,
      "learning_rate": 1.0875000000000002e-06,
      "loss": 0.0,
      "reward": 1.0,
      "reward_std": 1.0690449476242065,
      "rewards/_accuracy_reward": 0.5,
      "rewards/_format_reward": 0.5,
      "step": 87
    },
    {
      "completion_length": 235.25,
      "epoch": 0.022,
      "grad_norm": 0.4988541901111603,
      "kl": 0.0005781830986961722,
      "learning_rate": 1.1e-06,
      "loss": 0.0,
      "reward": 0.13749998807907104,
      "reward_std": 0.3691205382347107,
      "rewards/_accuracy_reward": 0.012500000186264515,
      "rewards/_format_reward": 0.125,
      "step": 88
    },
    {
      "completion_length": 231.0,
      "epoch": 0.02225,
      "grad_norm": 0.3462050259113312,
      "kl": 0.0006304323324002326,
      "learning_rate": 1.1125000000000001e-06,
      "loss": 0.0,
      "reward": 0.65625,
      "reward_std": 0.9348175525665283,
      "rewards/_accuracy_reward": 0.28125,
      "rewards/_format_reward": 0.375,
      "step": 89
    },
    {
      "completion_length": 240.375,
      "epoch": 0.0225,
      "grad_norm": 0.366056352853775,
      "kl": 0.000524615403264761,
      "learning_rate": 1.125e-06,
      "loss": 0.0,
      "reward": 0.3125,
      "reward_std": 0.5786375403404236,
      "rewards/_accuracy_reward": 0.0625,
      "rewards/_format_reward": 0.25,
      "step": 90
    },
    {
      "completion_length": 212.125,
      "epoch": 0.02275,
      "grad_norm": 0.38316699862480164,
      "kl": 0.0006456922856159508,
      "learning_rate": 1.1375000000000001e-06,
      "loss": 0.0,
      "reward": 0.5625,
      "reward_std": 0.810092568397522,
      "rewards/_accuracy_reward": 0.1875,
      "rewards/_format_reward": 0.375,
      "step": 91
    },
    {
      "completion_length": 173.875,
      "epoch": 0.023,
      "grad_norm": 0.4823635518550873,
      "kl": 0.0008208313374780118,
      "learning_rate": 1.1500000000000002e-06,
      "loss": 0.0,
      "reward": 1.2625000476837158,
      "reward_std": 0.8826704621315002,
      "rewards/_accuracy_reward": 0.512499988079071,
      "rewards/_format_reward": 0.75,
      "step": 92
    },
    {
      "completion_length": 256.0,
      "epoch": 0.02325,
      "grad_norm": 0.0010727356420829892,
      "kl": 0.0005186050548218191,
      "learning_rate": 1.1625e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 0.0,
      "rewards/_format_reward": 0.0,
      "step": 93
    },
    {
      "completion_length": 204.375,
      "epoch": 0.0235,
      "grad_norm": 0.4184603691101074,
      "kl": 0.0008142682490870357,
      "learning_rate": 1.175e-06,
      "loss": 0.0,
      "reward": 1.1875,
      "reward_std": 0.831843912601471,
      "rewards/_accuracy_reward": 0.5625,
      "rewards/_format_reward": 0.625,
      "step": 94
    },
    {
      "completion_length": 196.5,
      "epoch": 0.02375,
      "grad_norm": 0.465569406747818,
      "kl": 0.0008174768299795687,
      "learning_rate": 1.1875e-06,
      "loss": 0.0,
      "reward": 1.0012500286102295,
      "reward_std": 0.6813943386077881,
      "rewards/_accuracy_reward": 0.2512499988079071,
      "rewards/_format_reward": 0.75,
      "step": 95
    },
    {
      "completion_length": 236.625,
      "epoch": 0.024,
      "grad_norm": 0.4273647367954254,
      "kl": 0.0006561095942743123,
      "learning_rate": 1.2000000000000002e-06,
      "loss": 0.0,
      "reward": 0.25,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.125,
      "rewards/_format_reward": 0.125,
      "step": 96
    },
    {
      "completion_length": 210.75,
      "epoch": 0.02425,
      "grad_norm": 0.4174526035785675,
      "kl": 0.0006856574909761548,
      "learning_rate": 1.2125e-06,
      "loss": 0.0,
      "reward": 0.65625,
      "reward_std": 0.8957987427711487,
      "rewards/_accuracy_reward": 0.40625,
      "rewards/_format_reward": 0.25,
      "step": 97
    },
    {
      "completion_length": 239.875,
      "epoch": 0.0245,
      "grad_norm": 0.3910273611545563,
      "kl": 0.0006794078508391976,
      "learning_rate": 1.2250000000000001e-06,
      "loss": 0.0,
      "reward": 0.40625,
      "reward_std": 0.7784771919250488,
      "rewards/_accuracy_reward": 0.15625,
      "rewards/_format_reward": 0.25,
      "step": 98
    },
    {
      "completion_length": 230.625,
      "epoch": 0.02475,
      "grad_norm": 0.3605254888534546,
      "kl": 0.0006890887161716819,
      "learning_rate": 1.2375e-06,
      "loss": 0.0,
      "reward": 0.2562499940395355,
      "reward_std": 0.7047986388206482,
      "rewards/_accuracy_reward": 0.13124999403953552,
      "rewards/_format_reward": 0.125,
      "step": 99
    },
    {
      "completion_length": 232.5,
      "epoch": 0.025,
      "grad_norm": 0.374227911233902,
      "kl": 0.0006080594030208886,
      "learning_rate": 1.25e-06,
      "loss": 0.0,
      "reward": 0.26374998688697815,
      "reward_std": 0.47337502241134644,
      "rewards/_accuracy_reward": 0.013749999925494194,
      "rewards/_format_reward": 0.25,
      "step": 100
    },
    {
      "completion_length": 246.125,
      "epoch": 0.02525,
      "grad_norm": 0.480892539024353,
      "kl": 0.0007099907961674035,
      "learning_rate": 1.2625000000000002e-06,
      "loss": 0.0,
      "reward": 0.125,
      "reward_std": 0.3535533845424652,
      "rewards/_accuracy_reward": 0.125,
      "rewards/_format_reward": 0.0,
      "step": 101
    },
    {
      "completion_length": 233.375,
      "epoch": 0.0255,
      "grad_norm": 0.34077897667884827,
      "kl": 0.0006432888912968338,
      "learning_rate": 1.275e-06,
      "loss": 0.0,
      "reward": 0.53125,
      "reward_std": 0.9106267690658569,
      "rewards/_accuracy_reward": 0.28125,
      "rewards/_format_reward": 0.25,
      "step": 102
    },
    {
      "completion_length": 122.875,
      "epoch": 0.02575,
      "grad_norm": 0.460584819316864,
      "kl": 0.0007099162903614342,
      "learning_rate": 1.2875000000000002e-06,
      "loss": 0.0,
      "reward": 1.2512500286102295,
      "reward_std": 0.7314454913139343,
      "rewards/_accuracy_reward": 0.5012500286102295,
      "rewards/_format_reward": 0.75,
      "step": 103
    },
    {
      "completion_length": 202.875,
      "epoch": 0.026,
      "grad_norm": 0.4294702410697937,
      "kl": 0.0006664457614533603,
      "learning_rate": 1.3e-06,
      "loss": 0.0,
      "reward": 0.6937500238418579,
      "reward_std": 0.7907670140266418,
      "rewards/_accuracy_reward": 0.19374999403953552,
      "rewards/_format_reward": 0.5,
      "step": 104
    },
    {
      "completion_length": 177.25,
      "epoch": 0.02625,
      "grad_norm": 0.40910154581069946,
      "kl": 0.000768951780628413,
      "learning_rate": 1.3125000000000001e-06,
      "loss": 0.0,
      "reward": 1.375,
      "reward_std": 0.9161254167556763,
      "rewards/_accuracy_reward": 0.75,
      "rewards/_format_reward": 0.625,
      "step": 105
    },
    {
      "completion_length": 146.5,
      "epoch": 0.0265,
      "grad_norm": 0.45140013098716736,
      "kl": 0.0007151229656301439,
      "learning_rate": 1.3250000000000002e-06,
      "loss": 0.0,
      "reward": 1.53125,
      "reward_std": 0.7372426986694336,
      "rewards/_accuracy_reward": 0.78125,
      "rewards/_format_reward": 0.75,
      "step": 106
    },
    {
      "completion_length": 245.375,
      "epoch": 0.02675,
      "grad_norm": 0.35899364948272705,
      "kl": 0.000733047432731837,
      "learning_rate": 1.3375000000000001e-06,
      "loss": 0.0,
      "reward": 0.75,
      "reward_std": 1.0350983142852783,
      "rewards/_accuracy_reward": 0.375,
      "rewards/_format_reward": 0.375,
      "step": 107
    },
    {
      "completion_length": 231.875,
      "epoch": 0.027,
      "grad_norm": 0.3983488082885742,
      "kl": 0.0006859501008875668,
      "learning_rate": 1.3500000000000002e-06,
      "loss": 0.0,
      "reward": 0.375,
      "reward_std": 0.7440237998962402,
      "rewards/_accuracy_reward": 0.25,
      "rewards/_format_reward": 0.125,
      "step": 108
    },
    {
      "completion_length": 236.5,
      "epoch": 0.02725,
      "grad_norm": 0.3864477574825287,
      "kl": 0.0007214280776679516,
      "learning_rate": 1.3625000000000003e-06,
      "loss": 0.0,
      "reward": 0.29374998807907104,
      "reward_std": 0.5314652919769287,
      "rewards/_accuracy_reward": 0.04374999925494194,
      "rewards/_format_reward": 0.25,
      "step": 109
    },
    {
      "completion_length": 105.75,
      "epoch": 0.0275,
      "grad_norm": 0.48207709193229675,
      "kl": 0.0006837123655714095,
      "learning_rate": 1.3750000000000002e-06,
      "loss": 0.0,
      "reward": 1.162500023841858,
      "reward_std": 0.548211395740509,
      "rewards/_accuracy_reward": 0.2874999940395355,
      "rewards/_format_reward": 0.875,
      "step": 110
    },
    {
      "completion_length": 242.5,
      "epoch": 0.02775,
      "grad_norm": 0.3625413775444031,
      "kl": 0.0006246070261113346,
      "learning_rate": 1.3875000000000003e-06,
      "loss": 0.0,
      "reward": 0.26249998807907104,
      "reward_std": 0.48605549335479736,
      "rewards/_accuracy_reward": 0.012500000186264515,
      "rewards/_format_reward": 0.25,
      "step": 111
    },
    {
      "completion_length": 207.875,
      "epoch": 0.028,
      "grad_norm": 0.40663740038871765,
      "kl": 0.0007137281936593354,
      "learning_rate": 1.4000000000000001e-06,
      "loss": 0.0,
      "reward": 0.90625,
      "reward_std": 0.9994418025016785,
      "rewards/_accuracy_reward": 0.40625,
      "rewards/_format_reward": 0.5,
      "step": 112
    },
    {
      "completion_length": 236.875,
      "epoch": 0.02825,
      "grad_norm": 0.4253649413585663,
      "kl": 0.0006713285110890865,
      "learning_rate": 1.4125e-06,
      "loss": 0.0,
      "reward": 0.5,
      "reward_std": 0.9258201122283936,
      "rewards/_accuracy_reward": 0.25,
      "rewards/_format_reward": 0.25,
      "step": 113
    },
    {
      "completion_length": 178.125,
      "epoch": 0.0285,
      "grad_norm": 0.390341579914093,
      "kl": 0.0006668589194305241,
      "learning_rate": 1.425e-06,
      "loss": 0.0,
      "reward": 1.193750023841858,
      "reward_std": 0.8304204940795898,
      "rewards/_accuracy_reward": 0.4437499940395355,
      "rewards/_format_reward": 0.75,
      "step": 114
    },
    {
      "completion_length": 218.875,
      "epoch": 0.02875,
      "grad_norm": 0.472661554813385,
      "kl": 0.0006868990603834391,
      "learning_rate": 1.4375e-06,
      "loss": 0.0,
      "reward": 0.5,
      "reward_std": 0.9258201122283936,
      "rewards/_accuracy_reward": 0.25,
      "rewards/_format_reward": 0.25,
      "step": 115
    },
    {
      "completion_length": 232.875,
      "epoch": 0.029,
      "grad_norm": 0.34683483839035034,
      "kl": 0.000628342037089169,
      "learning_rate": 1.45e-06,
      "loss": 0.0,
      "reward": 0.5325000286102295,
      "reward_std": 0.7850523591041565,
      "rewards/_accuracy_reward": 0.1574999988079071,
      "rewards/_format_reward": 0.375,
      "step": 116
    },
    {
      "completion_length": 236.625,
      "epoch": 0.02925,
      "grad_norm": 0.3442273736000061,
      "kl": 0.000823180191218853,
      "learning_rate": 1.4625e-06,
      "loss": 0.0,
      "reward": 0.25,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.125,
      "rewards/_format_reward": 0.125,
      "step": 117
    },
    {
      "completion_length": 238.375,
      "epoch": 0.0295,
      "grad_norm": 0.35203394293785095,
      "kl": 0.0007420446490868926,
      "learning_rate": 1.475e-06,
      "loss": 0.0,
      "reward": 0.6312500238418579,
      "reward_std": 0.738210916519165,
      "rewards/_accuracy_reward": 0.5062500238418579,
      "rewards/_format_reward": 0.125,
      "step": 118
    },
    {
      "completion_length": 236.75,
      "epoch": 0.02975,
      "grad_norm": 0.411632239818573,
      "kl": 0.0007851931732147932,
      "learning_rate": 1.4875000000000002e-06,
      "loss": 0.0,
      "reward": 0.40625,
      "reward_std": 0.7784771919250488,
      "rewards/_accuracy_reward": 0.15625,
      "rewards/_format_reward": 0.25,
      "step": 119
    },
    {
      "completion_length": 230.0,
      "epoch": 0.03,
      "grad_norm": 0.35817092657089233,
      "kl": 0.0006097652949392796,
      "learning_rate": 1.5e-06,
      "loss": 0.0,
      "reward": 0.8125,
      "reward_std": 0.9136856198310852,
      "rewards/_accuracy_reward": 0.3125,
      "rewards/_format_reward": 0.5,
      "step": 120
    },
    {
      "completion_length": 226.125,
      "epoch": 0.03025,
      "grad_norm": 0.36551421880722046,
      "kl": 0.0007124023977667093,
      "learning_rate": 1.5125000000000001e-06,
      "loss": 0.0,
      "reward": 0.5625,
      "reward_std": 0.7647361755371094,
      "rewards/_accuracy_reward": 0.3125,
      "rewards/_format_reward": 0.25,
      "step": 121
    },
    {
      "completion_length": 168.875,
      "epoch": 0.0305,
      "grad_norm": 0.4331101179122925,
      "kl": 0.0007970595033839345,
      "learning_rate": 1.525e-06,
      "loss": 0.0,
      "reward": 1.3875000476837158,
      "reward_std": 0.3879893124103546,
      "rewards/_accuracy_reward": 0.38749998807907104,
      "rewards/_format_reward": 1.0,
      "step": 122
    },
    {
      "completion_length": 241.25,
      "epoch": 0.03075,
      "grad_norm": 0.30984166264533997,
      "kl": 0.0006017238483764231,
      "learning_rate": 1.5375e-06,
      "loss": 0.0,
      "reward": 0.5,
      "reward_std": 0.9258201122283936,
      "rewards/_accuracy_reward": 0.25,
      "rewards/_format_reward": 0.25,
      "step": 123
    },
    {
      "completion_length": 215.625,
      "epoch": 0.031,
      "grad_norm": 0.4169147312641144,
      "kl": 0.000758463516831398,
      "learning_rate": 1.5500000000000002e-06,
      "loss": 0.0,
      "reward": 0.2824999988079071,
      "reward_std": 0.5242885947227478,
      "rewards/_accuracy_reward": 0.1574999988079071,
      "rewards/_format_reward": 0.125,
      "step": 124
    },
    {
      "completion_length": 225.0,
      "epoch": 0.03125,
      "grad_norm": 0.28472763299942017,
      "kl": 0.0007155483472160995,
      "learning_rate": 1.5625e-06,
      "loss": 0.0,
      "reward": 0.6312500238418579,
      "reward_std": 0.9114108085632324,
      "rewards/_accuracy_reward": 0.3812499940395355,
      "rewards/_format_reward": 0.25,
      "step": 125
    },
    {
      "completion_length": 192.75,
      "epoch": 0.0315,
      "grad_norm": 0.4392932057380676,
      "kl": 0.0008345048408955336,
      "learning_rate": 1.5750000000000002e-06,
      "loss": 0.0,
      "reward": 0.6000000238418579,
      "reward_std": 0.6447590589523315,
      "rewards/_accuracy_reward": 0.10000000149011612,
      "rewards/_format_reward": 0.5,
      "step": 126
    },
    {
      "completion_length": 193.0,
      "epoch": 0.03175,
      "grad_norm": 0.3476108908653259,
      "kl": 0.000728312530554831,
      "learning_rate": 1.5875e-06,
      "loss": 0.0,
      "reward": 0.9124999642372131,
      "reward_std": 0.6384971141815186,
      "rewards/_accuracy_reward": 0.16249999403953552,
      "rewards/_format_reward": 0.75,
      "step": 127
    },
    {
      "completion_length": 221.875,
      "epoch": 0.032,
      "grad_norm": 0.42320966720581055,
      "kl": 0.0008315700688399374,
      "learning_rate": 1.6000000000000001e-06,
      "loss": 0.0,
      "reward": 0.5625,
      "reward_std": 0.810092568397522,
      "rewards/_accuracy_reward": 0.1875,
      "rewards/_format_reward": 0.375,
      "step": 128
    },
    {
      "completion_length": 189.875,
      "epoch": 0.03225,
      "grad_norm": 0.3862830102443695,
      "kl": 0.0008328621624968946,
      "learning_rate": 1.6125000000000002e-06,
      "loss": 0.0,
      "reward": 0.875,
      "reward_std": 0.7196229100227356,
      "rewards/_accuracy_reward": 0.375,
      "rewards/_format_reward": 0.5,
      "step": 129
    },
    {
      "completion_length": 237.875,
      "epoch": 0.0325,
      "grad_norm": 0.4434264004230499,
      "kl": 0.000727821490727365,
      "learning_rate": 1.6250000000000001e-06,
      "loss": 0.0,
      "reward": 0.40625,
      "reward_std": 0.7784771919250488,
      "rewards/_accuracy_reward": 0.15625,
      "rewards/_format_reward": 0.25,
      "step": 130
    },
    {
      "completion_length": 173.125,
      "epoch": 0.03275,
      "grad_norm": 0.6541438102722168,
      "kl": 0.0010414267890155315,
      "learning_rate": 1.6375000000000002e-06,
      "loss": 0.0,
      "reward": 0.5625,
      "reward_std": 0.7647361755371094,
      "rewards/_accuracy_reward": 0.3125,
      "rewards/_format_reward": 0.25,
      "step": 131
    },
    {
      "completion_length": 140.0,
      "epoch": 0.033,
      "grad_norm": 0.4342222511768341,
      "kl": 0.0008442209218628705,
      "learning_rate": 1.6500000000000003e-06,
      "loss": 0.0,
      "reward": 1.15625,
      "reward_std": 0.7188470363616943,
      "rewards/_accuracy_reward": 0.40625,
      "rewards/_format_reward": 0.75,
      "step": 132
    },
    {
      "completion_length": 155.375,
      "epoch": 0.03325,
      "grad_norm": 0.4700578451156616,
      "kl": 0.0009654579916968942,
      "learning_rate": 1.6625000000000002e-06,
      "loss": 0.0,
      "reward": 1.1875,
      "reward_std": 0.6373774409294128,
      "rewards/_accuracy_reward": 0.6875,
      "rewards/_format_reward": 0.5,
      "step": 133
    },
    {
      "completion_length": 235.125,
      "epoch": 0.0335,
      "grad_norm": 0.4328174889087677,
      "kl": 0.0007693137740716338,
      "learning_rate": 1.6750000000000003e-06,
      "loss": 0.0,
      "reward": 0.3812499940395355,
      "reward_std": 0.75020831823349,
      "rewards/_accuracy_reward": 0.13124999403953552,
      "rewards/_format_reward": 0.25,
      "step": 134
    },
    {
      "completion_length": 256.0,
      "epoch": 0.03375,
      "grad_norm": 0.0011643688194453716,
      "kl": 0.0006938659935258329,
      "learning_rate": 1.6875000000000001e-06,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 0.0,
      "rewards/_format_reward": 0.0,
      "step": 135
    },
    {
      "completion_length": 176.25,
      "epoch": 0.034,
      "grad_norm": 0.46144965291023254,
      "kl": 0.0012229140847921371,
      "learning_rate": 1.7000000000000002e-06,
      "loss": 0.0,
      "reward": 0.42499998211860657,
      "reward_std": 0.5763183832168579,
      "rewards/_accuracy_reward": 0.05000000447034836,
      "rewards/_format_reward": 0.375,
      "step": 136
    },
    {
      "completion_length": 108.25,
      "epoch": 0.03425,
      "grad_norm": 0.641877293586731,
      "kl": 0.000889874529093504,
      "learning_rate": 1.7125000000000003e-06,
      "loss": 0.0,
      "reward": 1.1375000476837158,
      "reward_std": 0.8327021598815918,
      "rewards/_accuracy_reward": 0.512499988079071,
      "rewards/_format_reward": 0.625,
      "step": 137
    },
    {
      "completion_length": 243.875,
      "epoch": 0.0345,
      "grad_norm": 0.4593142569065094,
      "kl": 0.000851454387884587,
      "learning_rate": 1.725e-06,
      "loss": 0.0,
      "reward": 0.25,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.125,
      "rewards/_format_reward": 0.125,
      "step": 138
    },
    {
      "completion_length": 166.75,
      "epoch": 0.03475,
      "grad_norm": 0.37833383679389954,
      "kl": 0.000998564064502716,
      "learning_rate": 1.7375e-06,
      "loss": 0.0,
      "reward": 1.375,
      "reward_std": 0.9161254167556763,
      "rewards/_accuracy_reward": 0.75,
      "rewards/_format_reward": 0.625,
      "step": 139
    },
    {
      "completion_length": 155.5,
      "epoch": 0.035,
      "grad_norm": 0.48516976833343506,
      "kl": 0.0008888572920113802,
      "learning_rate": 1.75e-06,
      "loss": 0.0,
      "reward": 0.9812500476837158,
      "reward_std": 0.6750330924987793,
      "rewards/_accuracy_reward": 0.23124998807907104,
      "rewards/_format_reward": 0.75,
      "step": 140
    },
    {
      "completion_length": 140.0,
      "epoch": 0.03525,
      "grad_norm": 0.4754278063774109,
      "kl": 0.001002427306957543,
      "learning_rate": 1.7625e-06,
      "loss": 0.0,
      "reward": 1.34375,
      "reward_std": 0.8230767846107483,
      "rewards/_accuracy_reward": 0.59375,
      "rewards/_format_reward": 0.75,
      "step": 141
    },
    {
      "completion_length": 221.875,
      "epoch": 0.0355,
      "grad_norm": 0.5134493708610535,
      "kl": 0.0009355404181405902,
      "learning_rate": 1.7750000000000002e-06,
      "loss": 0.0,
      "reward": 0.5,
      "reward_std": 0.9258201122283936,
      "rewards/_accuracy_reward": 0.25,
      "rewards/_format_reward": 0.25,
      "step": 142
    },
    {
      "completion_length": 204.0,
      "epoch": 0.03575,
      "grad_norm": 0.41457489132881165,
      "kl": 0.001152246375568211,
      "learning_rate": 1.7875e-06,
      "loss": 0.0,
      "reward": 0.2562499940395355,
      "reward_std": 0.7047985792160034,
      "rewards/_accuracy_reward": 0.13124999403953552,
      "rewards/_format_reward": 0.125,
      "step": 143
    },
    {
      "completion_length": 241.75,
      "epoch": 0.036,
      "grad_norm": 0.37025943398475647,
      "kl": 0.0008789349813014269,
      "learning_rate": 1.8000000000000001e-06,
      "loss": 0.0,
      "reward": 0.25,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.125,
      "rewards/_format_reward": 0.125,
      "step": 144
    },
    {
      "completion_length": 145.25,
      "epoch": 0.03625,
      "grad_norm": 0.6227016448974609,
      "kl": 0.0012156821321696043,
      "learning_rate": 1.8125e-06,
      "loss": 0.0,
      "reward": 0.9387500286102295,
      "reward_std": 0.8531527519226074,
      "rewards/_accuracy_reward": 0.3137499988079071,
      "rewards/_format_reward": 0.625,
      "step": 145
    },
    {
      "completion_length": 194.25,
      "epoch": 0.0365,
      "grad_norm": 0.40095922350883484,
      "kl": 0.0010887724347412586,
      "learning_rate": 1.825e-06,
      "loss": 0.0,
      "reward": 1.193750023841858,
      "reward_std": 0.8304204940795898,
      "rewards/_accuracy_reward": 0.4437499940395355,
      "rewards/_format_reward": 0.75,
      "step": 146
    },
    {
      "completion_length": 210.5,
      "epoch": 0.03675,
      "grad_norm": 0.3590393662452698,
      "kl": 0.001111085875891149,
      "learning_rate": 1.8375000000000002e-06,
      "loss": 0.0,
      "reward": 0.6312500238418579,
      "reward_std": 0.6169843077659607,
      "rewards/_accuracy_reward": 0.13124999403953552,
      "rewards/_format_reward": 0.5,
      "step": 147
    },
    {
      "completion_length": 207.25,
      "epoch": 0.037,
      "grad_norm": 0.46096640825271606,
      "kl": 0.0010449312394484878,
      "learning_rate": 1.85e-06,
      "loss": 0.0,
      "reward": 0.8887499570846558,
      "reward_std": 0.8371795415878296,
      "rewards/_accuracy_reward": 0.26374998688697815,
      "rewards/_format_reward": 0.625,
      "step": 148
    },
    {
      "completion_length": 245.125,
      "epoch": 0.03725,
      "grad_norm": 0.3660503327846527,
      "kl": 0.0008743983926251531,
      "learning_rate": 1.8625000000000002e-06,
      "loss": 0.0,
      "reward": 0.3812499940395355,
      "reward_std": 0.7502082586288452,
      "rewards/_accuracy_reward": 0.13124999403953552,
      "rewards/_format_reward": 0.25,
      "step": 149
    },
    {
      "completion_length": 204.75,
      "epoch": 0.0375,
      "grad_norm": 0.3448229730129242,
      "kl": 0.0009303970145992935,
      "learning_rate": 1.8750000000000003e-06,
      "loss": 0.0,
      "reward": 1.1324999332427979,
      "reward_std": 0.549304723739624,
      "rewards/_accuracy_reward": 0.2574999928474426,
      "rewards/_format_reward": 0.875,
      "step": 150
    },
    {
      "completion_length": 201.125,
      "epoch": 0.03775,
      "grad_norm": 0.4772341847419739,
      "kl": 0.0015494409017264843,
      "learning_rate": 1.8875000000000001e-06,
      "loss": 0.0001,
      "reward": 0.3812499940395355,
      "reward_std": 0.75020831823349,
      "rewards/_accuracy_reward": 0.13124999403953552,
      "rewards/_format_reward": 0.25,
      "step": 151
    },
    {
      "completion_length": 168.5,
      "epoch": 0.038,
      "grad_norm": 0.5399798154830933,
      "kl": 0.001348810619674623,
      "learning_rate": 1.9000000000000002e-06,
      "loss": 0.0001,
      "reward": 1.1437499523162842,
      "reward_std": 0.8317097425460815,
      "rewards/_accuracy_reward": 0.39374998211860657,
      "rewards/_format_reward": 0.75,
      "step": 152
    },
    {
      "completion_length": 223.625,
      "epoch": 0.03825,
      "grad_norm": 0.36858677864074707,
      "kl": 0.0011914662318304181,
      "learning_rate": 1.9125000000000003e-06,
      "loss": 0.0,
      "reward": 0.8812500238418579,
      "reward_std": 0.9920892715454102,
      "rewards/_accuracy_reward": 0.3812499940395355,
      "rewards/_format_reward": 0.5,
      "step": 153
    },
    {
      "completion_length": 179.0,
      "epoch": 0.0385,
      "grad_norm": 0.4605531394481659,
      "kl": 0.0013787942007184029,
      "learning_rate": 1.925e-06,
      "loss": 0.0001,
      "reward": 0.90625,
      "reward_std": 0.9994418025016785,
      "rewards/_accuracy_reward": 0.40625,
      "rewards/_format_reward": 0.5,
      "step": 154
    },
    {
      "completion_length": 252.25,
      "epoch": 0.03875,
      "grad_norm": 0.4210733473300934,
      "kl": 0.0009038643911480904,
      "learning_rate": 1.9375e-06,
      "loss": 0.0,
      "reward": 0.15625,
      "reward_std": 0.4419417381286621,
      "rewards/_accuracy_reward": 0.03125,
      "rewards/_format_reward": 0.125,
      "step": 155
    },
    {
      "completion_length": 246.0,
      "epoch": 0.039,
      "grad_norm": 0.40100812911987305,
      "kl": 0.001074227737262845,
      "learning_rate": 1.9500000000000004e-06,
      "loss": 0.0,
      "reward": 0.3762499988079071,
      "reward_std": 0.7452312707901001,
      "rewards/_accuracy_reward": 0.1262499988079071,
      "rewards/_format_reward": 0.25,
      "step": 156
    },
    {
      "completion_length": 215.875,
      "epoch": 0.03925,
      "grad_norm": 0.39963439106941223,
      "kl": 0.0015569372335448861,
      "learning_rate": 1.9625000000000003e-06,
      "loss": 0.0001,
      "reward": 0.34375,
      "reward_std": 0.5659615993499756,
      "rewards/_accuracy_reward": 0.09375,
      "rewards/_format_reward": 0.25,
      "step": 157
    },
    {
      "completion_length": 251.625,
      "epoch": 0.0395,
      "grad_norm": 0.34965765476226807,
      "kl": 0.0011444491101428866,
      "learning_rate": 1.975e-06,
      "loss": 0.0,
      "reward": 0.13124999403953552,
      "reward_std": 0.3712310194969177,
      "rewards/_accuracy_reward": 0.0062500000931322575,
      "rewards/_format_reward": 0.125,
      "step": 158
    },
    {
      "completion_length": 243.75,
      "epoch": 0.03975,
      "grad_norm": 0.36649003624916077,
      "kl": 0.0010651213815435767,
      "learning_rate": 1.9875000000000005e-06,
      "loss": 0.0,
      "reward": 0.5625,
      "reward_std": 0.810092568397522,
      "rewards/_accuracy_reward": 0.1875,
      "rewards/_format_reward": 0.375,
      "step": 159
    },
    {
      "completion_length": 199.125,
      "epoch": 0.04,
      "grad_norm": 0.4516124725341797,
      "kl": 0.0014434423064813018,
      "learning_rate": 2.0000000000000003e-06,
      "loss": 0.0001,
      "reward": 0.824999988079071,
      "reward_std": 0.7449832558631897,
      "rewards/_accuracy_reward": 0.19999998807907104,
      "rewards/_format_reward": 0.625,
      "step": 160
    },
    {
      "completion_length": 207.875,
      "epoch": 0.04025,
      "grad_norm": 0.35151946544647217,
      "kl": 0.001188786351121962,
      "learning_rate": 2.0125000000000002e-06,
      "loss": 0.0,
      "reward": 0.5449999570846558,
      "reward_std": 0.5869290232658386,
      "rewards/_accuracy_reward": 0.044999998062849045,
      "rewards/_format_reward": 0.5,
      "step": 161
    },
    {
      "completion_length": 192.625,
      "epoch": 0.0405,
      "grad_norm": 0.5956340432167053,
      "kl": 0.001869518426246941,
      "learning_rate": 2.025e-06,
      "loss": 0.0001,
      "reward": 0.5187499523162842,
      "reward_std": 0.7610788941383362,
      "rewards/_accuracy_reward": 0.14374998211860657,
      "rewards/_format_reward": 0.375,
      "step": 162
    },
    {
      "completion_length": 241.125,
      "epoch": 0.04075,
      "grad_norm": 0.35935690999031067,
      "kl": 0.0010445680236443877,
      "learning_rate": 2.0375e-06,
      "loss": 0.0,
      "reward": 0.40625,
      "reward_std": 0.7784771919250488,
      "rewards/_accuracy_reward": 0.15625,
      "rewards/_format_reward": 0.25,
      "step": 163
    },
    {
      "completion_length": 166.25,
      "epoch": 0.041,
      "grad_norm": 0.36909234523773193,
      "kl": 0.0019193933112546802,
      "learning_rate": 2.05e-06,
      "loss": 0.0001,
      "reward": 1.181249976158142,
      "reward_std": 0.6335486769676208,
      "rewards/_accuracy_reward": 0.3062499761581421,
      "rewards/_format_reward": 0.875,
      "step": 164
    },
    {
      "completion_length": 228.75,
      "epoch": 0.04125,
      "grad_norm": 0.402389794588089,
      "kl": 0.0016254698857665062,
      "learning_rate": 2.0625e-06,
      "loss": 0.0001,
      "reward": 0.5,
      "reward_std": 0.9258201122283936,
      "rewards/_accuracy_reward": 0.25,
      "rewards/_format_reward": 0.25,
      "step": 165
    },
    {
      "completion_length": 113.625,
      "epoch": 0.0415,
      "grad_norm": 0.43517887592315674,
      "kl": 0.0022651588078588247,
      "learning_rate": 2.075e-06,
      "loss": 0.0001,
      "reward": 1.2937500476837158,
      "reward_std": 0.29932963848114014,
      "rewards/_accuracy_reward": 0.29374998807907104,
      "rewards/_format_reward": 1.0,
      "step": 166
    },
    {
      "completion_length": 184.25,
      "epoch": 0.04175,
      "grad_norm": 0.4854840040206909,
      "kl": 0.00202546757645905,
      "learning_rate": 2.0875e-06,
      "loss": 0.0001,
      "reward": 0.9375,
      "reward_std": 0.6028207540512085,
      "rewards/_accuracy_reward": 0.1875,
      "rewards/_format_reward": 0.75,
      "step": 167
    },
    {
      "completion_length": 173.0,
      "epoch": 0.042,
      "grad_norm": 0.36054983735084534,
      "kl": 0.0024099252186715603,
      "learning_rate": 2.1000000000000002e-06,
      "loss": 0.0001,
      "reward": 1.28125,
      "reward_std": 0.6187184453010559,
      "rewards/_accuracy_reward": 0.40625,
      "rewards/_format_reward": 0.875,
      "step": 168
    },
    {
      "completion_length": 214.625,
      "epoch": 0.04225,
      "grad_norm": 0.4301230311393738,
      "kl": 0.0015324982814490795,
      "learning_rate": 2.1125e-06,
      "loss": 0.0001,
      "reward": 0.90625,
      "reward_std": 0.9994418025016785,
      "rewards/_accuracy_reward": 0.40625,
      "rewards/_format_reward": 0.5,
      "step": 169
    },
    {
      "completion_length": 163.25,
      "epoch": 0.0425,
      "grad_norm": 0.4773411154747009,
      "kl": 0.0024503618478775024,
      "learning_rate": 2.125e-06,
      "loss": 0.0001,
      "reward": 1.0499999523162842,
      "reward_std": 0.7606388330459595,
      "rewards/_accuracy_reward": 0.29999998211860657,
      "rewards/_format_reward": 0.75,
      "step": 170
    },
    {
      "completion_length": 201.0,
      "epoch": 0.04275,
      "grad_norm": 0.3986191153526306,
      "kl": 0.002186427591368556,
      "learning_rate": 2.1375000000000003e-06,
      "loss": 0.0001,
      "reward": 0.6312500238418579,
      "reward_std": 0.9192145466804504,
      "rewards/_accuracy_reward": 0.2562499940395355,
      "rewards/_format_reward": 0.375,
      "step": 171
    },
    {
      "completion_length": 248.875,
      "epoch": 0.043,
      "grad_norm": 0.38168638944625854,
      "kl": 0.002373702824115753,
      "learning_rate": 2.15e-06,
      "loss": 0.0001,
      "reward": 0.3824999928474426,
      "reward_std": 0.7494902610778809,
      "rewards/_accuracy_reward": 0.13249999284744263,
      "rewards/_format_reward": 0.25,
      "step": 172
    },
    {
      "completion_length": 182.875,
      "epoch": 0.04325,
      "grad_norm": 0.5253975987434387,
      "kl": 0.0032906224951148033,
      "learning_rate": 2.1625e-06,
      "loss": 0.0001,
      "reward": 1.037500023841858,
      "reward_std": 0.9299577474594116,
      "rewards/_accuracy_reward": 0.4124999940395355,
      "rewards/_format_reward": 0.625,
      "step": 173
    },
    {
      "completion_length": 143.75,
      "epoch": 0.0435,
      "grad_norm": 0.57611483335495,
      "kl": 0.0019308909540995955,
      "learning_rate": 2.1750000000000004e-06,
      "loss": 0.0001,
      "reward": 1.756250023841858,
      "reward_std": 0.6894291639328003,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 0.875,
      "step": 174
    },
    {
      "completion_length": 254.5,
      "epoch": 0.04375,
      "grad_norm": 0.34048524498939514,
      "kl": 0.0014960013795644045,
      "learning_rate": 2.1875000000000002e-06,
      "loss": 0.0001,
      "reward": 0.0062500000931322575,
      "reward_std": 0.0176776684820652,
      "rewards/_accuracy_reward": 0.0062500000931322575,
      "rewards/_format_reward": 0.0,
      "step": 175
    },
    {
      "completion_length": 230.875,
      "epoch": 0.044,
      "grad_norm": 0.39282166957855225,
      "kl": 0.0017745784716680646,
      "learning_rate": 2.2e-06,
      "loss": 0.0001,
      "reward": 0.8812500238418579,
      "reward_std": 0.9920892715454102,
      "rewards/_accuracy_reward": 0.3812499940395355,
      "rewards/_format_reward": 0.5,
      "step": 176
    },
    {
      "completion_length": 95.125,
      "epoch": 0.04425,
      "grad_norm": 0.64809650182724,
      "kl": 0.0027632713317871094,
      "learning_rate": 2.2125e-06,
      "loss": 0.0001,
      "reward": 1.75,
      "reward_std": 0.4629100561141968,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 0.75,
      "step": 177
    },
    {
      "completion_length": 235.375,
      "epoch": 0.0445,
      "grad_norm": 0.4109288454055786,
      "kl": 0.0018161768093705177,
      "learning_rate": 2.2250000000000003e-06,
      "loss": 0.0001,
      "reward": 0.65625,
      "reward_std": 0.9348175525665283,
      "rewards/_accuracy_reward": 0.28125,
      "rewards/_format_reward": 0.375,
      "step": 178
    },
    {
      "completion_length": 239.5,
      "epoch": 0.04475,
      "grad_norm": 0.3848976492881775,
      "kl": 0.0016923128860071301,
      "learning_rate": 2.2375e-06,
      "loss": 0.0001,
      "reward": 0.5249999761581421,
      "reward_std": 0.5612486004829407,
      "rewards/_accuracy_reward": 0.02500000037252903,
      "rewards/_format_reward": 0.5,
      "step": 179
    },
    {
      "completion_length": 234.875,
      "epoch": 0.045,
      "grad_norm": 0.4291512072086334,
      "kl": 0.001589511870406568,
      "learning_rate": 2.25e-06,
      "loss": 0.0001,
      "reward": 0.65625,
      "reward_std": 0.9348175525665283,
      "rewards/_accuracy_reward": 0.28125,
      "rewards/_format_reward": 0.375,
      "step": 180
    },
    {
      "completion_length": 233.625,
      "epoch": 0.04525,
      "grad_norm": 0.5065072774887085,
      "kl": 0.0018506099004298449,
      "learning_rate": 2.2625000000000004e-06,
      "loss": 0.0001,
      "reward": 0.5,
      "reward_std": 0.9258201122283936,
      "rewards/_accuracy_reward": 0.25,
      "rewards/_format_reward": 0.25,
      "step": 181
    },
    {
      "completion_length": 214.5,
      "epoch": 0.0455,
      "grad_norm": 0.4389038383960724,
      "kl": 0.0023762795608490705,
      "learning_rate": 2.2750000000000002e-06,
      "loss": 0.0001,
      "reward": 0.39374998211860657,
      "reward_std": 0.5434265732765198,
      "rewards/_accuracy_reward": 0.01875000074505806,
      "rewards/_format_reward": 0.375,
      "step": 182
    },
    {
      "completion_length": 210.0,
      "epoch": 0.04575,
      "grad_norm": 0.45881783962249756,
      "kl": 0.001946362666785717,
      "learning_rate": 2.2875e-06,
      "loss": 0.0001,
      "reward": 0.5687500238418579,
      "reward_std": 0.7690148949623108,
      "rewards/_accuracy_reward": 0.19374999403953552,
      "rewards/_format_reward": 0.375,
      "step": 183
    },
    {
      "completion_length": 219.5,
      "epoch": 0.046,
      "grad_norm": 0.4343101978302002,
      "kl": 0.0028733538929373026,
      "learning_rate": 2.3000000000000004e-06,
      "loss": 0.0001,
      "reward": 0.625,
      "reward_std": 0.9161254167556763,
      "rewards/_accuracy_reward": 0.375,
      "rewards/_format_reward": 0.25,
      "step": 184
    },
    {
      "completion_length": 220.125,
      "epoch": 0.04625,
      "grad_norm": 0.4084475338459015,
      "kl": 0.00223284843377769,
      "learning_rate": 2.3125000000000003e-06,
      "loss": 0.0001,
      "reward": 0.7200000286102295,
      "reward_std": 0.805374801158905,
      "rewards/_accuracy_reward": 0.2199999988079071,
      "rewards/_format_reward": 0.5,
      "step": 185
    },
    {
      "completion_length": 171.625,
      "epoch": 0.0465,
      "grad_norm": 0.5016433000564575,
      "kl": 0.0028451047837734222,
      "learning_rate": 2.325e-06,
      "loss": 0.0001,
      "reward": 1.037500023841858,
      "reward_std": 0.9299578070640564,
      "rewards/_accuracy_reward": 0.4124999940395355,
      "rewards/_format_reward": 0.625,
      "step": 186
    },
    {
      "completion_length": 168.125,
      "epoch": 0.04675,
      "grad_norm": 0.3974522650241852,
      "kl": 0.0034177624620497227,
      "learning_rate": 2.3375000000000005e-06,
      "loss": 0.0001,
      "reward": 1.2937500476837158,
      "reward_std": 0.6945900917053223,
      "rewards/_accuracy_reward": 0.543749988079071,
      "rewards/_format_reward": 0.75,
      "step": 187
    },
    {
      "completion_length": 249.5,
      "epoch": 0.047,
      "grad_norm": 0.4274694621562958,
      "kl": 0.001807468244805932,
      "learning_rate": 2.35e-06,
      "loss": 0.0001,
      "reward": 0.25,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.125,
      "rewards/_format_reward": 0.125,
      "step": 188
    },
    {
      "completion_length": 244.5,
      "epoch": 0.04725,
      "grad_norm": 0.006730486173182726,
      "kl": 0.0024024751037359238,
      "learning_rate": 2.3625000000000003e-06,
      "loss": 0.0001,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 0.0,
      "rewards/_format_reward": 0.0,
      "step": 189
    },
    {
      "completion_length": 235.875,
      "epoch": 0.0475,
      "grad_norm": 0.4219696521759033,
      "kl": 0.002536715939640999,
      "learning_rate": 2.375e-06,
      "loss": 0.0001,
      "reward": 0.6000000238418579,
      "reward_std": 0.6447591185569763,
      "rewards/_accuracy_reward": 0.10000000149011612,
      "rewards/_format_reward": 0.5,
      "step": 190
    },
    {
      "completion_length": 202.0,
      "epoch": 0.04775,
      "grad_norm": 0.4399944245815277,
      "kl": 0.0024324413388967514,
      "learning_rate": 2.3875e-06,
      "loss": 0.0001,
      "reward": 1.0,
      "reward_std": 0.8237544298171997,
      "rewards/_accuracy_reward": 0.375,
      "rewards/_format_reward": 0.625,
      "step": 191
    },
    {
      "completion_length": 244.0,
      "epoch": 0.048,
      "grad_norm": 0.3966406285762787,
      "kl": 0.002154730260372162,
      "learning_rate": 2.4000000000000003e-06,
      "loss": 0.0001,
      "reward": 0.40625,
      "reward_std": 0.7784771919250488,
      "rewards/_accuracy_reward": 0.15625,
      "rewards/_format_reward": 0.25,
      "step": 192
    },
    {
      "completion_length": 214.625,
      "epoch": 0.04825,
      "grad_norm": 0.43435680866241455,
      "kl": 0.002745242090895772,
      "learning_rate": 2.4125e-06,
      "loss": 0.0001,
      "reward": 1.1875,
      "reward_std": 0.831843912601471,
      "rewards/_accuracy_reward": 0.5625,
      "rewards/_format_reward": 0.625,
      "step": 193
    },
    {
      "completion_length": 171.625,
      "epoch": 0.0485,
      "grad_norm": 0.38358110189437866,
      "kl": 0.0024988814257085323,
      "learning_rate": 2.425e-06,
      "loss": 0.0001,
      "reward": 1.2312500476837158,
      "reward_std": 0.6284547448158264,
      "rewards/_accuracy_reward": 0.35624998807907104,
      "rewards/_format_reward": 0.875,
      "step": 194
    },
    {
      "completion_length": 189.875,
      "epoch": 0.04875,
      "grad_norm": 0.44296523928642273,
      "kl": 0.0033659208565950394,
      "learning_rate": 2.4375e-06,
      "loss": 0.0001,
      "reward": 1.068750023841858,
      "reward_std": 0.9250240921974182,
      "rewards/_accuracy_reward": 0.4437499940395355,
      "rewards/_format_reward": 0.625,
      "step": 195
    },
    {
      "completion_length": 207.125,
      "epoch": 0.049,
      "grad_norm": 0.4014991819858551,
      "kl": 0.004617661237716675,
      "learning_rate": 2.4500000000000003e-06,
      "loss": 0.0002,
      "reward": 0.6437499523162842,
      "reward_std": 0.7456720471382141,
      "rewards/_accuracy_reward": 0.26874998211860657,
      "rewards/_format_reward": 0.375,
      "step": 196
    },
    {
      "completion_length": 229.125,
      "epoch": 0.04925,
      "grad_norm": 0.4298330247402191,
      "kl": 0.0023158607073128223,
      "learning_rate": 2.4625e-06,
      "loss": 0.0001,
      "reward": 0.5375000238418579,
      "reward_std": 0.7886471748352051,
      "rewards/_accuracy_reward": 0.16249999403953552,
      "rewards/_format_reward": 0.375,
      "step": 197
    },
    {
      "completion_length": 152.125,
      "epoch": 0.0495,
      "grad_norm": 0.6460537314414978,
      "kl": 0.004403269849717617,
      "learning_rate": 2.475e-06,
      "loss": 0.0002,
      "reward": 1.693750023841858,
      "reward_std": 0.42714792490005493,
      "rewards/_accuracy_reward": 0.6937500238418579,
      "rewards/_format_reward": 1.0,
      "step": 198
    },
    {
      "completion_length": 224.625,
      "epoch": 0.04975,
      "grad_norm": 0.3826991617679596,
      "kl": 0.00469087902456522,
      "learning_rate": 2.4875000000000003e-06,
      "loss": 0.0002,
      "reward": 0.8199999928474426,
      "reward_std": 0.7337185144424438,
      "rewards/_accuracy_reward": 0.3199999928474426,
      "rewards/_format_reward": 0.5,
      "step": 199
    },
    {
      "completion_length": 233.5,
      "epoch": 0.05,
      "grad_norm": 0.4221881031990051,
      "kl": 0.003704667557030916,
      "learning_rate": 2.5e-06,
      "loss": 0.0001,
      "reward": 0.4437499940395355,
      "reward_std": 0.6155354380607605,
      "rewards/_accuracy_reward": 0.06875000149011612,
      "rewards/_format_reward": 0.375,
      "step": 200
    },
    {
      "completion_length": 231.75,
      "epoch": 0.05025,
      "grad_norm": 0.43503835797309875,
      "kl": 0.003693893551826477,
      "learning_rate": 2.5125e-06,
      "loss": 0.0001,
      "reward": 0.65625,
      "reward_std": 0.9348175525665283,
      "rewards/_accuracy_reward": 0.28125,
      "rewards/_format_reward": 0.375,
      "step": 201
    },
    {
      "completion_length": 138.0,
      "epoch": 0.0505,
      "grad_norm": 0.4424368739128113,
      "kl": 0.005755322519689798,
      "learning_rate": 2.5250000000000004e-06,
      "loss": 0.0002,
      "reward": 1.0625,
      "reward_std": 0.6373774409294128,
      "rewards/_accuracy_reward": 0.3125,
      "rewards/_format_reward": 0.75,
      "step": 202
    },
    {
      "completion_length": 242.875,
      "epoch": 0.05075,
      "grad_norm": 0.34338605403900146,
      "kl": 0.003572634654119611,
      "learning_rate": 2.5375e-06,
      "loss": 0.0001,
      "reward": 0.13749998807907104,
      "reward_std": 0.3691205382347107,
      "rewards/_accuracy_reward": 0.012500000186264515,
      "rewards/_format_reward": 0.125,
      "step": 203
    },
    {
      "completion_length": 147.25,
      "epoch": 0.051,
      "grad_norm": 0.5478609204292297,
      "kl": 0.005715084727853537,
      "learning_rate": 2.55e-06,
      "loss": 0.0002,
      "reward": 1.162500023841858,
      "reward_std": 0.548211395740509,
      "rewards/_accuracy_reward": 0.2874999940395355,
      "rewards/_format_reward": 0.875,
      "step": 204
    },
    {
      "completion_length": 208.875,
      "epoch": 0.05125,
      "grad_norm": 0.4353210926055908,
      "kl": 0.006955728400498629,
      "learning_rate": 2.5625e-06,
      "loss": 0.0003,
      "reward": 0.84375,
      "reward_std": 0.8857755064964294,
      "rewards/_accuracy_reward": 0.34375,
      "rewards/_format_reward": 0.5,
      "step": 205
    },
    {
      "completion_length": 183.125,
      "epoch": 0.0515,
      "grad_norm": 0.48688188195228577,
      "kl": 0.005555164068937302,
      "learning_rate": 2.5750000000000003e-06,
      "loss": 0.0002,
      "reward": 1.065000057220459,
      "reward_std": 0.7645166516304016,
      "rewards/_accuracy_reward": 0.3149999976158142,
      "rewards/_format_reward": 0.75,
      "step": 206
    },
    {
      "completion_length": 161.375,
      "epoch": 0.05175,
      "grad_norm": 0.5545176267623901,
      "kl": 0.005829046946018934,
      "learning_rate": 2.5875000000000002e-06,
      "loss": 0.0002,
      "reward": 1.40625,
      "reward_std": 0.9057110548019409,
      "rewards/_accuracy_reward": 0.65625,
      "rewards/_format_reward": 0.75,
      "step": 207
    },
    {
      "completion_length": 225.0,
      "epoch": 0.052,
      "grad_norm": 0.5879900455474854,
      "kl": 0.0061422791332006454,
      "learning_rate": 2.6e-06,
      "loss": 0.0002,
      "reward": 0.2874999940395355,
      "reward_std": 0.5350233316421509,
      "rewards/_accuracy_reward": 0.03750000149011612,
      "rewards/_format_reward": 0.25,
      "step": 208
    },
    {
      "completion_length": 157.5,
      "epoch": 0.05225,
      "grad_norm": 0.42013055086135864,
      "kl": 0.007088819984346628,
      "learning_rate": 2.6125e-06,
      "loss": 0.0003,
      "reward": 1.537500023841858,
      "reward_std": 0.7322909235954285,
      "rewards/_accuracy_reward": 0.6625000238418579,
      "rewards/_format_reward": 0.875,
      "step": 209
    },
    {
      "completion_length": 191.125,
      "epoch": 0.0525,
      "grad_norm": 0.3625972867012024,
      "kl": 0.0053137680515646935,
      "learning_rate": 2.6250000000000003e-06,
      "loss": 0.0002,
      "reward": 1.631250023841858,
      "reward_std": 0.738210916519165,
      "rewards/_accuracy_reward": 0.7562500238418579,
      "rewards/_format_reward": 0.875,
      "step": 210
    },
    {
      "completion_length": 223.0,
      "epoch": 0.05275,
      "grad_norm": 0.48341336846351624,
      "kl": 0.005899759475141764,
      "learning_rate": 2.6375e-06,
      "loss": 0.0002,
      "reward": 0.3137499988079071,
      "reward_std": 0.5151404142379761,
      "rewards/_accuracy_reward": 0.0637499988079071,
      "rewards/_format_reward": 0.25,
      "step": 211
    },
    {
      "completion_length": 219.5,
      "epoch": 0.053,
      "grad_norm": 0.46322962641716003,
      "kl": 0.005710378754884005,
      "learning_rate": 2.6500000000000005e-06,
      "loss": 0.0002,
      "reward": 0.9387500286102295,
      "reward_std": 0.8531528115272522,
      "rewards/_accuracy_reward": 0.3137499988079071,
      "rewards/_format_reward": 0.625,
      "step": 212
    },
    {
      "completion_length": 198.125,
      "epoch": 0.05325,
      "grad_norm": 0.5013320446014404,
      "kl": 0.008783817291259766,
      "learning_rate": 2.6625e-06,
      "loss": 0.0004,
      "reward": 0.7825000286102295,
      "reward_std": 0.9011222720146179,
      "rewards/_accuracy_reward": 0.2824999988079071,
      "rewards/_format_reward": 0.5,
      "step": 213
    },
    {
      "completion_length": 242.625,
      "epoch": 0.0535,
      "grad_norm": 0.3888327181339264,
      "kl": 0.0044942148961126804,
      "learning_rate": 2.6750000000000002e-06,
      "loss": 0.0002,
      "reward": 0.5,
      "reward_std": 0.9258201122283936,
      "rewards/_accuracy_reward": 0.25,
      "rewards/_format_reward": 0.25,
      "step": 214
    },
    {
      "completion_length": 236.75,
      "epoch": 0.05375,
      "grad_norm": 0.4056166410446167,
      "kl": 0.004561163019388914,
      "learning_rate": 2.6875e-06,
      "loss": 0.0002,
      "reward": 0.65625,
      "reward_std": 0.9348175525665283,
      "rewards/_accuracy_reward": 0.28125,
      "rewards/_format_reward": 0.375,
      "step": 215
    },
    {
      "completion_length": 243.375,
      "epoch": 0.054,
      "grad_norm": 0.42273250222206116,
      "kl": 0.005308468360453844,
      "learning_rate": 2.7000000000000004e-06,
      "loss": 0.0002,
      "reward": 0.6312500238418579,
      "reward_std": 0.9192146062850952,
      "rewards/_accuracy_reward": 0.2562499940395355,
      "rewards/_format_reward": 0.375,
      "step": 216
    },
    {
      "completion_length": 241.125,
      "epoch": 0.05425,
      "grad_norm": 0.4731215536594391,
      "kl": 0.005138865672051907,
      "learning_rate": 2.7125000000000003e-06,
      "loss": 0.0002,
      "reward": 0.75,
      "reward_std": 1.0350983142852783,
      "rewards/_accuracy_reward": 0.375,
      "rewards/_format_reward": 0.375,
      "step": 217
    },
    {
      "completion_length": 120.625,
      "epoch": 0.0545,
      "grad_norm": 0.6542100310325623,
      "kl": 0.0068123298697173595,
      "learning_rate": 2.7250000000000006e-06,
      "loss": 0.0003,
      "reward": 1.1387500762939453,
      "reward_std": 0.12017104029655457,
      "rewards/_accuracy_reward": 0.26374998688697815,
      "rewards/_format_reward": 0.875,
      "step": 218
    },
    {
      "completion_length": 239.625,
      "epoch": 0.05475,
      "grad_norm": 0.5177122950553894,
      "kl": 0.004553478676825762,
      "learning_rate": 2.7375e-06,
      "loss": 0.0002,
      "reward": 0.25,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.125,
      "rewards/_format_reward": 0.125,
      "step": 219
    },
    {
      "completion_length": 161.75,
      "epoch": 0.055,
      "grad_norm": 0.4810257852077484,
      "kl": 0.008091006428003311,
      "learning_rate": 2.7500000000000004e-06,
      "loss": 0.0003,
      "reward": 1.787500023841858,
      "reward_std": 0.39708763360977173,
      "rewards/_accuracy_reward": 0.7875000238418579,
      "rewards/_format_reward": 1.0,
      "step": 220
    },
    {
      "completion_length": 207.0,
      "epoch": 0.05525,
      "grad_norm": 0.40970757603645325,
      "kl": 0.007687645964324474,
      "learning_rate": 2.7625000000000002e-06,
      "loss": 0.0003,
      "reward": 1.024999976158142,
      "reward_std": 0.7564013004302979,
      "rewards/_accuracy_reward": 0.2749999761581421,
      "rewards/_format_reward": 0.75,
      "step": 221
    },
    {
      "completion_length": 154.75,
      "epoch": 0.0555,
      "grad_norm": 0.5231997966766357,
      "kl": 0.009649819694459438,
      "learning_rate": 2.7750000000000005e-06,
      "loss": 0.0004,
      "reward": 1.3125,
      "reward_std": 0.873723566532135,
      "rewards/_accuracy_reward": 0.5625,
      "rewards/_format_reward": 0.75,
      "step": 222
    },
    {
      "completion_length": 216.375,
      "epoch": 0.05575,
      "grad_norm": 0.443153440952301,
      "kl": 0.007553863804787397,
      "learning_rate": 2.7875000000000004e-06,
      "loss": 0.0003,
      "reward": 0.71875,
      "reward_std": 0.8066409826278687,
      "rewards/_accuracy_reward": 0.21875,
      "rewards/_format_reward": 0.5,
      "step": 223
    },
    {
      "completion_length": 163.625,
      "epoch": 0.056,
      "grad_norm": 0.539243221282959,
      "kl": 0.009118853136897087,
      "learning_rate": 2.8000000000000003e-06,
      "loss": 0.0004,
      "reward": 1.25,
      "reward_std": 1.0350983142852783,
      "rewards/_accuracy_reward": 0.625,
      "rewards/_format_reward": 0.625,
      "step": 224
    },
    {
      "completion_length": 157.875,
      "epoch": 0.05625,
      "grad_norm": 0.5195901989936829,
      "kl": 0.009252168238162994,
      "learning_rate": 2.8125e-06,
      "loss": 0.0004,
      "reward": 1.287500023841858,
      "reward_std": 0.8786149024963379,
      "rewards/_accuracy_reward": 0.5375000238418579,
      "rewards/_format_reward": 0.75,
      "step": 225
    },
    {
      "completion_length": 188.75,
      "epoch": 0.0565,
      "grad_norm": 0.4762548804283142,
      "kl": 0.008448407053947449,
      "learning_rate": 2.825e-06,
      "loss": 0.0003,
      "reward": 0.875,
      "reward_std": 0.7676494717597961,
      "rewards/_accuracy_reward": 0.25,
      "rewards/_format_reward": 0.625,
      "step": 226
    },
    {
      "completion_length": 184.375,
      "epoch": 0.05675,
      "grad_norm": 0.46647635102272034,
      "kl": 0.01854267716407776,
      "learning_rate": 2.8375000000000004e-06,
      "loss": 0.0007,
      "reward": 0.7875000238418579,
      "reward_std": 0.7024192810058594,
      "rewards/_accuracy_reward": 0.2874999940395355,
      "rewards/_format_reward": 0.5,
      "step": 227
    },
    {
      "completion_length": 146.125,
      "epoch": 0.057,
      "grad_norm": 0.6877365112304688,
      "kl": 0.00886484608054161,
      "learning_rate": 2.85e-06,
      "loss": 0.0004,
      "reward": 1.625,
      "reward_std": 0.40089187026023865,
      "rewards/_accuracy_reward": 0.625,
      "rewards/_format_reward": 1.0,
      "step": 228
    },
    {
      "completion_length": 229.0,
      "epoch": 0.05725,
      "grad_norm": 0.5037513375282288,
      "kl": 0.00627094367519021,
      "learning_rate": 2.8625e-06,
      "loss": 0.0003,
      "reward": 0.65625,
      "reward_std": 0.9348175525665283,
      "rewards/_accuracy_reward": 0.28125,
      "rewards/_format_reward": 0.375,
      "step": 229
    },
    {
      "completion_length": 129.25,
      "epoch": 0.0575,
      "grad_norm": 1.007373571395874,
      "kl": 0.01517564244568348,
      "learning_rate": 2.875e-06,
      "loss": 0.0006,
      "reward": 1.5625,
      "reward_std": 0.7165144085884094,
      "rewards/_accuracy_reward": 0.6875,
      "rewards/_format_reward": 0.875,
      "step": 230
    },
    {
      "completion_length": 243.625,
      "epoch": 0.05775,
      "grad_norm": 0.41951367259025574,
      "kl": 0.007699695415794849,
      "learning_rate": 2.8875000000000003e-06,
      "loss": 0.0003,
      "reward": 0.3812499940395355,
      "reward_std": 0.7502082586288452,
      "rewards/_accuracy_reward": 0.13124999403953552,
      "rewards/_format_reward": 0.25,
      "step": 231
    },
    {
      "completion_length": 198.125,
      "epoch": 0.058,
      "grad_norm": 0.3918209969997406,
      "kl": 0.010249249637126923,
      "learning_rate": 2.9e-06,
      "loss": 0.0004,
      "reward": 1.5,
      "reward_std": 0.9258201122283936,
      "rewards/_accuracy_reward": 0.75,
      "rewards/_format_reward": 0.75,
      "step": 232
    },
    {
      "completion_length": 213.875,
      "epoch": 0.05825,
      "grad_norm": 0.41451263427734375,
      "kl": 0.008266115561127663,
      "learning_rate": 2.9125000000000005e-06,
      "loss": 0.0003,
      "reward": 1.0125000476837158,
      "reward_std": 0.9261093735694885,
      "rewards/_accuracy_reward": 0.38749998807907104,
      "rewards/_format_reward": 0.625,
      "step": 233
    },
    {
      "completion_length": 160.125,
      "epoch": 0.0585,
      "grad_norm": 0.4602366089820862,
      "kl": 0.011817101389169693,
      "learning_rate": 2.925e-06,
      "loss": 0.0005,
      "reward": 1.1375000476837158,
      "reward_std": 0.548211395740509,
      "rewards/_accuracy_reward": 0.26249998807907104,
      "rewards/_format_reward": 0.875,
      "step": 234
    },
    {
      "completion_length": 150.125,
      "epoch": 0.05875,
      "grad_norm": 0.5556851029396057,
      "kl": 0.012773082591593266,
      "learning_rate": 2.9375000000000003e-06,
      "loss": 0.0005,
      "reward": 1.625,
      "reward_std": 0.7440237998962402,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.75,
      "step": 235
    },
    {
      "completion_length": 236.625,
      "epoch": 0.059,
      "grad_norm": 0.3992154002189636,
      "kl": 0.008578523993492126,
      "learning_rate": 2.95e-06,
      "loss": 0.0003,
      "reward": 1.0,
      "reward_std": 1.0690449476242065,
      "rewards/_accuracy_reward": 0.5,
      "rewards/_format_reward": 0.5,
      "step": 236
    },
    {
      "completion_length": 223.25,
      "epoch": 0.05925,
      "grad_norm": 0.4743492901325226,
      "kl": 0.009763360023498535,
      "learning_rate": 2.9625000000000004e-06,
      "loss": 0.0004,
      "reward": 0.512499988079071,
      "reward_std": 0.765669584274292,
      "rewards/_accuracy_reward": 0.13749998807907104,
      "rewards/_format_reward": 0.375,
      "step": 237
    },
    {
      "completion_length": 232.75,
      "epoch": 0.0595,
      "grad_norm": 0.3819025754928589,
      "kl": 0.009855308569967747,
      "learning_rate": 2.9750000000000003e-06,
      "loss": 0.0004,
      "reward": 0.6687500476837158,
      "reward_std": 0.7736451625823975,
      "rewards/_accuracy_reward": 0.16875000298023224,
      "rewards/_format_reward": 0.5,
      "step": 238
    },
    {
      "completion_length": 219.0,
      "epoch": 0.05975,
      "grad_norm": 0.6082333922386169,
      "kl": 0.013843866065144539,
      "learning_rate": 2.9875e-06,
      "loss": 0.0006,
      "reward": 0.65625,
      "reward_std": 0.9348175525665283,
      "rewards/_accuracy_reward": 0.28125,
      "rewards/_format_reward": 0.375,
      "step": 239
    },
    {
      "completion_length": 243.75,
      "epoch": 0.06,
      "grad_norm": 0.40308472514152527,
      "kl": 0.009744809940457344,
      "learning_rate": 3e-06,
      "loss": 0.0004,
      "reward": 0.75,
      "reward_std": 1.0350983142852783,
      "rewards/_accuracy_reward": 0.375,
      "rewards/_format_reward": 0.375,
      "step": 240
    },
    {
      "completion_length": 169.375,
      "epoch": 0.06025,
      "grad_norm": 0.6102287769317627,
      "kl": 0.012486739084124565,
      "learning_rate": 3.0125000000000004e-06,
      "loss": 0.0005,
      "reward": 0.971250057220459,
      "reward_std": 0.6741225123405457,
      "rewards/_accuracy_reward": 0.2212499976158142,
      "rewards/_format_reward": 0.75,
      "step": 241
    },
    {
      "completion_length": 192.125,
      "epoch": 0.0605,
      "grad_norm": 0.4726582169532776,
      "kl": 0.014720995910465717,
      "learning_rate": 3.0250000000000003e-06,
      "loss": 0.0006,
      "reward": 0.90625,
      "reward_std": 0.6483151316642761,
      "rewards/_accuracy_reward": 0.1562499850988388,
      "rewards/_format_reward": 0.75,
      "step": 242
    },
    {
      "completion_length": 207.625,
      "epoch": 0.06075,
      "grad_norm": 0.4914742708206177,
      "kl": 0.019970744848251343,
      "learning_rate": 3.0375000000000006e-06,
      "loss": 0.0008,
      "reward": 1.15625,
      "reward_std": 0.9904679656028748,
      "rewards/_accuracy_reward": 0.53125,
      "rewards/_format_reward": 0.625,
      "step": 243
    },
    {
      "completion_length": 153.625,
      "epoch": 0.061,
      "grad_norm": 0.4838781952857971,
      "kl": 0.015723643824458122,
      "learning_rate": 3.05e-06,
      "loss": 0.0006,
      "reward": 1.375,
      "reward_std": 0.6681531071662903,
      "rewards/_accuracy_reward": 0.5,
      "rewards/_format_reward": 0.875,
      "step": 244
    },
    {
      "completion_length": 202.375,
      "epoch": 0.06125,
      "grad_norm": 0.47575071454048157,
      "kl": 0.01339123584330082,
      "learning_rate": 3.0625000000000003e-06,
      "loss": 0.0005,
      "reward": 1.5,
      "reward_std": 0.9258201122283936,
      "rewards/_accuracy_reward": 0.75,
      "rewards/_format_reward": 0.75,
      "step": 245
    },
    {
      "completion_length": 190.375,
      "epoch": 0.0615,
      "grad_norm": 0.4257509410381317,
      "kl": 0.01585126481950283,
      "learning_rate": 3.075e-06,
      "loss": 0.0006,
      "reward": 1.193750023841858,
      "reward_std": 0.8304204940795898,
      "rewards/_accuracy_reward": 0.4437499940395355,
      "rewards/_format_reward": 0.75,
      "step": 246
    },
    {
      "completion_length": 168.125,
      "epoch": 0.06175,
      "grad_norm": 0.4466553330421448,
      "kl": 0.015615028329193592,
      "learning_rate": 3.0875000000000005e-06,
      "loss": 0.0006,
      "reward": 1.631250023841858,
      "reward_std": 0.738210916519165,
      "rewards/_accuracy_reward": 0.7562500238418579,
      "rewards/_format_reward": 0.875,
      "step": 247
    },
    {
      "completion_length": 190.5,
      "epoch": 0.062,
      "grad_norm": 0.5046932101249695,
      "kl": 0.020424310117959976,
      "learning_rate": 3.1000000000000004e-06,
      "loss": 0.0008,
      "reward": 0.8062499761581421,
      "reward_std": 0.7242915630340576,
      "rewards/_accuracy_reward": 0.18125000596046448,
      "rewards/_format_reward": 0.625,
      "step": 248
    },
    {
      "completion_length": 115.125,
      "epoch": 0.06225,
      "grad_norm": 0.9507879614830017,
      "kl": 0.027173198759555817,
      "learning_rate": 3.1125000000000007e-06,
      "loss": 0.0011,
      "reward": 1.4075000286102295,
      "reward_std": 0.3749571740627289,
      "rewards/_accuracy_reward": 0.4074999988079071,
      "rewards/_format_reward": 1.0,
      "step": 249
    },
    {
      "completion_length": 226.25,
      "epoch": 0.0625,
      "grad_norm": 0.4514904022216797,
      "kl": 0.014395845122635365,
      "learning_rate": 3.125e-06,
      "loss": 0.0006,
      "reward": 1.15625,
      "reward_std": 0.9904679656028748,
      "rewards/_accuracy_reward": 0.53125,
      "rewards/_format_reward": 0.625,
      "step": 250
    },
    {
      "completion_length": 183.0,
      "epoch": 0.06275,
      "grad_norm": 0.482563853263855,
      "kl": 0.015461320988833904,
      "learning_rate": 3.1375e-06,
      "loss": 0.0006,
      "reward": 1.46875,
      "reward_std": 0.6999680995941162,
      "rewards/_accuracy_reward": 0.59375,
      "rewards/_format_reward": 0.875,
      "step": 251
    },
    {
      "completion_length": 210.875,
      "epoch": 0.063,
      "grad_norm": 0.44888806343078613,
      "kl": 0.013685889542102814,
      "learning_rate": 3.1500000000000003e-06,
      "loss": 0.0005,
      "reward": 1.15625,
      "reward_std": 0.6343936920166016,
      "rewards/_accuracy_reward": 0.28125,
      "rewards/_format_reward": 0.875,
      "step": 252
    },
    {
      "completion_length": 183.625,
      "epoch": 0.06325,
      "grad_norm": 0.47426795959472656,
      "kl": 0.01469960156828165,
      "learning_rate": 3.1625000000000002e-06,
      "loss": 0.0006,
      "reward": 1.381250023841858,
      "reward_std": 0.9133679866790771,
      "rewards/_accuracy_reward": 0.6312500238418579,
      "rewards/_format_reward": 0.75,
      "step": 253
    },
    {
      "completion_length": 123.25,
      "epoch": 0.0635,
      "grad_norm": 0.6966858506202698,
      "kl": 0.02002432383596897,
      "learning_rate": 3.175e-06,
      "loss": 0.0008,
      "reward": 1.5625,
      "reward_std": 0.6648039817810059,
      "rewards/_accuracy_reward": 0.8125,
      "rewards/_format_reward": 0.75,
      "step": 254
    },
    {
      "completion_length": 194.25,
      "epoch": 0.06375,
      "grad_norm": 0.5240160226821899,
      "kl": 0.025446368381381035,
      "learning_rate": 3.1875e-06,
      "loss": 0.001,
      "reward": 1.100000023841858,
      "reward_std": 0.7662525177001953,
      "rewards/_accuracy_reward": 0.3499999940395355,
      "rewards/_format_reward": 0.75,
      "step": 255
    },
    {
      "completion_length": 232.125,
      "epoch": 0.064,
      "grad_norm": 0.46555182337760925,
      "kl": 0.013254818506538868,
      "learning_rate": 3.2000000000000003e-06,
      "loss": 0.0005,
      "reward": 0.39374998211860657,
      "reward_std": 0.5434265732765198,
      "rewards/_accuracy_reward": 0.01875000074505806,
      "rewards/_format_reward": 0.375,
      "step": 256
    },
    {
      "completion_length": 209.375,
      "epoch": 0.06425,
      "grad_norm": 0.4615981876850128,
      "kl": 0.01638483628630638,
      "learning_rate": 3.2125e-06,
      "loss": 0.0007,
      "reward": 1.15625,
      "reward_std": 0.9904679656028748,
      "rewards/_accuracy_reward": 0.53125,
      "rewards/_format_reward": 0.625,
      "step": 257
    },
    {
      "completion_length": 176.0,
      "epoch": 0.0645,
      "grad_norm": 0.47257405519485474,
      "kl": 0.01924911141395569,
      "learning_rate": 3.2250000000000005e-06,
      "loss": 0.0008,
      "reward": 1.65625,
      "reward_std": 0.7188470363616943,
      "rewards/_accuracy_reward": 0.78125,
      "rewards/_format_reward": 0.875,
      "step": 258
    },
    {
      "completion_length": 188.25,
      "epoch": 0.06475,
      "grad_norm": 0.538159191608429,
      "kl": 0.02660544216632843,
      "learning_rate": 3.2375e-06,
      "loss": 0.0011,
      "reward": 1.193750023841858,
      "reward_std": 0.8304204940795898,
      "rewards/_accuracy_reward": 0.4437499940395355,
      "rewards/_format_reward": 0.75,
      "step": 259
    },
    {
      "completion_length": 197.375,
      "epoch": 0.065,
      "grad_norm": 0.46662867069244385,
      "kl": 0.021138174459338188,
      "learning_rate": 3.2500000000000002e-06,
      "loss": 0.0008,
      "reward": 1.40625,
      "reward_std": 0.9057110548019409,
      "rewards/_accuracy_reward": 0.65625,
      "rewards/_format_reward": 0.75,
      "step": 260
    },
    {
      "completion_length": 182.25,
      "epoch": 0.06525,
      "grad_norm": 0.4960637390613556,
      "kl": 0.023767707869410515,
      "learning_rate": 3.2625e-06,
      "loss": 0.001,
      "reward": 0.8624999523162842,
      "reward_std": 0.5403371453285217,
      "rewards/_accuracy_reward": 0.11250000447034836,
      "rewards/_format_reward": 0.75,
      "step": 261
    },
    {
      "completion_length": 100.0,
      "epoch": 0.0655,
      "grad_norm": 0.8033775687217712,
      "kl": 0.021194277331233025,
      "learning_rate": 3.2750000000000004e-06,
      "loss": 0.0008,
      "reward": 1.6687500476837158,
      "reward_std": 0.4613160789012909,
      "rewards/_accuracy_reward": 0.668749988079071,
      "rewards/_format_reward": 1.0,
      "step": 262
    },
    {
      "completion_length": 147.375,
      "epoch": 0.06575,
      "grad_norm": 0.5282887816429138,
      "kl": 0.02339054085314274,
      "learning_rate": 3.2875000000000003e-06,
      "loss": 0.0009,
      "reward": 1.506250023841858,
      "reward_std": 0.4144165515899658,
      "rewards/_accuracy_reward": 0.5062500238418579,
      "rewards/_format_reward": 1.0,
      "step": 263
    },
    {
      "completion_length": 190.25,
      "epoch": 0.066,
      "grad_norm": 0.5130710005760193,
      "kl": 0.020366905257105827,
      "learning_rate": 3.3000000000000006e-06,
      "loss": 0.0008,
      "reward": 1.46875,
      "reward_std": 0.6999680995941162,
      "rewards/_accuracy_reward": 0.59375,
      "rewards/_format_reward": 0.875,
      "step": 264
    },
    {
      "completion_length": 177.0,
      "epoch": 0.06625,
      "grad_norm": 0.6445785760879517,
      "kl": 0.02009623870253563,
      "learning_rate": 3.3125e-06,
      "loss": 0.0008,
      "reward": 1.162500023841858,
      "reward_std": 0.8327021598815918,
      "rewards/_accuracy_reward": 0.5375000238418579,
      "rewards/_format_reward": 0.625,
      "step": 265
    },
    {
      "completion_length": 188.875,
      "epoch": 0.0665,
      "grad_norm": 0.4418463706970215,
      "kl": 0.016711309552192688,
      "learning_rate": 3.3250000000000004e-06,
      "loss": 0.0007,
      "reward": 0.90625,
      "reward_std": 0.6483150720596313,
      "rewards/_accuracy_reward": 0.1562499850988388,
      "rewards/_format_reward": 0.75,
      "step": 266
    },
    {
      "completion_length": 132.625,
      "epoch": 0.06675,
      "grad_norm": 0.6308992505073547,
      "kl": 0.02185102552175522,
      "learning_rate": 3.3375000000000002e-06,
      "loss": 0.0009,
      "reward": 1.5499999523162842,
      "reward_std": 0.4855041801929474,
      "rewards/_accuracy_reward": 0.5499999523162842,
      "rewards/_format_reward": 1.0,
      "step": 267
    },
    {
      "completion_length": 187.75,
      "epoch": 0.067,
      "grad_norm": 0.5287885665893555,
      "kl": 0.028705699369311333,
      "learning_rate": 3.3500000000000005e-06,
      "loss": 0.0011,
      "reward": 1.6375000476837158,
      "reward_std": 0.7224709987640381,
      "rewards/_accuracy_reward": 0.7625000476837158,
      "rewards/_format_reward": 0.875,
      "step": 268
    },
    {
      "completion_length": 145.25,
      "epoch": 0.06725,
      "grad_norm": 0.6234681606292725,
      "kl": 0.027406934648752213,
      "learning_rate": 3.3625000000000004e-06,
      "loss": 0.0011,
      "reward": 1.3125,
      "reward_std": 0.5469068884849548,
      "rewards/_accuracy_reward": 0.4375,
      "rewards/_format_reward": 0.875,
      "step": 269
    },
    {
      "completion_length": 77.125,
      "epoch": 0.0675,
      "grad_norm": 0.047009434551000595,
      "kl": 0.03576899319887161,
      "learning_rate": 3.3750000000000003e-06,
      "loss": 0.0014,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 270
    },
    {
      "completion_length": 128.125,
      "epoch": 0.06775,
      "grad_norm": 0.6146723031997681,
      "kl": 0.036112938076257706,
      "learning_rate": 3.3875e-06,
      "loss": 0.0014,
      "reward": 1.28125,
      "reward_std": 0.6187184453010559,
      "rewards/_accuracy_reward": 0.40625,
      "rewards/_format_reward": 0.875,
      "step": 271
    },
    {
      "completion_length": 151.375,
      "epoch": 0.068,
      "grad_norm": 0.5604023337364197,
      "kl": 0.044364482164382935,
      "learning_rate": 3.4000000000000005e-06,
      "loss": 0.0018,
      "reward": 1.53125,
      "reward_std": 0.7372426986694336,
      "rewards/_accuracy_reward": 0.78125,
      "rewards/_format_reward": 0.75,
      "step": 272
    },
    {
      "completion_length": 203.375,
      "epoch": 0.06825,
      "grad_norm": 0.560128390789032,
      "kl": 0.018296649679541588,
      "learning_rate": 3.4125000000000004e-06,
      "loss": 0.0007,
      "reward": 1.40625,
      "reward_std": 0.9057110548019409,
      "rewards/_accuracy_reward": 0.65625,
      "rewards/_format_reward": 0.75,
      "step": 273
    },
    {
      "completion_length": 186.0,
      "epoch": 0.0685,
      "grad_norm": 0.6812446117401123,
      "kl": 0.03642842918634415,
      "learning_rate": 3.4250000000000007e-06,
      "loss": 0.0015,
      "reward": 0.7699999809265137,
      "reward_std": 0.7155816555023193,
      "rewards/_accuracy_reward": 0.14499999582767487,
      "rewards/_format_reward": 0.625,
      "step": 274
    },
    {
      "completion_length": 199.25,
      "epoch": 0.06875,
      "grad_norm": 0.5815830230712891,
      "kl": 0.036607492715120316,
      "learning_rate": 3.4375e-06,
      "loss": 0.0015,
      "reward": 1.0625,
      "reward_std": 0.933025062084198,
      "rewards/_accuracy_reward": 0.4375,
      "rewards/_format_reward": 0.625,
      "step": 275
    },
    {
      "completion_length": 185.0,
      "epoch": 0.069,
      "grad_norm": 1.3024146556854248,
      "kl": 0.0446808896958828,
      "learning_rate": 3.45e-06,
      "loss": 0.0018,
      "reward": 1.21875,
      "reward_std": 0.8284828662872314,
      "rewards/_accuracy_reward": 0.46875,
      "rewards/_format_reward": 0.75,
      "step": 276
    },
    {
      "completion_length": 131.875,
      "epoch": 0.06925,
      "grad_norm": 0.6265179514884949,
      "kl": 0.03437270596623421,
      "learning_rate": 3.4625000000000003e-06,
      "loss": 0.0014,
      "reward": 1.59375,
      "reward_std": 0.4419417381286621,
      "rewards/_accuracy_reward": 0.71875,
      "rewards/_format_reward": 0.875,
      "step": 277
    },
    {
      "completion_length": 122.0,
      "epoch": 0.0695,
      "grad_norm": 0.6202266812324524,
      "kl": 0.04929348826408386,
      "learning_rate": 3.475e-06,
      "loss": 0.002,
      "reward": 1.65625,
      "reward_std": 0.7188470363616943,
      "rewards/_accuracy_reward": 0.78125,
      "rewards/_format_reward": 0.875,
      "step": 278
    },
    {
      "completion_length": 116.5,
      "epoch": 0.06975,
      "grad_norm": 0.8051105737686157,
      "kl": 0.049348097294569016,
      "learning_rate": 3.4875000000000005e-06,
      "loss": 0.002,
      "reward": 1.5750000476837158,
      "reward_std": 0.4605897068977356,
      "rewards/_accuracy_reward": 0.574999988079071,
      "rewards/_format_reward": 1.0,
      "step": 279
    },
    {
      "completion_length": 202.5,
      "epoch": 0.07,
      "grad_norm": 0.5659109950065613,
      "kl": 0.04884558916091919,
      "learning_rate": 3.5e-06,
      "loss": 0.002,
      "reward": 1.125,
      "reward_std": 0.7676494717597961,
      "rewards/_accuracy_reward": 0.375,
      "rewards/_format_reward": 0.75,
      "step": 280
    },
    {
      "completion_length": 81.0,
      "epoch": 0.07025,
      "grad_norm": 1.043556571006775,
      "kl": 0.043515197932720184,
      "learning_rate": 3.5125000000000003e-06,
      "loss": 0.0017,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 281
    },
    {
      "completion_length": 187.25,
      "epoch": 0.0705,
      "grad_norm": 1.5090237855911255,
      "kl": 0.07255250960588455,
      "learning_rate": 3.525e-06,
      "loss": 0.0029,
      "reward": 1.25,
      "reward_std": 1.0350983142852783,
      "rewards/_accuracy_reward": 0.625,
      "rewards/_format_reward": 0.625,
      "step": 282
    },
    {
      "completion_length": 111.375,
      "epoch": 0.07075,
      "grad_norm": 0.7345578670501709,
      "kl": 0.04479851573705673,
      "learning_rate": 3.5375000000000004e-06,
      "loss": 0.0018,
      "reward": 1.5750000476837158,
      "reward_std": 0.4605897068977356,
      "rewards/_accuracy_reward": 0.574999988079071,
      "rewards/_format_reward": 1.0,
      "step": 283
    },
    {
      "completion_length": 66.25,
      "epoch": 0.071,
      "grad_norm": 1.220955491065979,
      "kl": 0.05355329439043999,
      "learning_rate": 3.5500000000000003e-06,
      "loss": 0.0021,
      "reward": 1.787500023841858,
      "reward_std": 0.39708763360977173,
      "rewards/_accuracy_reward": 0.7875000238418579,
      "rewards/_format_reward": 1.0,
      "step": 284
    },
    {
      "completion_length": 124.375,
      "epoch": 0.07125,
      "grad_norm": 0.8568919897079468,
      "kl": 0.040953654795885086,
      "learning_rate": 3.5625e-06,
      "loss": 0.0016,
      "reward": 1.7625000476837158,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.7625000476837158,
      "rewards/_format_reward": 1.0,
      "step": 285
    },
    {
      "completion_length": 141.25,
      "epoch": 0.0715,
      "grad_norm": 0.030418027192354202,
      "kl": 0.03461394086480141,
      "learning_rate": 3.575e-06,
      "loss": 0.0014,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 286
    },
    {
      "completion_length": 107.5,
      "epoch": 0.07175,
      "grad_norm": 0.7467533349990845,
      "kl": 0.05478259548544884,
      "learning_rate": 3.5875000000000004e-06,
      "loss": 0.0022,
      "reward": 1.4262499809265137,
      "reward_std": 0.48056328296661377,
      "rewards/_accuracy_reward": 0.42624998092651367,
      "rewards/_format_reward": 1.0,
      "step": 287
    },
    {
      "completion_length": 151.25,
      "epoch": 0.072,
      "grad_norm": 0.6246471405029297,
      "kl": 0.036742065101861954,
      "learning_rate": 3.6000000000000003e-06,
      "loss": 0.0015,
      "reward": 1.2625000476837158,
      "reward_std": 0.8826704621315002,
      "rewards/_accuracy_reward": 0.512499988079071,
      "rewards/_format_reward": 0.75,
      "step": 288
    },
    {
      "completion_length": 126.625,
      "epoch": 0.07225,
      "grad_norm": 0.7587897777557373,
      "kl": 0.06992122530937195,
      "learning_rate": 3.6125000000000006e-06,
      "loss": 0.0028,
      "reward": 1.59375,
      "reward_std": 0.4419417381286621,
      "rewards/_accuracy_reward": 0.71875,
      "rewards/_format_reward": 0.875,
      "step": 289
    },
    {
      "completion_length": 170.375,
      "epoch": 0.0725,
      "grad_norm": 0.5562832951545715,
      "kl": 0.053098414093256,
      "learning_rate": 3.625e-06,
      "loss": 0.0021,
      "reward": 1.15625,
      "reward_std": 0.6343936920166016,
      "rewards/_accuracy_reward": 0.28125,
      "rewards/_format_reward": 0.875,
      "step": 290
    },
    {
      "completion_length": 54.625,
      "epoch": 0.07275,
      "grad_norm": 1.5443010330200195,
      "kl": 0.07868895679712296,
      "learning_rate": 3.6375000000000003e-06,
      "loss": 0.0031,
      "reward": 1.318750023841858,
      "reward_std": 0.28402402997016907,
      "rewards/_accuracy_reward": 0.3187499940395355,
      "rewards/_format_reward": 1.0,
      "step": 291
    },
    {
      "completion_length": 196.25,
      "epoch": 0.073,
      "grad_norm": 0.6690995097160339,
      "kl": 0.029539842158555984,
      "learning_rate": 3.65e-06,
      "loss": 0.0012,
      "reward": 0.668749988079071,
      "reward_std": 0.7736451625823975,
      "rewards/_accuracy_reward": 0.16875000298023224,
      "rewards/_format_reward": 0.5,
      "step": 292
    },
    {
      "completion_length": 174.125,
      "epoch": 0.07325,
      "grad_norm": 0.6143000721931458,
      "kl": 0.05302724614739418,
      "learning_rate": 3.6625000000000005e-06,
      "loss": 0.0021,
      "reward": 1.4375,
      "reward_std": 0.7165144085884094,
      "rewards/_accuracy_reward": 0.6875,
      "rewards/_format_reward": 0.75,
      "step": 293
    },
    {
      "completion_length": 118.125,
      "epoch": 0.0735,
      "grad_norm": 0.7825801372528076,
      "kl": 0.06216191127896309,
      "learning_rate": 3.6750000000000004e-06,
      "loss": 0.0025,
      "reward": 1.600000023841858,
      "reward_std": 0.43260011076927185,
      "rewards/_accuracy_reward": 0.6000000238418579,
      "rewards/_format_reward": 1.0,
      "step": 294
    },
    {
      "completion_length": 181.25,
      "epoch": 0.07375,
      "grad_norm": 0.6875461935997009,
      "kl": 0.03431488573551178,
      "learning_rate": 3.6875000000000007e-06,
      "loss": 0.0014,
      "reward": 1.46875,
      "reward_std": 0.6999680995941162,
      "rewards/_accuracy_reward": 0.59375,
      "rewards/_format_reward": 0.875,
      "step": 295
    },
    {
      "completion_length": 99.75,
      "epoch": 0.074,
      "grad_norm": 0.972676157951355,
      "kl": 0.05988858640193939,
      "learning_rate": 3.7e-06,
      "loss": 0.0024,
      "reward": 1.6437499523162842,
      "reward_std": 0.49167174100875854,
      "rewards/_accuracy_reward": 0.6437499523162842,
      "rewards/_format_reward": 1.0,
      "step": 296
    },
    {
      "completion_length": 120.5,
      "epoch": 0.07425,
      "grad_norm": 0.6937150955200195,
      "kl": 0.06560764461755753,
      "learning_rate": 3.7125000000000005e-06,
      "loss": 0.0026,
      "reward": 1.40625,
      "reward_std": 0.49167174100875854,
      "rewards/_accuracy_reward": 0.4062499701976776,
      "rewards/_format_reward": 1.0,
      "step": 297
    },
    {
      "completion_length": 110.0,
      "epoch": 0.0745,
      "grad_norm": 1.0664499998092651,
      "kl": 0.08323174715042114,
      "learning_rate": 3.7250000000000003e-06,
      "loss": 0.0033,
      "reward": 1.65625,
      "reward_std": 0.7188470363616943,
      "rewards/_accuracy_reward": 0.78125,
      "rewards/_format_reward": 0.875,
      "step": 298
    },
    {
      "completion_length": 64.75,
      "epoch": 0.07475,
      "grad_norm": 0.9208748936653137,
      "kl": 0.051380615681409836,
      "learning_rate": 3.7375000000000006e-06,
      "loss": 0.0021,
      "reward": 1.4812500476837158,
      "reward_std": 0.4374745190143585,
      "rewards/_accuracy_reward": 0.48124998807907104,
      "rewards/_format_reward": 1.0,
      "step": 299
    },
    {
      "completion_length": 148.0,
      "epoch": 0.075,
      "grad_norm": 0.6525527238845825,
      "kl": 0.05159568786621094,
      "learning_rate": 3.7500000000000005e-06,
      "loss": 0.0021,
      "reward": 1.087499976158142,
      "reward_std": 0.5442885160446167,
      "rewards/_accuracy_reward": 0.2124999761581421,
      "rewards/_format_reward": 0.875,
      "step": 300
    },
    {
      "completion_length": 167.25,
      "epoch": 0.07525,
      "grad_norm": 0.7984333038330078,
      "kl": 0.06883440166711807,
      "learning_rate": 3.7625e-06,
      "loss": 0.0028,
      "reward": 1.6875,
      "reward_std": 0.6373774409294128,
      "rewards/_accuracy_reward": 0.8125,
      "rewards/_format_reward": 0.875,
      "step": 301
    },
    {
      "completion_length": 104.625,
      "epoch": 0.0755,
      "grad_norm": 0.7018251419067383,
      "kl": 0.04696748033165932,
      "learning_rate": 3.7750000000000003e-06,
      "loss": 0.0019,
      "reward": 1.3624999523162842,
      "reward_std": 0.404218852519989,
      "rewards/_accuracy_reward": 0.36249998211860657,
      "rewards/_format_reward": 1.0,
      "step": 302
    },
    {
      "completion_length": 148.375,
      "epoch": 0.07575,
      "grad_norm": 0.07361488789319992,
      "kl": 0.08332055807113647,
      "learning_rate": 3.7875e-06,
      "loss": 0.0033,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 303
    },
    {
      "completion_length": 132.625,
      "epoch": 0.076,
      "grad_norm": 0.7021421194076538,
      "kl": 0.05917055159807205,
      "learning_rate": 3.8000000000000005e-06,
      "loss": 0.0024,
      "reward": 1.65625,
      "reward_std": 0.7188470363616943,
      "rewards/_accuracy_reward": 0.78125,
      "rewards/_format_reward": 0.875,
      "step": 304
    },
    {
      "completion_length": 175.5,
      "epoch": 0.07625,
      "grad_norm": 0.6244091391563416,
      "kl": 0.06270697712898254,
      "learning_rate": 3.8125e-06,
      "loss": 0.0025,
      "reward": 1.2687499523162842,
      "reward_std": 0.699968159198761,
      "rewards/_accuracy_reward": 0.518750011920929,
      "rewards/_format_reward": 0.75,
      "step": 305
    },
    {
      "completion_length": 98.25,
      "epoch": 0.0765,
      "grad_norm": 1.3864850997924805,
      "kl": 0.078142911195755,
      "learning_rate": 3.825000000000001e-06,
      "loss": 0.0031,
      "reward": 1.2874999046325684,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.28749996423721313,
      "rewards/_format_reward": 1.0,
      "step": 306
    },
    {
      "completion_length": 134.5,
      "epoch": 0.07675,
      "grad_norm": 0.5813739895820618,
      "kl": 0.041886672377586365,
      "learning_rate": 3.8375e-06,
      "loss": 0.0017,
      "reward": 1.2312500476837158,
      "reward_std": 0.6284547448158264,
      "rewards/_accuracy_reward": 0.35624998807907104,
      "rewards/_format_reward": 0.875,
      "step": 307
    },
    {
      "completion_length": 168.5,
      "epoch": 0.077,
      "grad_norm": 0.5561500191688538,
      "kl": 0.06397830694913864,
      "learning_rate": 3.85e-06,
      "loss": 0.0026,
      "reward": 1.3250000476837158,
      "reward_std": 0.6850443482398987,
      "rewards/_accuracy_reward": 0.44999998807907104,
      "rewards/_format_reward": 0.875,
      "step": 308
    },
    {
      "completion_length": 126.125,
      "epoch": 0.07725,
      "grad_norm": 0.6728265881538391,
      "kl": 0.057980045676231384,
      "learning_rate": 3.8625e-06,
      "loss": 0.0023,
      "reward": 1.78125,
      "reward_std": 0.41052013635635376,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 0.875,
      "step": 309
    },
    {
      "completion_length": 105.25,
      "epoch": 0.0775,
      "grad_norm": 0.9413458108901978,
      "kl": 0.10995390266180038,
      "learning_rate": 3.875e-06,
      "loss": 0.0044,
      "reward": 1.5950000286102295,
      "reward_std": 0.4400324523448944,
      "rewards/_accuracy_reward": 0.5950000286102295,
      "rewards/_format_reward": 1.0,
      "step": 310
    },
    {
      "completion_length": 108.5,
      "epoch": 0.07775,
      "grad_norm": 0.742570698261261,
      "kl": 0.06104608625173569,
      "learning_rate": 3.8875000000000005e-06,
      "loss": 0.0024,
      "reward": 1.7575000524520874,
      "reward_std": 0.449150025844574,
      "rewards/_accuracy_reward": 0.7575000524520874,
      "rewards/_format_reward": 1.0,
      "step": 311
    },
    {
      "completion_length": 110.75,
      "epoch": 0.078,
      "grad_norm": 1.0395474433898926,
      "kl": 0.088965505361557,
      "learning_rate": 3.900000000000001e-06,
      "loss": 0.0036,
      "reward": 1.6437499523162842,
      "reward_std": 0.49167174100875854,
      "rewards/_accuracy_reward": 0.643750011920929,
      "rewards/_format_reward": 1.0,
      "step": 312
    },
    {
      "completion_length": 144.875,
      "epoch": 0.07825,
      "grad_norm": 0.6619213223457336,
      "kl": 0.06248822063207626,
      "learning_rate": 3.9125e-06,
      "loss": 0.0025,
      "reward": 1.0625,
      "reward_std": 0.5403372049331665,
      "rewards/_accuracy_reward": 0.1875,
      "rewards/_format_reward": 0.875,
      "step": 313
    },
    {
      "completion_length": 109.0,
      "epoch": 0.0785,
      "grad_norm": 0.7599800229072571,
      "kl": 0.0571325309574604,
      "learning_rate": 3.9250000000000005e-06,
      "loss": 0.0023,
      "reward": 1.4075000286102295,
      "reward_std": 0.3749571442604065,
      "rewards/_accuracy_reward": 0.4074999988079071,
      "rewards/_format_reward": 1.0,
      "step": 314
    },
    {
      "completion_length": 73.0,
      "epoch": 0.07875,
      "grad_norm": 0.9942233562469482,
      "kl": 0.05285262688994408,
      "learning_rate": 3.9375e-06,
      "loss": 0.0021,
      "reward": 1.625,
      "reward_std": 0.40089187026023865,
      "rewards/_accuracy_reward": 0.625,
      "rewards/_format_reward": 1.0,
      "step": 315
    },
    {
      "completion_length": 163.0,
      "epoch": 0.079,
      "grad_norm": 0.7015470266342163,
      "kl": 0.06908886879682541,
      "learning_rate": 3.95e-06,
      "loss": 0.0028,
      "reward": 1.3250000476837158,
      "reward_std": 0.6850443482398987,
      "rewards/_accuracy_reward": 0.44999998807907104,
      "rewards/_format_reward": 0.875,
      "step": 316
    },
    {
      "completion_length": 72.875,
      "epoch": 0.07925,
      "grad_norm": 1.0622810125350952,
      "kl": 0.10289790481328964,
      "learning_rate": 3.962500000000001e-06,
      "loss": 0.0041,
      "reward": 1.658750057220459,
      "reward_std": 0.47675803303718567,
      "rewards/_accuracy_reward": 0.6587499976158142,
      "rewards/_format_reward": 1.0,
      "step": 317
    },
    {
      "completion_length": 72.0,
      "epoch": 0.0795,
      "grad_norm": 0.8196299076080322,
      "kl": 0.05889907479286194,
      "learning_rate": 3.975000000000001e-06,
      "loss": 0.0024,
      "reward": 1.412500023841858,
      "reward_std": 0.3691205680370331,
      "rewards/_accuracy_reward": 0.4124999940395355,
      "rewards/_format_reward": 1.0,
      "step": 318
    },
    {
      "completion_length": 106.25,
      "epoch": 0.07975,
      "grad_norm": 0.8157685399055481,
      "kl": 0.06252449005842209,
      "learning_rate": 3.9875e-06,
      "loss": 0.0025,
      "reward": 1.78125,
      "reward_std": 0.41052013635635376,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 0.875,
      "step": 319
    },
    {
      "completion_length": 101.25,
      "epoch": 0.08,
      "grad_norm": 0.7154927253723145,
      "kl": 0.05639846250414848,
      "learning_rate": 4.000000000000001e-06,
      "loss": 0.0023,
      "reward": 1.7625000476837158,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.762499988079071,
      "rewards/_format_reward": 1.0,
      "step": 320
    },
    {
      "completion_length": 118.75,
      "epoch": 0.08025,
      "grad_norm": 0.950957179069519,
      "kl": 0.11179396510124207,
      "learning_rate": 4.0125e-06,
      "loss": 0.0045,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 321
    },
    {
      "completion_length": 111.125,
      "epoch": 0.0805,
      "grad_norm": 0.7619085907936096,
      "kl": 0.060069490224123,
      "learning_rate": 4.0250000000000004e-06,
      "loss": 0.0024,
      "reward": 1.8125,
      "reward_std": 0.3471825420856476,
      "rewards/_accuracy_reward": 0.8125,
      "rewards/_format_reward": 1.0,
      "step": 322
    },
    {
      "completion_length": 128.5,
      "epoch": 0.08075,
      "grad_norm": 0.9389228224754333,
      "kl": 0.0730435773730278,
      "learning_rate": 4.037500000000001e-06,
      "loss": 0.0029,
      "reward": 1.1687499284744263,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.16875000298023224,
      "rewards/_format_reward": 1.0,
      "step": 323
    },
    {
      "completion_length": 158.5,
      "epoch": 0.081,
      "grad_norm": 0.846824049949646,
      "kl": 0.08881374448537827,
      "learning_rate": 4.05e-06,
      "loss": 0.0036,
      "reward": 1.1875,
      "reward_std": 0.9519716501235962,
      "rewards/_accuracy_reward": 0.5625,
      "rewards/_format_reward": 0.625,
      "step": 324
    },
    {
      "completion_length": 155.375,
      "epoch": 0.08125,
      "grad_norm": 0.58637934923172,
      "kl": 0.08695843815803528,
      "learning_rate": 4.0625000000000005e-06,
      "loss": 0.0035,
      "reward": 0.9187499284744263,
      "reward_std": 0.3514637351036072,
      "rewards/_accuracy_reward": 0.16875000298023224,
      "rewards/_format_reward": 0.75,
      "step": 325
    },
    {
      "completion_length": 84.625,
      "epoch": 0.0815,
      "grad_norm": 1.0473264455795288,
      "kl": 0.06300223618745804,
      "learning_rate": 4.075e-06,
      "loss": 0.0025,
      "reward": 1.5499999523162842,
      "reward_std": 0.4855042099952698,
      "rewards/_accuracy_reward": 0.5499999523162842,
      "rewards/_format_reward": 1.0,
      "step": 326
    },
    {
      "completion_length": 139.75,
      "epoch": 0.08175,
      "grad_norm": 0.7010840177536011,
      "kl": 0.05449886992573738,
      "learning_rate": 4.0875e-06,
      "loss": 0.0022,
      "reward": 1.71875,
      "reward_std": 0.38816189765930176,
      "rewards/_accuracy_reward": 0.71875,
      "rewards/_format_reward": 1.0,
      "step": 327
    },
    {
      "completion_length": 97.5,
      "epoch": 0.082,
      "grad_norm": 0.8196879029273987,
      "kl": 0.09262411296367645,
      "learning_rate": 4.1e-06,
      "loss": 0.0037,
      "reward": 1.5499999523162842,
      "reward_std": 0.4855042099952698,
      "rewards/_accuracy_reward": 0.5499999523162842,
      "rewards/_format_reward": 1.0,
      "step": 328
    },
    {
      "completion_length": 124.25,
      "epoch": 0.08225,
      "grad_norm": 1.0033892393112183,
      "kl": 0.10067097842693329,
      "learning_rate": 4.1125e-06,
      "loss": 0.004,
      "reward": 1.53125,
      "reward_std": 0.7372426986694336,
      "rewards/_accuracy_reward": 0.78125,
      "rewards/_format_reward": 0.75,
      "step": 329
    },
    {
      "completion_length": 155.125,
      "epoch": 0.0825,
      "grad_norm": 0.6117260456085205,
      "kl": 0.0802069678902626,
      "learning_rate": 4.125e-06,
      "loss": 0.0032,
      "reward": 1.1687499284744263,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.16875000298023224,
      "rewards/_format_reward": 1.0,
      "step": 330
    },
    {
      "completion_length": 90.625,
      "epoch": 0.08275,
      "grad_norm": 1.334694743156433,
      "kl": 0.11455602198839188,
      "learning_rate": 4.137500000000001e-06,
      "loss": 0.0046,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 331
    },
    {
      "completion_length": 76.5,
      "epoch": 0.083,
      "grad_norm": 1.0724419355392456,
      "kl": 0.09013547003269196,
      "learning_rate": 4.15e-06,
      "loss": 0.0036,
      "reward": 1.625,
      "reward_std": 0.40089187026023865,
      "rewards/_accuracy_reward": 0.625,
      "rewards/_format_reward": 1.0,
      "step": 332
    },
    {
      "completion_length": 102.875,
      "epoch": 0.08325,
      "grad_norm": 1.0087305307388306,
      "kl": 0.0930456668138504,
      "learning_rate": 4.1625e-06,
      "loss": 0.0037,
      "reward": 1.787500023841858,
      "reward_std": 0.39708760380744934,
      "rewards/_accuracy_reward": 0.7875000238418579,
      "rewards/_format_reward": 1.0,
      "step": 333
    },
    {
      "completion_length": 137.875,
      "epoch": 0.0835,
      "grad_norm": 0.6068035960197449,
      "kl": 0.0930265486240387,
      "learning_rate": 4.175e-06,
      "loss": 0.0037,
      "reward": 1.65625,
      "reward_std": 0.7188470363616943,
      "rewards/_accuracy_reward": 0.78125,
      "rewards/_format_reward": 0.875,
      "step": 334
    },
    {
      "completion_length": 83.375,
      "epoch": 0.08375,
      "grad_norm": 1.1466654539108276,
      "kl": 0.09693353623151779,
      "learning_rate": 4.1875e-06,
      "loss": 0.0039,
      "reward": 1.8125,
      "reward_std": 0.3471825420856476,
      "rewards/_accuracy_reward": 0.8125,
      "rewards/_format_reward": 1.0,
      "step": 335
    },
    {
      "completion_length": 135.125,
      "epoch": 0.084,
      "grad_norm": 1.0346399545669556,
      "kl": 0.07693766057491302,
      "learning_rate": 4.2000000000000004e-06,
      "loss": 0.0031,
      "reward": 1.5700000524520874,
      "reward_std": 0.46727174520492554,
      "rewards/_accuracy_reward": 0.5699999928474426,
      "rewards/_format_reward": 1.0,
      "step": 336
    },
    {
      "completion_length": 127.375,
      "epoch": 0.08425,
      "grad_norm": 0.7949957847595215,
      "kl": 0.16617698967456818,
      "learning_rate": 4.212500000000001e-06,
      "loss": 0.0066,
      "reward": 1.71875,
      "reward_std": 0.38816189765930176,
      "rewards/_accuracy_reward": 0.71875,
      "rewards/_format_reward": 1.0,
      "step": 337
    },
    {
      "completion_length": 98.25,
      "epoch": 0.0845,
      "grad_norm": 0.9801748394966125,
      "kl": 0.09285181015729904,
      "learning_rate": 4.225e-06,
      "loss": 0.0037,
      "reward": 1.5499999523162842,
      "reward_std": 0.4855041801929474,
      "rewards/_accuracy_reward": 0.550000011920929,
      "rewards/_format_reward": 1.0,
      "step": 338
    },
    {
      "completion_length": 129.0,
      "epoch": 0.08475,
      "grad_norm": 1.0321601629257202,
      "kl": 0.08525305241346359,
      "learning_rate": 4.2375000000000005e-06,
      "loss": 0.0034,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 339
    },
    {
      "completion_length": 117.0,
      "epoch": 0.085,
      "grad_norm": 1.1353120803833008,
      "kl": 0.10381244868040085,
      "learning_rate": 4.25e-06,
      "loss": 0.0042,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 0.875,
      "step": 340
    },
    {
      "completion_length": 67.5,
      "epoch": 0.08525,
      "grad_norm": 0.987204372882843,
      "kl": 0.1275581568479538,
      "learning_rate": 4.2625e-06,
      "loss": 0.0051,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 341
    },
    {
      "completion_length": 88.25,
      "epoch": 0.0855,
      "grad_norm": 1.1097989082336426,
      "kl": 0.10488829016685486,
      "learning_rate": 4.2750000000000006e-06,
      "loss": 0.0042,
      "reward": 1.7575000524520874,
      "reward_std": 0.449150025844574,
      "rewards/_accuracy_reward": 0.7574999928474426,
      "rewards/_format_reward": 1.0,
      "step": 342
    },
    {
      "completion_length": 101.625,
      "epoch": 0.08575,
      "grad_norm": 1.0648112297058105,
      "kl": 0.11403176933526993,
      "learning_rate": 4.287500000000001e-06,
      "loss": 0.0046,
      "reward": 1.3875000476837158,
      "reward_std": 0.3879893124103546,
      "rewards/_accuracy_reward": 0.38749998807907104,
      "rewards/_format_reward": 1.0,
      "step": 343
    },
    {
      "completion_length": 98.875,
      "epoch": 0.086,
      "grad_norm": 0.8387040495872498,
      "kl": 0.11271817982196808,
      "learning_rate": 4.3e-06,
      "loss": 0.0045,
      "reward": 1.756250023841858,
      "reward_std": 0.6894291639328003,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 0.875,
      "step": 344
    },
    {
      "completion_length": 128.125,
      "epoch": 0.08625,
      "grad_norm": 0.7294446229934692,
      "kl": 0.12787966430187225,
      "learning_rate": 4.312500000000001e-06,
      "loss": 0.0051,
      "reward": 1.1762499809265137,
      "reward_std": 0.6348889470100403,
      "rewards/_accuracy_reward": 0.30125001072883606,
      "rewards/_format_reward": 0.875,
      "step": 345
    },
    {
      "completion_length": 159.25,
      "epoch": 0.0865,
      "grad_norm": 0.8217050433158875,
      "kl": 0.14619140326976776,
      "learning_rate": 4.325e-06,
      "loss": 0.0058,
      "reward": 1.162500023841858,
      "reward_std": 0.832702100276947,
      "rewards/_accuracy_reward": 0.5375000238418579,
      "rewards/_format_reward": 0.625,
      "step": 346
    },
    {
      "completion_length": 129.25,
      "epoch": 0.08675,
      "grad_norm": 0.9098784923553467,
      "kl": 0.13450828194618225,
      "learning_rate": 4.3375e-06,
      "loss": 0.0054,
      "reward": 1.431249976158142,
      "reward_std": 0.47579824924468994,
      "rewards/_accuracy_reward": 0.4312499761581421,
      "rewards/_format_reward": 1.0,
      "step": 347
    },
    {
      "completion_length": 151.0,
      "epoch": 0.087,
      "grad_norm": 0.7144613265991211,
      "kl": 0.1879410594701767,
      "learning_rate": 4.350000000000001e-06,
      "loss": 0.0075,
      "reward": 1.3937499523162842,
      "reward_std": 0.7336004972457886,
      "rewards/_accuracy_reward": 0.5187499523162842,
      "rewards/_format_reward": 0.875,
      "step": 348
    },
    {
      "completion_length": 84.375,
      "epoch": 0.08725,
      "grad_norm": 1.6553195714950562,
      "kl": 0.10268331319093704,
      "learning_rate": 4.362500000000001e-06,
      "loss": 0.0041,
      "reward": 1.375,
      "reward_std": 0.6681531071662903,
      "rewards/_accuracy_reward": 0.5,
      "rewards/_format_reward": 0.875,
      "step": 349
    },
    {
      "completion_length": 61.25,
      "epoch": 0.0875,
      "grad_norm": 1.4001189470291138,
      "kl": 0.18523964285850525,
      "learning_rate": 4.3750000000000005e-06,
      "loss": 0.0074,
      "reward": 1.5012500286102295,
      "reward_std": 0.42089828848838806,
      "rewards/_accuracy_reward": 0.5012500286102295,
      "rewards/_format_reward": 1.0,
      "step": 350
    },
    {
      "completion_length": 139.375,
      "epoch": 0.08775,
      "grad_norm": 0.5610023140907288,
      "kl": 0.09610922634601593,
      "learning_rate": 4.3875e-06,
      "loss": 0.0038,
      "reward": 1.375,
      "reward_std": 0.6681531071662903,
      "rewards/_accuracy_reward": 0.5,
      "rewards/_format_reward": 0.875,
      "step": 351
    },
    {
      "completion_length": 167.5,
      "epoch": 0.088,
      "grad_norm": 0.8529553413391113,
      "kl": 0.1177278384566307,
      "learning_rate": 4.4e-06,
      "loss": 0.0047,
      "reward": 1.15625,
      "reward_std": 0.6343936920166016,
      "rewards/_accuracy_reward": 0.2812499701976776,
      "rewards/_format_reward": 0.875,
      "step": 352
    },
    {
      "completion_length": 134.75,
      "epoch": 0.08825,
      "grad_norm": 0.7346218824386597,
      "kl": 0.12559470534324646,
      "learning_rate": 4.4125000000000005e-06,
      "loss": 0.005,
      "reward": 1.274999976158142,
      "reward_std": 0.6974443197250366,
      "rewards/_accuracy_reward": 0.3999999761581421,
      "rewards/_format_reward": 0.875,
      "step": 353
    },
    {
      "completion_length": 131.375,
      "epoch": 0.0885,
      "grad_norm": 0.7096778154373169,
      "kl": 0.15666167438030243,
      "learning_rate": 4.425e-06,
      "loss": 0.0063,
      "reward": 1.6875,
      "reward_std": 0.6373774409294128,
      "rewards/_accuracy_reward": 0.8125,
      "rewards/_format_reward": 0.875,
      "step": 354
    },
    {
      "completion_length": 129.5,
      "epoch": 0.08875,
      "grad_norm": 0.7917588949203491,
      "kl": 0.16912636160850525,
      "learning_rate": 4.4375e-06,
      "loss": 0.0068,
      "reward": 1.53125,
      "reward_std": 0.7372426986694336,
      "rewards/_accuracy_reward": 0.78125,
      "rewards/_format_reward": 0.75,
      "step": 355
    },
    {
      "completion_length": 108.75,
      "epoch": 0.089,
      "grad_norm": 1.4511607885360718,
      "kl": 0.1251247525215149,
      "learning_rate": 4.450000000000001e-06,
      "loss": 0.005,
      "reward": 1.5012500286102295,
      "reward_std": 0.42089828848838806,
      "rewards/_accuracy_reward": 0.5012500286102295,
      "rewards/_format_reward": 1.0,
      "step": 356
    },
    {
      "completion_length": 114.25,
      "epoch": 0.08925,
      "grad_norm": 0.9404997229576111,
      "kl": 0.09536008536815643,
      "learning_rate": 4.4625e-06,
      "loss": 0.0038,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 357
    },
    {
      "completion_length": 101.25,
      "epoch": 0.0895,
      "grad_norm": 0.7459734082221985,
      "kl": 0.1477159559726715,
      "learning_rate": 4.475e-06,
      "loss": 0.0059,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 358
    },
    {
      "completion_length": 85.625,
      "epoch": 0.08975,
      "grad_norm": 1.143880009651184,
      "kl": 0.09666404128074646,
      "learning_rate": 4.4875e-06,
      "loss": 0.0039,
      "reward": 1.8125,
      "reward_std": 0.3471825420856476,
      "rewards/_accuracy_reward": 0.8125,
      "rewards/_format_reward": 1.0,
      "step": 359
    },
    {
      "completion_length": 204.375,
      "epoch": 0.09,
      "grad_norm": 0.9317293167114258,
      "kl": 0.31011974811553955,
      "learning_rate": 4.5e-06,
      "loss": 0.0124,
      "reward": 0.762499988079071,
      "reward_std": 0.8907260298728943,
      "rewards/_accuracy_reward": 0.26249998807907104,
      "rewards/_format_reward": 0.5,
      "step": 360
    },
    {
      "completion_length": 164.0,
      "epoch": 0.09025,
      "grad_norm": 0.8388033509254456,
      "kl": 0.1918019950389862,
      "learning_rate": 4.5125e-06,
      "loss": 0.0077,
      "reward": 1.0512499809265137,
      "reward_std": 0.7511028051376343,
      "rewards/_accuracy_reward": 0.30124998092651367,
      "rewards/_format_reward": 0.75,
      "step": 361
    },
    {
      "completion_length": 73.125,
      "epoch": 0.0905,
      "grad_norm": 1.0067369937896729,
      "kl": 0.09683433175086975,
      "learning_rate": 4.525000000000001e-06,
      "loss": 0.0039,
      "reward": 1.243749976158142,
      "reward_std": 0.32120034098625183,
      "rewards/_accuracy_reward": 0.24374999105930328,
      "rewards/_format_reward": 1.0,
      "step": 362
    },
    {
      "completion_length": 175.625,
      "epoch": 0.09075,
      "grad_norm": 0.79710453748703,
      "kl": 0.15141978859901428,
      "learning_rate": 4.5375e-06,
      "loss": 0.0061,
      "reward": 1.03125,
      "reward_std": 0.9300297498703003,
      "rewards/_accuracy_reward": 0.53125,
      "rewards/_format_reward": 0.5,
      "step": 363
    },
    {
      "completion_length": 106.25,
      "epoch": 0.091,
      "grad_norm": 0.7696452736854553,
      "kl": 0.13706472516059875,
      "learning_rate": 4.5500000000000005e-06,
      "loss": 0.0055,
      "reward": 1.53125,
      "reward_std": 0.7372426986694336,
      "rewards/_accuracy_reward": 0.78125,
      "rewards/_format_reward": 0.75,
      "step": 364
    },
    {
      "completion_length": 102.375,
      "epoch": 0.09125,
      "grad_norm": 0.6263626217842102,
      "kl": 0.18292012810707092,
      "learning_rate": 4.5625e-06,
      "loss": 0.0073,
      "reward": 1.09375,
      "reward_std": 0.4419417381286621,
      "rewards/_accuracy_reward": 0.21875,
      "rewards/_format_reward": 0.875,
      "step": 365
    },
    {
      "completion_length": 123.75,
      "epoch": 0.0915,
      "grad_norm": 0.6248298287391663,
      "kl": 0.0651947632431984,
      "learning_rate": 4.575e-06,
      "loss": 0.0026,
      "reward": 1.65625,
      "reward_std": 0.7188470363616943,
      "rewards/_accuracy_reward": 0.78125,
      "rewards/_format_reward": 0.875,
      "step": 366
    },
    {
      "completion_length": 108.5,
      "epoch": 0.09175,
      "grad_norm": 1.123427391052246,
      "kl": 0.1323918253183365,
      "learning_rate": 4.5875000000000005e-06,
      "loss": 0.0053,
      "reward": 1.8125,
      "reward_std": 0.3471825420856476,
      "rewards/_accuracy_reward": 0.8125,
      "rewards/_format_reward": 1.0,
      "step": 367
    },
    {
      "completion_length": 159.5,
      "epoch": 0.092,
      "grad_norm": 0.7406381368637085,
      "kl": 0.1296067088842392,
      "learning_rate": 4.600000000000001e-06,
      "loss": 0.0052,
      "reward": 1.6437499523162842,
      "reward_std": 0.49167174100875854,
      "rewards/_accuracy_reward": 0.643750011920929,
      "rewards/_format_reward": 1.0,
      "step": 368
    },
    {
      "completion_length": 164.75,
      "epoch": 0.09225,
      "grad_norm": 0.717776358127594,
      "kl": 0.1630459874868393,
      "learning_rate": 4.6125e-06,
      "loss": 0.0065,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 369
    },
    {
      "completion_length": 86.25,
      "epoch": 0.0925,
      "grad_norm": 1.1500803232192993,
      "kl": 0.12640973925590515,
      "learning_rate": 4.625000000000001e-06,
      "loss": 0.0051,
      "reward": 1.756250023841858,
      "reward_std": 0.45153507590293884,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 0.875,
      "step": 370
    },
    {
      "completion_length": 161.375,
      "epoch": 0.09275,
      "grad_norm": 0.8110669255256653,
      "kl": 0.13621176779270172,
      "learning_rate": 4.6375e-06,
      "loss": 0.0054,
      "reward": 1.1437499523162842,
      "reward_std": 0.8317097425460815,
      "rewards/_accuracy_reward": 0.39374998211860657,
      "rewards/_format_reward": 0.75,
      "step": 371
    },
    {
      "completion_length": 175.375,
      "epoch": 0.093,
      "grad_norm": 0.7024534344673157,
      "kl": 0.1695256382226944,
      "learning_rate": 4.65e-06,
      "loss": 0.0068,
      "reward": 1.1875,
      "reward_std": 0.9519716501235962,
      "rewards/_accuracy_reward": 0.5625,
      "rewards/_format_reward": 0.625,
      "step": 372
    },
    {
      "completion_length": 145.125,
      "epoch": 0.09325,
      "grad_norm": 1.101328730583191,
      "kl": 0.17406335473060608,
      "learning_rate": 4.662500000000001e-06,
      "loss": 0.007,
      "reward": 1.381250023841858,
      "reward_std": 0.9133679866790771,
      "rewards/_accuracy_reward": 0.6312500238418579,
      "rewards/_format_reward": 0.75,
      "step": 373
    },
    {
      "completion_length": 164.5,
      "epoch": 0.0935,
      "grad_norm": 0.740450918674469,
      "kl": 0.15864543616771698,
      "learning_rate": 4.675000000000001e-06,
      "loss": 0.0063,
      "reward": 1.5,
      "reward_std": 0.9258201122283936,
      "rewards/_accuracy_reward": 0.75,
      "rewards/_format_reward": 0.75,
      "step": 374
    },
    {
      "completion_length": 200.25,
      "epoch": 0.09375,
      "grad_norm": 0.7958067059516907,
      "kl": 0.35587310791015625,
      "learning_rate": 4.6875000000000004e-06,
      "loss": 0.0142,
      "reward": 1.125,
      "reward_std": 0.9910312294960022,
      "rewards/_accuracy_reward": 0.625,
      "rewards/_format_reward": 0.5,
      "step": 375
    },
    {
      "completion_length": 119.125,
      "epoch": 0.094,
      "grad_norm": 0.9200760126113892,
      "kl": 0.07643859833478928,
      "learning_rate": 4.7e-06,
      "loss": 0.0031,
      "reward": 1.524999976158142,
      "reward_std": 0.5077964067459106,
      "rewards/_accuracy_reward": 0.5249999761581421,
      "rewards/_format_reward": 1.0,
      "step": 376
    },
    {
      "completion_length": 120.75,
      "epoch": 0.09425,
      "grad_norm": 0.7784951329231262,
      "kl": 0.09547189623117447,
      "learning_rate": 4.7125e-06,
      "loss": 0.0038,
      "reward": 1.225000023841858,
      "reward_std": 0.8180989027023315,
      "rewards/_accuracy_reward": 0.4749999940395355,
      "rewards/_format_reward": 0.75,
      "step": 377
    },
    {
      "completion_length": 76.0,
      "epoch": 0.0945,
      "grad_norm": 1.4544790983200073,
      "kl": 0.16331760585308075,
      "learning_rate": 4.7250000000000005e-06,
      "loss": 0.0065,
      "reward": 1.8125,
      "reward_std": 0.3471825420856476,
      "rewards/_accuracy_reward": 0.8125,
      "rewards/_format_reward": 1.0,
      "step": 378
    },
    {
      "completion_length": 105.75,
      "epoch": 0.09475,
      "grad_norm": 0.9481674432754517,
      "kl": 0.1655467301607132,
      "learning_rate": 4.737500000000001e-06,
      "loss": 0.0066,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 0.875,
      "step": 379
    },
    {
      "completion_length": 117.625,
      "epoch": 0.095,
      "grad_norm": 1.2458184957504272,
      "kl": 0.12308754026889801,
      "learning_rate": 4.75e-06,
      "loss": 0.0049,
      "reward": 1.2625000476837158,
      "reward_std": 0.31707367300987244,
      "rewards/_accuracy_reward": 0.38749998807907104,
      "rewards/_format_reward": 0.875,
      "step": 380
    },
    {
      "completion_length": 141.875,
      "epoch": 0.09525,
      "grad_norm": 2.0550785064697266,
      "kl": 0.24554966390132904,
      "learning_rate": 4.7625000000000006e-06,
      "loss": 0.0098,
      "reward": 1.21875,
      "reward_std": 0.8284828662872314,
      "rewards/_accuracy_reward": 0.46875,
      "rewards/_format_reward": 0.75,
      "step": 381
    },
    {
      "completion_length": 134.375,
      "epoch": 0.0955,
      "grad_norm": 0.8591959476470947,
      "kl": 0.10585917532444,
      "learning_rate": 4.775e-06,
      "loss": 0.0042,
      "reward": 1.6387500762939453,
      "reward_std": 0.49872517585754395,
      "rewards/_accuracy_reward": 0.6387499570846558,
      "rewards/_format_reward": 1.0,
      "step": 382
    },
    {
      "completion_length": 114.25,
      "epoch": 0.09575,
      "grad_norm": 0.794729471206665,
      "kl": 0.24316060543060303,
      "learning_rate": 4.7875e-06,
      "loss": 0.0097,
      "reward": 1.0625,
      "reward_std": 0.5403371453285217,
      "rewards/_accuracy_reward": 0.1875,
      "rewards/_format_reward": 0.875,
      "step": 383
    },
    {
      "completion_length": 122.5,
      "epoch": 0.096,
      "grad_norm": 1.0003390312194824,
      "kl": 0.10567362606525421,
      "learning_rate": 4.800000000000001e-06,
      "loss": 0.0042,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 0.875,
      "step": 384
    },
    {
      "completion_length": 96.375,
      "epoch": 0.09625,
      "grad_norm": 0.9128509163856506,
      "kl": 0.09176424145698547,
      "learning_rate": 4.8125e-06,
      "loss": 0.0037,
      "reward": 1.40625,
      "reward_std": 0.49167174100875854,
      "rewards/_accuracy_reward": 0.4062499701976776,
      "rewards/_format_reward": 1.0,
      "step": 385
    },
    {
      "completion_length": 87.0,
      "epoch": 0.0965,
      "grad_norm": 0.8376882672309875,
      "kl": 0.08349757641553879,
      "learning_rate": 4.825e-06,
      "loss": 0.0033,
      "reward": 1.53125,
      "reward_std": 0.38816189765930176,
      "rewards/_accuracy_reward": 0.53125,
      "rewards/_format_reward": 1.0,
      "step": 386
    },
    {
      "completion_length": 116.125,
      "epoch": 0.09675,
      "grad_norm": 1.173961877822876,
      "kl": 0.08239471912384033,
      "learning_rate": 4.837500000000001e-06,
      "loss": 0.0033,
      "reward": 1.3624999523162842,
      "reward_std": 0.404218852519989,
      "rewards/_accuracy_reward": 0.36249998211860657,
      "rewards/_format_reward": 1.0,
      "step": 387
    },
    {
      "completion_length": 122.375,
      "epoch": 0.097,
      "grad_norm": 0.07301829755306244,
      "kl": 0.10658504068851471,
      "learning_rate": 4.85e-06,
      "loss": 0.0043,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 388
    },
    {
      "completion_length": 89.125,
      "epoch": 0.09725,
      "grad_norm": 0.2543293237686157,
      "kl": 0.1679508537054062,
      "learning_rate": 4.8625000000000005e-06,
      "loss": 0.0067,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 389
    },
    {
      "completion_length": 116.125,
      "epoch": 0.0975,
      "grad_norm": 0.9531389474868774,
      "kl": 0.10527552664279938,
      "learning_rate": 4.875e-06,
      "loss": 0.0042,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 390
    },
    {
      "completion_length": 118.875,
      "epoch": 0.09775,
      "grad_norm": 1.4362037181854248,
      "kl": 0.2108982801437378,
      "learning_rate": 4.8875e-06,
      "loss": 0.0084,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 391
    },
    {
      "completion_length": 112.25,
      "epoch": 0.098,
      "grad_norm": 0.7744788527488708,
      "kl": 0.09784118831157684,
      "learning_rate": 4.9000000000000005e-06,
      "loss": 0.0039,
      "reward": 1.662500023841858,
      "reward_std": 0.4711308181285858,
      "rewards/_accuracy_reward": 0.7875000238418579,
      "rewards/_format_reward": 0.875,
      "step": 392
    },
    {
      "completion_length": 125.75,
      "epoch": 0.09825,
      "grad_norm": 0.11483877152204514,
      "kl": 0.09153156727552414,
      "learning_rate": 4.912500000000001e-06,
      "loss": 0.0037,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 393
    },
    {
      "completion_length": 119.25,
      "epoch": 0.0985,
      "grad_norm": 0.9200050234794617,
      "kl": 0.12948504090309143,
      "learning_rate": 4.925e-06,
      "loss": 0.0052,
      "reward": 1.625,
      "reward_std": 0.40089187026023865,
      "rewards/_accuracy_reward": 0.625,
      "rewards/_format_reward": 1.0,
      "step": 394
    },
    {
      "completion_length": 175.375,
      "epoch": 0.09875,
      "grad_norm": 0.7395903468132019,
      "kl": 0.12225595861673355,
      "learning_rate": 4.937500000000001e-06,
      "loss": 0.0049,
      "reward": 1.65625,
      "reward_std": 0.7188470363616943,
      "rewards/_accuracy_reward": 0.78125,
      "rewards/_format_reward": 0.875,
      "step": 395
    },
    {
      "completion_length": 122.5,
      "epoch": 0.099,
      "grad_norm": 0.6254833936691284,
      "kl": 0.0814957544207573,
      "learning_rate": 4.95e-06,
      "loss": 0.0033,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 396
    },
    {
      "completion_length": 150.875,
      "epoch": 0.09925,
      "grad_norm": 1.205034613609314,
      "kl": 0.08875016123056412,
      "learning_rate": 4.9625e-06,
      "loss": 0.0036,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 397
    },
    {
      "completion_length": 161.125,
      "epoch": 0.0995,
      "grad_norm": 0.9321796894073486,
      "kl": 0.16619841754436493,
      "learning_rate": 4.975000000000001e-06,
      "loss": 0.0066,
      "reward": 1.7512500286102295,
      "reward_std": 0.4606032371520996,
      "rewards/_accuracy_reward": 0.8762500286102295,
      "rewards/_format_reward": 0.875,
      "step": 398
    },
    {
      "completion_length": 159.25,
      "epoch": 0.09975,
      "grad_norm": 0.8920565843582153,
      "kl": 0.12888400256633759,
      "learning_rate": 4.987500000000001e-06,
      "loss": 0.0052,
      "reward": 1.274999976158142,
      "reward_std": 0.6974443197250366,
      "rewards/_accuracy_reward": 0.3999999761581421,
      "rewards/_format_reward": 0.875,
      "step": 399
    },
    {
      "completion_length": 118.5,
      "epoch": 0.1,
      "grad_norm": 0.8786934018135071,
      "kl": 0.09915917366743088,
      "learning_rate": 5e-06,
      "loss": 0.004,
      "reward": 1.6875,
      "reward_std": 0.4381372928619385,
      "rewards/_accuracy_reward": 0.8125,
      "rewards/_format_reward": 0.875,
      "step": 400
    },
    {
      "completion_length": 77.625,
      "epoch": 0.10025,
      "grad_norm": 1.2590632438659668,
      "kl": 0.14523717761039734,
      "learning_rate": 4.999999048070624e-06,
      "loss": 0.0058,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 401
    },
    {
      "completion_length": 63.125,
      "epoch": 0.1005,
      "grad_norm": 1.158711314201355,
      "kl": 0.10946811735630035,
      "learning_rate": 4.99999619228322e-06,
      "loss": 0.0044,
      "reward": 1.625,
      "reward_std": 0.40089187026023865,
      "rewards/_accuracy_reward": 0.625,
      "rewards/_format_reward": 1.0,
      "step": 402
    },
    {
      "completion_length": 115.375,
      "epoch": 0.10075,
      "grad_norm": 1.5086749792099,
      "kl": 0.7569040656089783,
      "learning_rate": 4.999991432639962e-06,
      "loss": 0.0303,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 403
    },
    {
      "completion_length": 153.375,
      "epoch": 0.101,
      "grad_norm": 0.7452853322029114,
      "kl": 0.08908268809318542,
      "learning_rate": 4.999984769144476e-06,
      "loss": 0.0036,
      "reward": 1.2874999046325684,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.28749996423721313,
      "rewards/_format_reward": 1.0,
      "step": 404
    },
    {
      "completion_length": 83.75,
      "epoch": 0.10125,
      "grad_norm": 1.3645873069763184,
      "kl": 0.10320331156253815,
      "learning_rate": 4.999976201801837e-06,
      "loss": 0.0041,
      "reward": 1.125,
      "reward_std": 0.10350986570119858,
      "rewards/_accuracy_reward": 0.125,
      "rewards/_format_reward": 1.0,
      "step": 405
    },
    {
      "completion_length": 72.25,
      "epoch": 0.1015,
      "grad_norm": 1.1549677848815918,
      "kl": 0.09673086553812027,
      "learning_rate": 4.999965730618567e-06,
      "loss": 0.0039,
      "reward": 1.8125,
      "reward_std": 0.3471825420856476,
      "rewards/_accuracy_reward": 0.8125,
      "rewards/_format_reward": 1.0,
      "step": 406
    },
    {
      "completion_length": 96.125,
      "epoch": 0.10175,
      "grad_norm": 1.009154200553894,
      "kl": 0.1394815593957901,
      "learning_rate": 4.999953355602643e-06,
      "loss": 0.0056,
      "reward": 1.399999976158142,
      "reward_std": 0.4971346855163574,
      "rewards/_accuracy_reward": 0.5249999761581421,
      "rewards/_format_reward": 0.875,
      "step": 407
    },
    {
      "completion_length": 125.375,
      "epoch": 0.102,
      "grad_norm": 0.9860761165618896,
      "kl": 0.13221774995326996,
      "learning_rate": 4.999939076763487e-06,
      "loss": 0.0053,
      "reward": 1.149999976158142,
      "reward_std": 0.8220185041427612,
      "rewards/_accuracy_reward": 0.3999999761581421,
      "rewards/_format_reward": 0.75,
      "step": 408
    },
    {
      "completion_length": 60.375,
      "epoch": 0.10225,
      "grad_norm": 0.053071990609169006,
      "kl": 0.0779157504439354,
      "learning_rate": 4.999922894111975e-06,
      "loss": 0.0031,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 409
    },
    {
      "completion_length": 89.875,
      "epoch": 0.1025,
      "grad_norm": 0.9673873782157898,
      "kl": 0.08007065951824188,
      "learning_rate": 4.9999048076604286e-06,
      "loss": 0.0032,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 410
    },
    {
      "completion_length": 113.25,
      "epoch": 0.10275,
      "grad_norm": 0.6946626901626587,
      "kl": 0.09533973038196564,
      "learning_rate": 4.9998848174226225e-06,
      "loss": 0.0038,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 411
    },
    {
      "completion_length": 96.125,
      "epoch": 0.103,
      "grad_norm": 0.05451874062418938,
      "kl": 0.07452833652496338,
      "learning_rate": 4.999862923413781e-06,
      "loss": 0.003,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 412
    },
    {
      "completion_length": 72.0,
      "epoch": 0.10325,
      "grad_norm": 0.9213165044784546,
      "kl": 0.1262635439634323,
      "learning_rate": 4.999839125650576e-06,
      "loss": 0.0051,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 413
    },
    {
      "completion_length": 67.125,
      "epoch": 0.1035,
      "grad_norm": 1.0785224437713623,
      "kl": 0.0754222422838211,
      "learning_rate": 4.9998134241511305e-06,
      "loss": 0.003,
      "reward": 1.3125,
      "reward_std": 0.4299086928367615,
      "rewards/_accuracy_reward": 0.3125,
      "rewards/_format_reward": 1.0,
      "step": 414
    },
    {
      "completion_length": 157.125,
      "epoch": 0.10375,
      "grad_norm": 1.1292070150375366,
      "kl": 0.23137228190898895,
      "learning_rate": 4.999785818935018e-06,
      "loss": 0.0093,
      "reward": 1.7625000476837158,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.7625000476837158,
      "rewards/_format_reward": 1.0,
      "step": 415
    },
    {
      "completion_length": 142.25,
      "epoch": 0.104,
      "grad_norm": 0.8795533180236816,
      "kl": 0.10361534357070923,
      "learning_rate": 4.999756310023261e-06,
      "loss": 0.0041,
      "reward": 1.3125,
      "reward_std": 0.873723566532135,
      "rewards/_accuracy_reward": 0.5625,
      "rewards/_format_reward": 0.75,
      "step": 416
    },
    {
      "completion_length": 116.0,
      "epoch": 0.10425,
      "grad_norm": 0.8660876750946045,
      "kl": 0.06504642218351364,
      "learning_rate": 4.999724897438332e-06,
      "loss": 0.0026,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 417
    },
    {
      "completion_length": 76.125,
      "epoch": 0.1045,
      "grad_norm": 0.8043219447135925,
      "kl": 0.11721104383468628,
      "learning_rate": 4.9996915812041515e-06,
      "loss": 0.0047,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 418
    },
    {
      "completion_length": 134.5,
      "epoch": 0.10475,
      "grad_norm": 0.8124399185180664,
      "kl": 0.1422225832939148,
      "learning_rate": 4.999656361346094e-06,
      "loss": 0.0057,
      "reward": 1.2687499523162842,
      "reward_std": 0.87257319688797,
      "rewards/_accuracy_reward": 0.5187499523162842,
      "rewards/_format_reward": 0.75,
      "step": 419
    },
    {
      "completion_length": 113.125,
      "epoch": 0.105,
      "grad_norm": 0.2114391177892685,
      "kl": 0.1519714593887329,
      "learning_rate": 4.9996192378909785e-06,
      "loss": 0.0061,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 420
    },
    {
      "completion_length": 89.25,
      "epoch": 0.10525,
      "grad_norm": 0.5262160301208496,
      "kl": 0.061721399426460266,
      "learning_rate": 4.9995802108670775e-06,
      "loss": 0.0025,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 421
    },
    {
      "completion_length": 101.125,
      "epoch": 0.1055,
      "grad_norm": 0.956619918346405,
      "kl": 0.07579920440912247,
      "learning_rate": 4.999539280304111e-06,
      "loss": 0.003,
      "reward": 1.756250023841858,
      "reward_std": 0.45153507590293884,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 0.875,
      "step": 422
    },
    {
      "completion_length": 110.875,
      "epoch": 0.10575,
      "grad_norm": 1.250651478767395,
      "kl": 0.1732567399740219,
      "learning_rate": 4.999496446233249e-06,
      "loss": 0.0069,
      "reward": 1.568750023841858,
      "reward_std": 0.4689939618110657,
      "rewards/_accuracy_reward": 0.6937500238418579,
      "rewards/_format_reward": 0.875,
      "step": 423
    },
    {
      "completion_length": 121.5,
      "epoch": 0.106,
      "grad_norm": 0.8256289958953857,
      "kl": 0.1623517870903015,
      "learning_rate": 4.999451708687114e-06,
      "loss": 0.0065,
      "reward": 1.5625,
      "reward_std": 0.7165144085884094,
      "rewards/_accuracy_reward": 0.6875,
      "rewards/_format_reward": 0.875,
      "step": 424
    },
    {
      "completion_length": 83.125,
      "epoch": 0.10625,
      "grad_norm": 0.12795695662498474,
      "kl": 0.08748316764831543,
      "learning_rate": 4.999405067699773e-06,
      "loss": 0.0035,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 425
    },
    {
      "completion_length": 69.5,
      "epoch": 0.1065,
      "grad_norm": 1.4006377458572388,
      "kl": 0.09922429174184799,
      "learning_rate": 4.999356523306746e-06,
      "loss": 0.004,
      "reward": 1.2874999046325684,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.28749996423721313,
      "rewards/_format_reward": 1.0,
      "step": 426
    },
    {
      "completion_length": 68.375,
      "epoch": 0.10675,
      "grad_norm": 1.326810598373413,
      "kl": 0.10130297392606735,
      "learning_rate": 4.999306075545002e-06,
      "loss": 0.0041,
      "reward": 1.40625,
      "reward_std": 0.49167174100875854,
      "rewards/_accuracy_reward": 0.4062499701976776,
      "rewards/_format_reward": 1.0,
      "step": 427
    },
    {
      "completion_length": 106.75,
      "epoch": 0.107,
      "grad_norm": 1.5847952365875244,
      "kl": 0.14548355340957642,
      "learning_rate": 4.9992537244529585e-06,
      "loss": 0.0058,
      "reward": 1.53125,
      "reward_std": 0.8705242872238159,
      "rewards/_accuracy_reward": 0.78125,
      "rewards/_format_reward": 0.75,
      "step": 428
    },
    {
      "completion_length": 76.75,
      "epoch": 0.10725,
      "grad_norm": 1.0535387992858887,
      "kl": 0.08334135264158249,
      "learning_rate": 4.999199470070484e-06,
      "loss": 0.0033,
      "reward": 1.524999976158142,
      "reward_std": 0.5077964067459106,
      "rewards/_accuracy_reward": 0.5249999761581421,
      "rewards/_format_reward": 1.0,
      "step": 429
    },
    {
      "completion_length": 105.75,
      "epoch": 0.1075,
      "grad_norm": 0.04739993438124657,
      "kl": 0.05667338892817497,
      "learning_rate": 4.999143312438893e-06,
      "loss": 0.0023,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 430
    },
    {
      "completion_length": 97.375,
      "epoch": 0.10775,
      "grad_norm": 0.050007615238428116,
      "kl": 0.09176231920719147,
      "learning_rate": 4.9990852516009556e-06,
      "loss": 0.0037,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 431
    },
    {
      "completion_length": 68.5,
      "epoch": 0.108,
      "grad_norm": 1.226663589477539,
      "kl": 0.08610677719116211,
      "learning_rate": 4.999025287600886e-06,
      "loss": 0.0034,
      "reward": 1.318750023841858,
      "reward_std": 0.2840240001678467,
      "rewards/_accuracy_reward": 0.3187499940395355,
      "rewards/_format_reward": 1.0,
      "step": 432
    },
    {
      "completion_length": 135.125,
      "epoch": 0.10825,
      "grad_norm": 0.9774854183197021,
      "kl": 0.060582954436540604,
      "learning_rate": 4.998963420484349e-06,
      "loss": 0.0024,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 433
    },
    {
      "completion_length": 108.25,
      "epoch": 0.1085,
      "grad_norm": 0.0652063712477684,
      "kl": 0.0928327664732933,
      "learning_rate": 4.9988996502984604e-06,
      "loss": 0.0037,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 434
    },
    {
      "completion_length": 116.5,
      "epoch": 0.10875,
      "grad_norm": 0.066441610455513,
      "kl": 0.08606898039579391,
      "learning_rate": 4.998833977091783e-06,
      "loss": 0.0034,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 435
    },
    {
      "completion_length": 76.25,
      "epoch": 0.109,
      "grad_norm": 0.06395157426595688,
      "kl": 0.08062107861042023,
      "learning_rate": 4.998766400914329e-06,
      "loss": 0.0032,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 436
    },
    {
      "completion_length": 112.375,
      "epoch": 0.10925,
      "grad_norm": 0.9348214864730835,
      "kl": 0.11126627773046494,
      "learning_rate": 4.998696921817562e-06,
      "loss": 0.0045,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 437
    },
    {
      "completion_length": 98.5,
      "epoch": 0.1095,
      "grad_norm": 0.9661799669265747,
      "kl": 0.06792579591274261,
      "learning_rate": 4.998625539854394e-06,
      "loss": 0.0027,
      "reward": 1.5499999523162842,
      "reward_std": 0.4855041801929474,
      "rewards/_accuracy_reward": 0.5499999523162842,
      "rewards/_format_reward": 1.0,
      "step": 438
    },
    {
      "completion_length": 121.625,
      "epoch": 0.10975,
      "grad_norm": 0.9441984295845032,
      "kl": 0.06458202749490738,
      "learning_rate": 4.998552255079182e-06,
      "loss": 0.0026,
      "reward": 1.2874999046325684,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.2874999940395355,
      "rewards/_format_reward": 1.0,
      "step": 439
    },
    {
      "completion_length": 135.375,
      "epoch": 0.11,
      "grad_norm": 1.015769124031067,
      "kl": 0.05865727737545967,
      "learning_rate": 4.99847706754774e-06,
      "loss": 0.0023,
      "reward": 1.5625,
      "reward_std": 0.47715675830841064,
      "rewards/_accuracy_reward": 0.8125,
      "rewards/_format_reward": 0.75,
      "step": 440
    },
    {
      "completion_length": 156.25,
      "epoch": 0.11025,
      "grad_norm": 0.6271827220916748,
      "kl": 0.08216940611600876,
      "learning_rate": 4.998399977317323e-06,
      "loss": 0.0033,
      "reward": 1.5012500286102295,
      "reward_std": 0.42089828848838806,
      "rewards/_accuracy_reward": 0.5012500286102295,
      "rewards/_format_reward": 1.0,
      "step": 441
    },
    {
      "completion_length": 143.5,
      "epoch": 0.1105,
      "grad_norm": 0.7138703465461731,
      "kl": 0.09817658364772797,
      "learning_rate": 4.9983209844466404e-06,
      "loss": 0.0039,
      "reward": 1.7512500286102295,
      "reward_std": 0.7035712003707886,
      "rewards/_accuracy_reward": 0.8762500286102295,
      "rewards/_format_reward": 0.875,
      "step": 442
    },
    {
      "completion_length": 126.75,
      "epoch": 0.11075,
      "grad_norm": 0.5848399996757507,
      "kl": 0.06327465921640396,
      "learning_rate": 4.9982400889958494e-06,
      "loss": 0.0025,
      "reward": 1.631250023841858,
      "reward_std": 0.738210916519165,
      "rewards/_accuracy_reward": 0.7562500238418579,
      "rewards/_format_reward": 0.875,
      "step": 443
    },
    {
      "completion_length": 126.75,
      "epoch": 0.111,
      "grad_norm": 1.716501235961914,
      "kl": 0.430374413728714,
      "learning_rate": 4.998157291026553e-06,
      "loss": 0.0172,
      "reward": 1.5,
      "reward_std": 0.7559289336204529,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.625,
      "step": 444
    },
    {
      "completion_length": 97.375,
      "epoch": 0.11125,
      "grad_norm": 1.0113590955734253,
      "kl": 0.08199731260538101,
      "learning_rate": 4.998072590601808e-06,
      "loss": 0.0033,
      "reward": 1.40625,
      "reward_std": 0.49167174100875854,
      "rewards/_accuracy_reward": 0.4062499701976776,
      "rewards/_format_reward": 1.0,
      "step": 445
    },
    {
      "completion_length": 163.5,
      "epoch": 0.1115,
      "grad_norm": 0.5446489453315735,
      "kl": 0.08332154899835587,
      "learning_rate": 4.9979859877861155e-06,
      "loss": 0.0033,
      "reward": 1.65625,
      "reward_std": 0.7188470363616943,
      "rewards/_accuracy_reward": 0.78125,
      "rewards/_format_reward": 0.875,
      "step": 446
    },
    {
      "completion_length": 105.25,
      "epoch": 0.11175,
      "grad_norm": 0.846171498298645,
      "kl": 0.08622215688228607,
      "learning_rate": 4.997897482645428e-06,
      "loss": 0.0034,
      "reward": 1.4249999523162842,
      "reward_std": 0.481812059879303,
      "rewards/_accuracy_reward": 0.5499999523162842,
      "rewards/_format_reward": 0.875,
      "step": 447
    },
    {
      "completion_length": 116.25,
      "epoch": 0.112,
      "grad_norm": 0.7110444903373718,
      "kl": 0.05666430667042732,
      "learning_rate": 4.997807075247147e-06,
      "loss": 0.0023,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 448
    },
    {
      "completion_length": 92.125,
      "epoch": 0.11225,
      "grad_norm": 1.340246558189392,
      "kl": 0.09173227101564407,
      "learning_rate": 4.9977147656601196e-06,
      "loss": 0.0037,
      "reward": 1.5187499523162842,
      "reward_std": 0.514738142490387,
      "rewards/_accuracy_reward": 0.6437499523162842,
      "rewards/_format_reward": 0.875,
      "step": 449
    },
    {
      "completion_length": 92.25,
      "epoch": 0.1125,
      "grad_norm": 1.8258260488510132,
      "kl": 0.14632035791873932,
      "learning_rate": 4.997620553954645e-06,
      "loss": 0.0059,
      "reward": 1.475000023841858,
      "reward_std": 0.6419835090637207,
      "rewards/_accuracy_reward": 0.6000000238418579,
      "rewards/_format_reward": 0.875,
      "step": 450
    },
    {
      "completion_length": 172.625,
      "epoch": 0.11275,
      "grad_norm": 0.7036133408546448,
      "kl": 0.07693489640951157,
      "learning_rate": 4.997524440202469e-06,
      "loss": 0.0031,
      "reward": 1.375,
      "reward_std": 0.9161254167556763,
      "rewards/_accuracy_reward": 0.75,
      "rewards/_format_reward": 0.625,
      "step": 451
    },
    {
      "completion_length": 168.0,
      "epoch": 0.113,
      "grad_norm": 0.6177405118942261,
      "kl": 0.08349208533763885,
      "learning_rate": 4.997426424476787e-06,
      "loss": 0.0033,
      "reward": 1.2949999570846558,
      "reward_std": 0.6939947009086609,
      "rewards/_accuracy_reward": 0.41999998688697815,
      "rewards/_format_reward": 0.875,
      "step": 452
    },
    {
      "completion_length": 161.25,
      "epoch": 0.11325,
      "grad_norm": 0.7319234013557434,
      "kl": 0.1011638194322586,
      "learning_rate": 4.997326506852242e-06,
      "loss": 0.004,
      "reward": 1.28125,
      "reward_std": 0.9949650168418884,
      "rewards/_accuracy_reward": 0.65625,
      "rewards/_format_reward": 0.625,
      "step": 453
    },
    {
      "completion_length": 143.25,
      "epoch": 0.1135,
      "grad_norm": 0.7980057597160339,
      "kl": 0.08353295922279358,
      "learning_rate": 4.9972246874049254e-06,
      "loss": 0.0033,
      "reward": 1.53125,
      "reward_std": 0.7372426986694336,
      "rewards/_accuracy_reward": 0.78125,
      "rewards/_format_reward": 0.75,
      "step": 454
    },
    {
      "completion_length": 138.125,
      "epoch": 0.11375,
      "grad_norm": 0.7856406569480896,
      "kl": 0.09998480975627899,
      "learning_rate": 4.9971209662123774e-06,
      "loss": 0.004,
      "reward": 1.78125,
      "reward_std": 0.41052013635635376,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 0.875,
      "step": 455
    },
    {
      "completion_length": 143.75,
      "epoch": 0.114,
      "grad_norm": 0.48554107546806335,
      "kl": 0.05186166986823082,
      "learning_rate": 4.9970153433535855e-06,
      "loss": 0.0021,
      "reward": 1.5625,
      "reward_std": 0.7165144085884094,
      "rewards/_accuracy_reward": 0.6875,
      "rewards/_format_reward": 0.875,
      "step": 456
    },
    {
      "completion_length": 79.625,
      "epoch": 0.11425,
      "grad_norm": 0.03818913921713829,
      "kl": 0.07487285137176514,
      "learning_rate": 4.996907818908987e-06,
      "loss": 0.003,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 457
    },
    {
      "completion_length": 117.75,
      "epoch": 0.1145,
      "grad_norm": 0.8235962390899658,
      "kl": 0.0846768468618393,
      "learning_rate": 4.996798392960466e-06,
      "loss": 0.0034,
      "reward": 1.53125,
      "reward_std": 0.8705242872238159,
      "rewards/_accuracy_reward": 0.78125,
      "rewards/_format_reward": 0.75,
      "step": 458
    },
    {
      "completion_length": 204.0,
      "epoch": 0.11475,
      "grad_norm": 0.5379483103752136,
      "kl": 0.09781916439533234,
      "learning_rate": 4.996687065591355e-06,
      "loss": 0.0039,
      "reward": 1.2937500476837158,
      "reward_std": 0.6945900321006775,
      "rewards/_accuracy_reward": 0.543749988079071,
      "rewards/_format_reward": 0.75,
      "step": 459
    },
    {
      "completion_length": 136.75,
      "epoch": 0.115,
      "grad_norm": 0.7759735584259033,
      "kl": 0.0745742917060852,
      "learning_rate": 4.9965738368864345e-06,
      "loss": 0.003,
      "reward": 1.568750023841858,
      "reward_std": 0.6589697003364563,
      "rewards/_accuracy_reward": 0.6937500238418579,
      "rewards/_format_reward": 0.875,
      "step": 460
    },
    {
      "completion_length": 87.0,
      "epoch": 0.11525,
      "grad_norm": 1.2910523414611816,
      "kl": 0.07611493766307831,
      "learning_rate": 4.996458706931935e-06,
      "loss": 0.003,
      "reward": 1.8125,
      "reward_std": 0.3471825420856476,
      "rewards/_accuracy_reward": 0.8125,
      "rewards/_format_reward": 1.0,
      "step": 461
    },
    {
      "completion_length": 133.375,
      "epoch": 0.1155,
      "grad_norm": 0.7070830464363098,
      "kl": 0.10267248749732971,
      "learning_rate": 4.99634167581553e-06,
      "loss": 0.0041,
      "reward": 1.6875,
      "reward_std": 0.6373774409294128,
      "rewards/_accuracy_reward": 0.8125,
      "rewards/_format_reward": 0.875,
      "step": 462
    },
    {
      "completion_length": 107.625,
      "epoch": 0.11575,
      "grad_norm": 0.16717670857906342,
      "kl": 0.13669300079345703,
      "learning_rate": 4.996222743626346e-06,
      "loss": 0.0055,
      "reward": 1.25,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 0.25,
      "rewards/_format_reward": 1.0,
      "step": 463
    },
    {
      "completion_length": 74.125,
      "epoch": 0.116,
      "grad_norm": 1.4139927625656128,
      "kl": 0.1574665755033493,
      "learning_rate": 4.996101910454953e-06,
      "loss": 0.0063,
      "reward": 1.34375,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.34375,
      "rewards/_format_reward": 1.0,
      "step": 464
    },
    {
      "completion_length": 151.375,
      "epoch": 0.11625,
      "grad_norm": 0.7854687571525574,
      "kl": 0.10802503675222397,
      "learning_rate": 4.995979176393372e-06,
      "loss": 0.0043,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 0.875,
      "step": 465
    },
    {
      "completion_length": 136.75,
      "epoch": 0.1165,
      "grad_norm": 0.6209039688110352,
      "kl": 0.1174168810248375,
      "learning_rate": 4.995854541535072e-06,
      "loss": 0.0047,
      "reward": 1.568750023841858,
      "reward_std": 0.7009878158569336,
      "rewards/_accuracy_reward": 0.6937500238418579,
      "rewards/_format_reward": 0.875,
      "step": 466
    },
    {
      "completion_length": 147.25,
      "epoch": 0.11675,
      "grad_norm": 0.5902235507965088,
      "kl": 0.10785003006458282,
      "learning_rate": 4.995728005974964e-06,
      "loss": 0.0043,
      "reward": 1.15625,
      "reward_std": 0.6343936920166016,
      "rewards/_accuracy_reward": 0.2812499701976776,
      "rewards/_format_reward": 0.875,
      "step": 467
    },
    {
      "completion_length": 133.375,
      "epoch": 0.117,
      "grad_norm": 0.8462874889373779,
      "kl": 0.2404460906982422,
      "learning_rate": 4.995599569809414e-06,
      "loss": 0.0096,
      "reward": 1.274999976158142,
      "reward_std": 0.6974443197250366,
      "rewards/_accuracy_reward": 0.3999999761581421,
      "rewards/_format_reward": 0.875,
      "step": 468
    },
    {
      "completion_length": 131.125,
      "epoch": 0.11725,
      "grad_norm": 0.5348749756813049,
      "kl": 0.0859207808971405,
      "learning_rate": 4.9954692331362295e-06,
      "loss": 0.0034,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 469
    },
    {
      "completion_length": 141.25,
      "epoch": 0.1175,
      "grad_norm": 0.6675086617469788,
      "kl": 0.21905027329921722,
      "learning_rate": 4.995336996054668e-06,
      "loss": 0.0088,
      "reward": 1.78125,
      "reward_std": 0.6187184453010559,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 0.875,
      "step": 470
    },
    {
      "completion_length": 135.25,
      "epoch": 0.11775,
      "grad_norm": 0.5653254985809326,
      "kl": 0.1933996081352234,
      "learning_rate": 4.995202858665434e-06,
      "loss": 0.0077,
      "reward": 1.631250023841858,
      "reward_std": 0.738210916519165,
      "rewards/_accuracy_reward": 0.7562500238418579,
      "rewards/_format_reward": 0.875,
      "step": 471
    },
    {
      "completion_length": 155.875,
      "epoch": 0.118,
      "grad_norm": 0.1728929877281189,
      "kl": 0.16971825063228607,
      "learning_rate": 4.9950668210706795e-06,
      "loss": 0.0068,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 472
    },
    {
      "completion_length": 130.5,
      "epoch": 0.11825,
      "grad_norm": 0.8266690969467163,
      "kl": 0.0714937224984169,
      "learning_rate": 4.9949288833740016e-06,
      "loss": 0.0029,
      "reward": 1.3312499523162842,
      "reward_std": 0.671319305896759,
      "rewards/_accuracy_reward": 0.45624998211860657,
      "rewards/_format_reward": 0.875,
      "step": 473
    },
    {
      "completion_length": 111.125,
      "epoch": 0.1185,
      "grad_norm": 0.8442752957344055,
      "kl": 0.10157648473978043,
      "learning_rate": 4.994789045680448e-06,
      "loss": 0.0041,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 474
    },
    {
      "completion_length": 121.0,
      "epoch": 0.11875,
      "grad_norm": 0.6787703037261963,
      "kl": 0.0763428583741188,
      "learning_rate": 4.994647308096509e-06,
      "loss": 0.0031,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 0.875,
      "step": 475
    },
    {
      "completion_length": 163.375,
      "epoch": 0.119,
      "grad_norm": 0.028817906975746155,
      "kl": 0.04729737713932991,
      "learning_rate": 4.994503670730126e-06,
      "loss": 0.0019,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 476
    },
    {
      "completion_length": 121.5,
      "epoch": 0.11925,
      "grad_norm": 0.6946129202842712,
      "kl": 0.20381557941436768,
      "learning_rate": 4.994358133690683e-06,
      "loss": 0.0082,
      "reward": 1.3250000476837158,
      "reward_std": 0.6850443482398987,
      "rewards/_accuracy_reward": 0.44999998807907104,
      "rewards/_format_reward": 0.875,
      "step": 477
    },
    {
      "completion_length": 115.5,
      "epoch": 0.1195,
      "grad_norm": 16.712684631347656,
      "kl": 0.10329899191856384,
      "learning_rate": 4.9942106970890136e-06,
      "loss": 0.0041,
      "reward": 1.443750023841858,
      "reward_std": 0.7123590111732483,
      "rewards/_accuracy_reward": 0.5687500238418579,
      "rewards/_format_reward": 0.875,
      "step": 478
    },
    {
      "completion_length": 112.375,
      "epoch": 0.11975,
      "grad_norm": 0.08893012255430222,
      "kl": 0.07471595704555511,
      "learning_rate": 4.9940613610373974e-06,
      "loss": 0.003,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 479
    },
    {
      "completion_length": 161.625,
      "epoch": 0.12,
      "grad_norm": 0.5868445038795471,
      "kl": 0.08950529247522354,
      "learning_rate": 4.993910125649561e-06,
      "loss": 0.0036,
      "reward": 1.5,
      "reward_std": 0.9258201122283936,
      "rewards/_accuracy_reward": 0.75,
      "rewards/_format_reward": 0.75,
      "step": 480
    },
    {
      "completion_length": 141.625,
      "epoch": 0.12025,
      "grad_norm": 0.5067136883735657,
      "kl": 0.11062958091497421,
      "learning_rate": 4.993756991040676e-06,
      "loss": 0.0044,
      "reward": 1.40625,
      "reward_std": 0.9057110548019409,
      "rewards/_accuracy_reward": 0.65625,
      "rewards/_format_reward": 0.75,
      "step": 481
    },
    {
      "completion_length": 114.125,
      "epoch": 0.1205,
      "grad_norm": 0.1355297863483429,
      "kl": 0.15943318605422974,
      "learning_rate": 4.993601957327361e-06,
      "loss": 0.0064,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 482
    },
    {
      "completion_length": 163.0,
      "epoch": 0.12075,
      "grad_norm": 1.0221439599990845,
      "kl": 0.14336055517196655,
      "learning_rate": 4.99344502462768e-06,
      "loss": 0.0057,
      "reward": 1.131250023841858,
      "reward_std": 0.9902876615524292,
      "rewards/_accuracy_reward": 0.5062500238418579,
      "rewards/_format_reward": 0.625,
      "step": 483
    },
    {
      "completion_length": 182.375,
      "epoch": 0.121,
      "grad_norm": 0.9383127689361572,
      "kl": 0.12501807510852814,
      "learning_rate": 4.993286193061145e-06,
      "loss": 0.005,
      "reward": 1.375,
      "reward_std": 0.9161254167556763,
      "rewards/_accuracy_reward": 0.75,
      "rewards/_format_reward": 0.625,
      "step": 484
    },
    {
      "completion_length": 150.25,
      "epoch": 0.12125,
      "grad_norm": 1.1651649475097656,
      "kl": 0.10007007420063019,
      "learning_rate": 4.993125462748714e-06,
      "loss": 0.004,
      "reward": 1.625,
      "reward_std": 0.7440237998962402,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.75,
      "step": 485
    },
    {
      "completion_length": 108.0,
      "epoch": 0.1215,
      "grad_norm": 0.028756048530340195,
      "kl": 0.06177728250622749,
      "learning_rate": 4.9929628338127904e-06,
      "loss": 0.0025,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 486
    },
    {
      "completion_length": 85.0,
      "epoch": 0.12175,
      "grad_norm": 0.8098493814468384,
      "kl": 0.1391671895980835,
      "learning_rate": 4.9927983063772205e-06,
      "loss": 0.0056,
      "reward": 1.318750023841858,
      "reward_std": 0.28402402997016907,
      "rewards/_accuracy_reward": 0.3187499940395355,
      "rewards/_format_reward": 1.0,
      "step": 487
    },
    {
      "completion_length": 120.125,
      "epoch": 0.122,
      "grad_norm": 1.6718604564666748,
      "kl": 0.07330606877803802,
      "learning_rate": 4.992631880567301e-06,
      "loss": 0.0029,
      "reward": 1.537500023841858,
      "reward_std": 0.7322909235954285,
      "rewards/_accuracy_reward": 0.6625000238418579,
      "rewards/_format_reward": 0.875,
      "step": 488
    },
    {
      "completion_length": 136.375,
      "epoch": 0.12225,
      "grad_norm": 0.7673369646072388,
      "kl": 0.10325151681900024,
      "learning_rate": 4.992463556509772e-06,
      "loss": 0.0041,
      "reward": 1.65625,
      "reward_std": 0.7188470363616943,
      "rewards/_accuracy_reward": 0.78125,
      "rewards/_format_reward": 0.875,
      "step": 489
    },
    {
      "completion_length": 142.375,
      "epoch": 0.1225,
      "grad_norm": 1.1908446550369263,
      "kl": 0.1146053820848465,
      "learning_rate": 4.992293334332821e-06,
      "loss": 0.0046,
      "reward": 1.3875000476837158,
      "reward_std": 0.3879893124103546,
      "rewards/_accuracy_reward": 0.38749998807907104,
      "rewards/_format_reward": 1.0,
      "step": 490
    },
    {
      "completion_length": 78.625,
      "epoch": 0.12275,
      "grad_norm": 1.0218267440795898,
      "kl": 0.20096728205680847,
      "learning_rate": 4.992121214166077e-06,
      "loss": 0.008,
      "reward": 1.5499999523162842,
      "reward_std": 0.4855042099952698,
      "rewards/_accuracy_reward": 0.5499999523162842,
      "rewards/_format_reward": 1.0,
      "step": 491
    },
    {
      "completion_length": 115.125,
      "epoch": 0.123,
      "grad_norm": 0.7811625003814697,
      "kl": 0.07716540992259979,
      "learning_rate": 4.991947196140619e-06,
      "loss": 0.0031,
      "reward": 1.1687499284744263,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.16875000298023224,
      "rewards/_format_reward": 1.0,
      "step": 492
    },
    {
      "completion_length": 176.375,
      "epoch": 0.12325,
      "grad_norm": 0.835605800151825,
      "kl": 0.18739749491214752,
      "learning_rate": 4.991771280388967e-06,
      "loss": 0.0075,
      "reward": 1.3937499523162842,
      "reward_std": 0.7336004972457886,
      "rewards/_accuracy_reward": 0.5187499523162842,
      "rewards/_format_reward": 0.875,
      "step": 493
    },
    {
      "completion_length": 117.625,
      "epoch": 0.1235,
      "grad_norm": 0.06079603359103203,
      "kl": 0.06408681720495224,
      "learning_rate": 4.991593467045092e-06,
      "loss": 0.0026,
      "reward": 1.0499999523162842,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 0.05000000074505806,
      "rewards/_format_reward": 1.0,
      "step": 494
    },
    {
      "completion_length": 96.5,
      "epoch": 0.12375,
      "grad_norm": 0.0451425276696682,
      "kl": 0.05102433264255524,
      "learning_rate": 4.991413756244404e-06,
      "loss": 0.002,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 495
    },
    {
      "completion_length": 109.5,
      "epoch": 0.124,
      "grad_norm": 0.8194900751113892,
      "kl": 0.12500625848770142,
      "learning_rate": 4.9912321481237616e-06,
      "loss": 0.005,
      "reward": 1.78125,
      "reward_std": 0.41052013635635376,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 0.875,
      "step": 496
    },
    {
      "completion_length": 106.875,
      "epoch": 0.12425,
      "grad_norm": 0.21397340297698975,
      "kl": 0.1683153510093689,
      "learning_rate": 4.991048642821466e-06,
      "loss": 0.0067,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 497
    },
    {
      "completion_length": 122.375,
      "epoch": 0.1245,
      "grad_norm": 1.4960228204727173,
      "kl": 0.11880878359079361,
      "learning_rate": 4.990863240477266e-06,
      "loss": 0.0048,
      "reward": 1.5187499523162842,
      "reward_std": 0.514738142490387,
      "rewards/_accuracy_reward": 0.6437499523162842,
      "rewards/_format_reward": 0.875,
      "step": 498
    },
    {
      "completion_length": 150.125,
      "epoch": 0.12475,
      "grad_norm": 0.8118491768836975,
      "kl": 0.15849874913692474,
      "learning_rate": 4.990675941232353e-06,
      "loss": 0.0063,
      "reward": 0.9437499046325684,
      "reward_std": 0.38770151138305664,
      "rewards/_accuracy_reward": 0.06875000149011612,
      "rewards/_format_reward": 0.875,
      "step": 499
    },
    {
      "completion_length": 136.75,
      "epoch": 0.125,
      "grad_norm": 0.6899111866950989,
      "kl": 0.1458391398191452,
      "learning_rate": 4.990486745229364e-06,
      "loss": 0.0058,
      "reward": 1.8762500286102295,
      "reward_std": 0.35001784563064575,
      "rewards/_accuracy_reward": 0.8762500286102295,
      "rewards/_format_reward": 1.0,
      "step": 500
    },
    {
      "completion_length": 160.75,
      "epoch": 0.12525,
      "grad_norm": 0.6339772939682007,
      "kl": 0.16045698523521423,
      "learning_rate": 4.990295652612379e-06,
      "loss": 0.0064,
      "reward": 1.5,
      "reward_std": 0.9258201122283936,
      "rewards/_accuracy_reward": 0.75,
      "rewards/_format_reward": 0.75,
      "step": 501
    },
    {
      "completion_length": 113.375,
      "epoch": 0.1255,
      "grad_norm": 0.7603309154510498,
      "kl": 0.10802485048770905,
      "learning_rate": 4.990102663526925e-06,
      "loss": 0.0043,
      "reward": 1.21875,
      "reward_std": 0.4712729752063751,
      "rewards/_accuracy_reward": 0.34375,
      "rewards/_format_reward": 0.875,
      "step": 502
    },
    {
      "completion_length": 121.0,
      "epoch": 0.12575,
      "grad_norm": 0.5087311267852783,
      "kl": 0.08297999203205109,
      "learning_rate": 4.989907778119969e-06,
      "loss": 0.0033,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 503
    },
    {
      "completion_length": 164.375,
      "epoch": 0.126,
      "grad_norm": 0.7062379121780396,
      "kl": 0.16635379195213318,
      "learning_rate": 4.989710996539926e-06,
      "loss": 0.0067,
      "reward": 1.40625,
      "reward_std": 0.7311622500419617,
      "rewards/_accuracy_reward": 0.78125,
      "rewards/_format_reward": 0.625,
      "step": 504
    },
    {
      "completion_length": 126.25,
      "epoch": 0.12625,
      "grad_norm": 0.9284823536872864,
      "kl": 0.07494886219501495,
      "learning_rate": 4.989512318936654e-06,
      "loss": 0.003,
      "reward": 1.78125,
      "reward_std": 0.41052013635635376,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 0.875,
      "step": 505
    },
    {
      "completion_length": 161.375,
      "epoch": 0.1265,
      "grad_norm": 0.6040777564048767,
      "kl": 0.14252394437789917,
      "learning_rate": 4.989311745461456e-06,
      "loss": 0.0057,
      "reward": 1.65625,
      "reward_std": 0.7188470363616943,
      "rewards/_accuracy_reward": 0.78125,
      "rewards/_format_reward": 0.875,
      "step": 506
    },
    {
      "completion_length": 130.25,
      "epoch": 0.12675,
      "grad_norm": 0.06497879326343536,
      "kl": 0.06290639191865921,
      "learning_rate": 4.989109276267074e-06,
      "loss": 0.0025,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 507
    },
    {
      "completion_length": 135.875,
      "epoch": 0.127,
      "grad_norm": 0.672325074672699,
      "kl": 0.05711538344621658,
      "learning_rate": 4.9889049115077e-06,
      "loss": 0.0023,
      "reward": 1.46875,
      "reward_std": 0.6999680995941162,
      "rewards/_accuracy_reward": 0.59375,
      "rewards/_format_reward": 0.875,
      "step": 508
    },
    {
      "completion_length": 184.875,
      "epoch": 0.12725,
      "grad_norm": 0.994357705116272,
      "kl": 0.13488022983074188,
      "learning_rate": 4.988698651338965e-06,
      "loss": 0.0054,
      "reward": 1.125,
      "reward_std": 0.9910312294960022,
      "rewards/_accuracy_reward": 0.625,
      "rewards/_format_reward": 0.5,
      "step": 509
    },
    {
      "completion_length": 155.75,
      "epoch": 0.1275,
      "grad_norm": 0.030594639480113983,
      "kl": 0.06842894107103348,
      "learning_rate": 4.988490495917948e-06,
      "loss": 0.0027,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 510
    },
    {
      "completion_length": 163.25,
      "epoch": 0.12775,
      "grad_norm": 0.887022852897644,
      "kl": 0.19011199474334717,
      "learning_rate": 4.988280445403164e-06,
      "loss": 0.0076,
      "reward": 1.53125,
      "reward_std": 0.7372426986694336,
      "rewards/_accuracy_reward": 0.78125,
      "rewards/_format_reward": 0.75,
      "step": 511
    },
    {
      "completion_length": 150.5,
      "epoch": 0.128,
      "grad_norm": 0.8398552536964417,
      "kl": 0.154772087931633,
      "learning_rate": 4.988068499954578e-06,
      "loss": 0.0062,
      "reward": 1.65625,
      "reward_std": 0.7188470363616943,
      "rewards/_accuracy_reward": 0.78125,
      "rewards/_format_reward": 0.875,
      "step": 512
    },
    {
      "completion_length": 143.0,
      "epoch": 0.12825,
      "grad_norm": 0.8649221062660217,
      "kl": 0.07180348038673401,
      "learning_rate": 4.987854659733597e-06,
      "loss": 0.0029,
      "reward": 1.625,
      "reward_std": 0.40089187026023865,
      "rewards/_accuracy_reward": 0.625,
      "rewards/_format_reward": 1.0,
      "step": 513
    },
    {
      "completion_length": 183.75,
      "epoch": 0.1285,
      "grad_norm": 0.36669495701789856,
      "kl": 0.0827406495809555,
      "learning_rate": 4.987638924903066e-06,
      "loss": 0.0033,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 514
    },
    {
      "completion_length": 133.875,
      "epoch": 0.12875,
      "grad_norm": 0.7541155219078064,
      "kl": 0.09912529587745667,
      "learning_rate": 4.987421295627279e-06,
      "loss": 0.004,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 0.875,
      "step": 515
    },
    {
      "completion_length": 126.125,
      "epoch": 0.129,
      "grad_norm": 1.4548908472061157,
      "kl": 0.16541288793087006,
      "learning_rate": 4.987201772071971e-06,
      "loss": 0.0066,
      "reward": 1.787500023841858,
      "reward_std": 0.39708760380744934,
      "rewards/_accuracy_reward": 0.7875000238418579,
      "rewards/_format_reward": 1.0,
      "step": 516
    },
    {
      "completion_length": 124.375,
      "epoch": 0.12925,
      "grad_norm": 0.8262905478477478,
      "kl": 0.21291877329349518,
      "learning_rate": 4.986980354404316e-06,
      "loss": 0.0085,
      "reward": 1.15625,
      "reward_std": 0.6343936920166016,
      "rewards/_accuracy_reward": 0.2812499701976776,
      "rewards/_format_reward": 0.875,
      "step": 517
    },
    {
      "completion_length": 94.625,
      "epoch": 0.1295,
      "grad_norm": 1.0423915386199951,
      "kl": 0.10086517781019211,
      "learning_rate": 4.9867570427929356e-06,
      "loss": 0.004,
      "reward": 1.693750023841858,
      "reward_std": 0.42714792490005493,
      "rewards/_accuracy_reward": 0.6937500238418579,
      "rewards/_format_reward": 1.0,
      "step": 518
    },
    {
      "completion_length": 137.125,
      "epoch": 0.12975,
      "grad_norm": 0.5806828141212463,
      "kl": 0.1275208294391632,
      "learning_rate": 4.986531837407891e-06,
      "loss": 0.0051,
      "reward": 1.625,
      "reward_std": 0.7440237998962402,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.75,
      "step": 519
    },
    {
      "completion_length": 115.5,
      "epoch": 0.13,
      "grad_norm": 1.0486258268356323,
      "kl": 0.2358919382095337,
      "learning_rate": 4.986304738420684e-06,
      "loss": 0.0094,
      "reward": 1.5125000476837158,
      "reward_std": 0.7467787861824036,
      "rewards/_accuracy_reward": 0.637499988079071,
      "rewards/_format_reward": 0.875,
      "step": 520
    },
    {
      "completion_length": 102.75,
      "epoch": 0.13025,
      "grad_norm": 0.8502905368804932,
      "kl": 0.11098451167345047,
      "learning_rate": 4.986075746004262e-06,
      "loss": 0.0044,
      "reward": 1.53125,
      "reward_std": 0.38816189765930176,
      "rewards/_accuracy_reward": 0.53125,
      "rewards/_format_reward": 1.0,
      "step": 521
    },
    {
      "completion_length": 123.0,
      "epoch": 0.1305,
      "grad_norm": 0.04550248757004738,
      "kl": 0.10682176798582077,
      "learning_rate": 4.985844860333012e-06,
      "loss": 0.0043,
      "reward": 1.0499999523162842,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 0.05000000074505806,
      "rewards/_format_reward": 1.0,
      "step": 522
    },
    {
      "completion_length": 158.0,
      "epoch": 0.13075,
      "grad_norm": 0.6766717433929443,
      "kl": 0.04881787300109863,
      "learning_rate": 4.985612081582763e-06,
      "loss": 0.002,
      "reward": 0.9187499284744263,
      "reward_std": 0.3712310194969177,
      "rewards/_accuracy_reward": 0.04375000298023224,
      "rewards/_format_reward": 0.875,
      "step": 523
    },
    {
      "completion_length": 189.25,
      "epoch": 0.131,
      "grad_norm": 0.7428447604179382,
      "kl": 0.1956254243850708,
      "learning_rate": 4.985377409930789e-06,
      "loss": 0.0078,
      "reward": 1.5,
      "reward_std": 0.9258201122283936,
      "rewards/_accuracy_reward": 0.75,
      "rewards/_format_reward": 0.75,
      "step": 524
    },
    {
      "completion_length": 97.25,
      "epoch": 0.13125,
      "grad_norm": 0.7122312784194946,
      "kl": 0.08156180381774902,
      "learning_rate": 4.985140845555799e-06,
      "loss": 0.0033,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 0.875,
      "step": 525
    },
    {
      "completion_length": 187.75,
      "epoch": 0.1315,
      "grad_norm": 0.7845567464828491,
      "kl": 0.1910717934370041,
      "learning_rate": 4.98490238863795e-06,
      "loss": 0.0076,
      "reward": 1.0325000286102295,
      "reward_std": 0.9299885034561157,
      "rewards/_accuracy_reward": 0.4074999988079071,
      "rewards/_format_reward": 0.625,
      "step": 526
    },
    {
      "completion_length": 183.0,
      "epoch": 0.13175,
      "grad_norm": 0.7677600979804993,
      "kl": 0.17733940482139587,
      "learning_rate": 4.984662039358835e-06,
      "loss": 0.0071,
      "reward": 1.40625,
      "reward_std": 0.9057110548019409,
      "rewards/_accuracy_reward": 0.65625,
      "rewards/_format_reward": 0.75,
      "step": 527
    },
    {
      "completion_length": 142.375,
      "epoch": 0.132,
      "grad_norm": 0.6115749478340149,
      "kl": 0.21568211913108826,
      "learning_rate": 4.984419797901491e-06,
      "loss": 0.0086,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 528
    },
    {
      "completion_length": 104.75,
      "epoch": 0.13225,
      "grad_norm": 0.6236662268638611,
      "kl": 0.09865246713161469,
      "learning_rate": 4.9841756644503965e-06,
      "loss": 0.0039,
      "reward": 1.0374999046325684,
      "reward_std": 0.5350233316421509,
      "rewards/_accuracy_reward": 0.16250000894069672,
      "rewards/_format_reward": 0.875,
      "step": 529
    },
    {
      "completion_length": 85.75,
      "epoch": 0.1325,
      "grad_norm": 1.077025294303894,
      "kl": 0.11589670181274414,
      "learning_rate": 4.9839296391914696e-06,
      "loss": 0.0046,
      "reward": 1.190000057220459,
      "reward_std": 0.11109840869903564,
      "rewards/_accuracy_reward": 0.1899999976158142,
      "rewards/_format_reward": 1.0,
      "step": 530
    },
    {
      "completion_length": 125.125,
      "epoch": 0.13275,
      "grad_norm": 0.9445363283157349,
      "kl": 0.12175693362951279,
      "learning_rate": 4.983681722312068e-06,
      "loss": 0.0049,
      "reward": 1.3250000476837158,
      "reward_std": 0.6850443482398987,
      "rewards/_accuracy_reward": 0.44999998807907104,
      "rewards/_format_reward": 0.875,
      "step": 531
    },
    {
      "completion_length": 148.875,
      "epoch": 0.133,
      "grad_norm": 0.7169702053070068,
      "kl": 0.0948939323425293,
      "learning_rate": 4.983431914000991e-06,
      "loss": 0.0038,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 532
    },
    {
      "completion_length": 131.625,
      "epoch": 0.13325,
      "grad_norm": 0.7590733766555786,
      "kl": 0.08492686599493027,
      "learning_rate": 4.983180214448481e-06,
      "loss": 0.0034,
      "reward": 1.625,
      "reward_std": 0.7440237998962402,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.75,
      "step": 533
    },
    {
      "completion_length": 120.375,
      "epoch": 0.1335,
      "grad_norm": 0.895210325717926,
      "kl": 0.12446754425764084,
      "learning_rate": 4.982926623846216e-06,
      "loss": 0.005,
      "reward": 1.7625000476837158,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.7625000476837158,
      "rewards/_format_reward": 1.0,
      "step": 534
    },
    {
      "completion_length": 85.25,
      "epoch": 0.13375,
      "grad_norm": 1.56959068775177,
      "kl": 0.09629300981760025,
      "learning_rate": 4.982671142387316e-06,
      "loss": 0.0039,
      "reward": 1.34375,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.34375,
      "rewards/_format_reward": 1.0,
      "step": 535
    },
    {
      "completion_length": 105.75,
      "epoch": 0.134,
      "grad_norm": 1.4607653617858887,
      "kl": 0.20348867774009705,
      "learning_rate": 4.9824137702663424e-06,
      "loss": 0.0081,
      "reward": 1.5950000286102295,
      "reward_std": 0.4400324523448944,
      "rewards/_accuracy_reward": 0.5950000286102295,
      "rewards/_format_reward": 1.0,
      "step": 536
    },
    {
      "completion_length": 100.375,
      "epoch": 0.13425,
      "grad_norm": 0.8848427534103394,
      "kl": 0.21129947900772095,
      "learning_rate": 4.982154507679296e-06,
      "loss": 0.0085,
      "reward": 1.2062499523162842,
      "reward_std": 0.6315725445747375,
      "rewards/_accuracy_reward": 0.33125001192092896,
      "rewards/_format_reward": 0.875,
      "step": 537
    },
    {
      "completion_length": 166.875,
      "epoch": 0.1345,
      "grad_norm": 1.3390650749206543,
      "kl": 0.2360527515411377,
      "learning_rate": 4.981893354823614e-06,
      "loss": 0.0094,
      "reward": 1.193750023841858,
      "reward_std": 0.8304204940795898,
      "rewards/_accuracy_reward": 0.4437499940395355,
      "rewards/_format_reward": 0.75,
      "step": 538
    },
    {
      "completion_length": 165.5,
      "epoch": 0.13475,
      "grad_norm": 0.8016129732131958,
      "kl": 0.16088564693927765,
      "learning_rate": 4.981630311898178e-06,
      "loss": 0.0064,
      "reward": 1.149999976158142,
      "reward_std": 0.6358346939086914,
      "rewards/_accuracy_reward": 0.3999999761581421,
      "rewards/_format_reward": 0.75,
      "step": 539
    },
    {
      "completion_length": 131.625,
      "epoch": 0.135,
      "grad_norm": 1.0546795129776,
      "kl": 0.13393646478652954,
      "learning_rate": 4.981365379103306e-06,
      "loss": 0.0054,
      "reward": 1.78125,
      "reward_std": 0.41052013635635376,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 0.875,
      "step": 540
    },
    {
      "completion_length": 82.0,
      "epoch": 0.13525,
      "grad_norm": 0.7583869695663452,
      "kl": 0.15737389028072357,
      "learning_rate": 4.981098556640754e-06,
      "loss": 0.0063,
      "reward": 1.0749999284744263,
      "reward_std": 0.0707106813788414,
      "rewards/_accuracy_reward": 0.07500000298023224,
      "rewards/_format_reward": 1.0,
      "step": 541
    },
    {
      "completion_length": 77.375,
      "epoch": 0.1355,
      "grad_norm": 1.210227370262146,
      "kl": 0.14557315409183502,
      "learning_rate": 4.980829844713722e-06,
      "loss": 0.0058,
      "reward": 1.71875,
      "reward_std": 0.38816189765930176,
      "rewards/_accuracy_reward": 0.71875,
      "rewards/_format_reward": 1.0,
      "step": 542
    },
    {
      "completion_length": 117.125,
      "epoch": 0.13575,
      "grad_norm": 0.8977431654930115,
      "kl": 0.10112278908491135,
      "learning_rate": 4.980559243526844e-06,
      "loss": 0.004,
      "reward": 1.7625000476837158,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.762499988079071,
      "rewards/_format_reward": 1.0,
      "step": 543
    },
    {
      "completion_length": 110.375,
      "epoch": 0.136,
      "grad_norm": 0.9589873552322388,
      "kl": 0.23000037670135498,
      "learning_rate": 4.980286753286196e-06,
      "loss": 0.0092,
      "reward": 1.65625,
      "reward_std": 0.7188470363616943,
      "rewards/_accuracy_reward": 0.78125,
      "rewards/_format_reward": 0.875,
      "step": 544
    },
    {
      "completion_length": 136.5,
      "epoch": 0.13625,
      "grad_norm": 1.4247018098831177,
      "kl": 0.224748432636261,
      "learning_rate": 4.980012374199288e-06,
      "loss": 0.009,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 545
    },
    {
      "completion_length": 109.0,
      "epoch": 0.1365,
      "grad_norm": 0.8289728760719299,
      "kl": 0.1731492429971695,
      "learning_rate": 4.979736106475075e-06,
      "loss": 0.0069,
      "reward": 1.2874999046325684,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.28749996423721313,
      "rewards/_format_reward": 1.0,
      "step": 546
    },
    {
      "completion_length": 161.375,
      "epoch": 0.13675,
      "grad_norm": 0.7212539911270142,
      "kl": 0.1648021787405014,
      "learning_rate": 4.979457950323945e-06,
      "loss": 0.0066,
      "reward": 1.28125,
      "reward_std": 0.44395744800567627,
      "rewards/_accuracy_reward": 0.4062499701976776,
      "rewards/_format_reward": 0.875,
      "step": 547
    },
    {
      "completion_length": 133.25,
      "epoch": 0.137,
      "grad_norm": 2.3475310802459717,
      "kl": 0.3754054307937622,
      "learning_rate": 4.979177905957726e-06,
      "loss": 0.015,
      "reward": 0.78125,
      "reward_std": 0.7100993394851685,
      "rewards/_accuracy_reward": 0.1562499850988388,
      "rewards/_format_reward": 0.625,
      "step": 548
    },
    {
      "completion_length": 162.25,
      "epoch": 0.13725,
      "grad_norm": 0.7575663328170776,
      "kl": 0.1953345090150833,
      "learning_rate": 4.978895973589686e-06,
      "loss": 0.0078,
      "reward": 1.5,
      "reward_std": 0.9258201122283936,
      "rewards/_accuracy_reward": 0.75,
      "rewards/_format_reward": 0.75,
      "step": 549
    },
    {
      "completion_length": 175.0,
      "epoch": 0.1375,
      "grad_norm": 2.3825697898864746,
      "kl": 0.20287609100341797,
      "learning_rate": 4.978612153434527e-06,
      "loss": 0.0081,
      "reward": 1.1687500476837158,
      "reward_std": 0.8314949870109558,
      "rewards/_accuracy_reward": 0.41874998807907104,
      "rewards/_format_reward": 0.75,
      "step": 550
    },
    {
      "completion_length": 82.75,
      "epoch": 0.13775,
      "grad_norm": 1.088090419769287,
      "kl": 0.24210913479328156,
      "learning_rate": 4.97832644570839e-06,
      "loss": 0.0097,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 551
    },
    {
      "completion_length": 182.625,
      "epoch": 0.138,
      "grad_norm": 0.5995256304740906,
      "kl": 0.1471828818321228,
      "learning_rate": 4.978038850628855e-06,
      "loss": 0.0059,
      "reward": 1.25,
      "reward_std": 1.0350983142852783,
      "rewards/_accuracy_reward": 0.625,
      "rewards/_format_reward": 0.625,
      "step": 552
    },
    {
      "completion_length": 112.5,
      "epoch": 0.13825,
      "grad_norm": 0.835372805595398,
      "kl": 0.12362098693847656,
      "learning_rate": 4.977749368414938e-06,
      "loss": 0.0049,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 0.875,
      "step": 553
    },
    {
      "completion_length": 102.625,
      "epoch": 0.1385,
      "grad_norm": 0.08654724806547165,
      "kl": 0.16423742473125458,
      "learning_rate": 4.977457999287091e-06,
      "loss": 0.0066,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 554
    },
    {
      "completion_length": 175.125,
      "epoch": 0.13875,
      "grad_norm": 0.7749510407447815,
      "kl": 0.2203240692615509,
      "learning_rate": 4.977164743467206e-06,
      "loss": 0.0088,
      "reward": 1.375,
      "reward_std": 0.9161254167556763,
      "rewards/_accuracy_reward": 0.75,
      "rewards/_format_reward": 0.625,
      "step": 555
    },
    {
      "completion_length": 117.625,
      "epoch": 0.139,
      "grad_norm": 1.410696268081665,
      "kl": 0.2296142429113388,
      "learning_rate": 4.9768696011786095e-06,
      "loss": 0.0092,
      "reward": 1.787500023841858,
      "reward_std": 0.39708763360977173,
      "rewards/_accuracy_reward": 0.7875000238418579,
      "rewards/_format_reward": 1.0,
      "step": 556
    },
    {
      "completion_length": 157.625,
      "epoch": 0.13925,
      "grad_norm": 0.8265271186828613,
      "kl": 0.2630419433116913,
      "learning_rate": 4.976572572646064e-06,
      "loss": 0.0105,
      "reward": 1.5625,
      "reward_std": 0.7165144085884094,
      "rewards/_accuracy_reward": 0.6875,
      "rewards/_format_reward": 0.875,
      "step": 557
    },
    {
      "completion_length": 122.875,
      "epoch": 0.1395,
      "grad_norm": 0.7778673768043518,
      "kl": 0.22738924622535706,
      "learning_rate": 4.976273658095772e-06,
      "loss": 0.0091,
      "reward": 1.506250023841858,
      "reward_std": 0.7513975501060486,
      "rewards/_accuracy_reward": 0.7562500238418579,
      "rewards/_format_reward": 0.75,
      "step": 558
    },
    {
      "completion_length": 88.5,
      "epoch": 0.13975,
      "grad_norm": 0.042239658534526825,
      "kl": 0.07109732180833817,
      "learning_rate": 4.975972857755369e-06,
      "loss": 0.0028,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 559
    },
    {
      "completion_length": 87.125,
      "epoch": 0.14,
      "grad_norm": 1.4101208448410034,
      "kl": 0.22331476211547852,
      "learning_rate": 4.975670171853926e-06,
      "loss": 0.0089,
      "reward": 1.78125,
      "reward_std": 0.6187184453010559,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 0.875,
      "step": 560
    },
    {
      "completion_length": 88.625,
      "epoch": 0.14025,
      "grad_norm": 0.799018383026123,
      "kl": 0.09630677103996277,
      "learning_rate": 4.975365600621953e-06,
      "loss": 0.0039,
      "reward": 1.1687499284744263,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.16875000298023224,
      "rewards/_format_reward": 1.0,
      "step": 561
    },
    {
      "completion_length": 185.0,
      "epoch": 0.1405,
      "grad_norm": 0.6921383738517761,
      "kl": 0.14386911690235138,
      "learning_rate": 4.975059144291395e-06,
      "loss": 0.0058,
      "reward": 1.1875,
      "reward_std": 0.5724321603775024,
      "rewards/_accuracy_reward": 0.3125,
      "rewards/_format_reward": 0.875,
      "step": 562
    },
    {
      "completion_length": 141.375,
      "epoch": 0.14075,
      "grad_norm": 0.7761791944503784,
      "kl": 0.1153935045003891,
      "learning_rate": 4.974750803095629e-06,
      "loss": 0.0046,
      "reward": 1.524999976158142,
      "reward_std": 0.5077964067459106,
      "rewards/_accuracy_reward": 0.5249999761581421,
      "rewards/_format_reward": 1.0,
      "step": 563
    },
    {
      "completion_length": 120.25,
      "epoch": 0.141,
      "grad_norm": 0.2582365572452545,
      "kl": 0.17987042665481567,
      "learning_rate": 4.974440577269473e-06,
      "loss": 0.0072,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 564
    },
    {
      "completion_length": 142.0,
      "epoch": 0.14125,
      "grad_norm": 1.3962867259979248,
      "kl": 0.17358022928237915,
      "learning_rate": 4.974128467049177e-06,
      "loss": 0.0069,
      "reward": 1.625,
      "reward_std": 0.7440237998962402,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.75,
      "step": 565
    },
    {
      "completion_length": 140.5,
      "epoch": 0.1415,
      "grad_norm": 0.7365003824234009,
      "kl": 0.09812232851982117,
      "learning_rate": 4.973814472672424e-06,
      "loss": 0.0039,
      "reward": 1.625,
      "reward_std": 0.7440237998962402,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.75,
      "step": 566
    },
    {
      "completion_length": 137.375,
      "epoch": 0.14175,
      "grad_norm": 0.8879725337028503,
      "kl": 0.2860892415046692,
      "learning_rate": 4.973498594378338e-06,
      "loss": 0.0114,
      "reward": 1.399999976158142,
      "reward_std": 0.4971346855163574,
      "rewards/_accuracy_reward": 0.5249999761581421,
      "rewards/_format_reward": 0.875,
      "step": 567
    },
    {
      "completion_length": 99.125,
      "epoch": 0.142,
      "grad_norm": 0.7891566157341003,
      "kl": 0.12184718996286392,
      "learning_rate": 4.973180832407471e-06,
      "loss": 0.0049,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 568
    },
    {
      "completion_length": 81.25,
      "epoch": 0.14225,
      "grad_norm": 0.03716867417097092,
      "kl": 0.054770611226558685,
      "learning_rate": 4.972861187001815e-06,
      "loss": 0.0022,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 569
    },
    {
      "completion_length": 128.125,
      "epoch": 0.1425,
      "grad_norm": 1.0409587621688843,
      "kl": 0.14994631707668304,
      "learning_rate": 4.972539658404793e-06,
      "loss": 0.006,
      "reward": 1.8762500286102295,
      "reward_std": 0.35001784563064575,
      "rewards/_accuracy_reward": 0.8762500286102295,
      "rewards/_format_reward": 1.0,
      "step": 570
    },
    {
      "completion_length": 149.125,
      "epoch": 0.14275,
      "grad_norm": 0.9049003720283508,
      "kl": 0.0754564180970192,
      "learning_rate": 4.9722162468612625e-06,
      "loss": 0.003,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 571
    },
    {
      "completion_length": 171.25,
      "epoch": 0.143,
      "grad_norm": 0.8585514426231384,
      "kl": 0.0837872251868248,
      "learning_rate": 4.971890952617515e-06,
      "loss": 0.0034,
      "reward": 1.3762500286102295,
      "reward_std": 0.915547251701355,
      "rewards/_accuracy_reward": 0.6262500286102295,
      "rewards/_format_reward": 0.75,
      "step": 572
    },
    {
      "completion_length": 81.625,
      "epoch": 0.14325,
      "grad_norm": 1.177064061164856,
      "kl": 0.10382416099309921,
      "learning_rate": 4.9715637759212775e-06,
      "loss": 0.0042,
      "reward": 1.8762500286102295,
      "reward_std": 0.35001784563064575,
      "rewards/_accuracy_reward": 0.8762500286102295,
      "rewards/_format_reward": 1.0,
      "step": 573
    },
    {
      "completion_length": 143.875,
      "epoch": 0.1435,
      "grad_norm": 1.1178721189498901,
      "kl": 0.17203757166862488,
      "learning_rate": 4.971234717021709e-06,
      "loss": 0.0069,
      "reward": 1.40625,
      "reward_std": 0.9057110548019409,
      "rewards/_accuracy_reward": 0.65625,
      "rewards/_format_reward": 0.75,
      "step": 574
    },
    {
      "completion_length": 149.625,
      "epoch": 0.14375,
      "grad_norm": 0.05728991702198982,
      "kl": 0.07802347093820572,
      "learning_rate": 4.970903776169403e-06,
      "loss": 0.0031,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 575
    },
    {
      "completion_length": 104.125,
      "epoch": 0.144,
      "grad_norm": 0.9672228097915649,
      "kl": 0.12484028190374374,
      "learning_rate": 4.970570953616383e-06,
      "loss": 0.005,
      "reward": 1.4562499523162842,
      "reward_std": 0.45781898498535156,
      "rewards/_accuracy_reward": 0.45624998211860657,
      "rewards/_format_reward": 1.0,
      "step": 576
    },
    {
      "completion_length": 136.625,
      "epoch": 0.14425,
      "grad_norm": 1.2664356231689453,
      "kl": 0.21360184252262115,
      "learning_rate": 4.970236249616109e-06,
      "loss": 0.0085,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 577
    },
    {
      "completion_length": 144.75,
      "epoch": 0.1445,
      "grad_norm": 1.266003966331482,
      "kl": 0.10478426516056061,
      "learning_rate": 4.969899664423473e-06,
      "loss": 0.0042,
      "reward": 1.631250023841858,
      "reward_std": 0.738210916519165,
      "rewards/_accuracy_reward": 0.7562500238418579,
      "rewards/_format_reward": 0.875,
      "step": 578
    },
    {
      "completion_length": 145.625,
      "epoch": 0.14475,
      "grad_norm": 0.06886684149503708,
      "kl": 0.08477036654949188,
      "learning_rate": 4.9695611982947995e-06,
      "loss": 0.0034,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 579
    },
    {
      "completion_length": 109.0,
      "epoch": 0.145,
      "grad_norm": 0.047261860221624374,
      "kl": 0.08284247666597366,
      "learning_rate": 4.9692208514878445e-06,
      "loss": 0.0033,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 580
    },
    {
      "completion_length": 134.875,
      "epoch": 0.14525,
      "grad_norm": 1.4606877565383911,
      "kl": 0.4996589720249176,
      "learning_rate": 4.968878624261798e-06,
      "loss": 0.02,
      "reward": 1.7512500286102295,
      "reward_std": 0.460603266954422,
      "rewards/_accuracy_reward": 0.8762500286102295,
      "rewards/_format_reward": 0.875,
      "step": 581
    },
    {
      "completion_length": 89.0,
      "epoch": 0.1455,
      "grad_norm": 1.950114369392395,
      "kl": 0.1971653401851654,
      "learning_rate": 4.968534516877279e-06,
      "loss": 0.0079,
      "reward": 1.8125,
      "reward_std": 0.3471825420856476,
      "rewards/_accuracy_reward": 0.8125,
      "rewards/_format_reward": 1.0,
      "step": 582
    },
    {
      "completion_length": 84.625,
      "epoch": 0.14575,
      "grad_norm": 2.8406033515930176,
      "kl": 0.4174186885356903,
      "learning_rate": 4.968188529596342e-06,
      "loss": 0.0167,
      "reward": 1.34375,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.34375,
      "rewards/_format_reward": 1.0,
      "step": 583
    },
    {
      "completion_length": 147.75,
      "epoch": 0.146,
      "grad_norm": 0.6163609623908997,
      "kl": 0.10596763342618942,
      "learning_rate": 4.96784066268247e-06,
      "loss": 0.0042,
      "reward": 1.1937499046325684,
      "reward_std": 0.33320683240890503,
      "rewards/_accuracy_reward": 0.19374999403953552,
      "rewards/_format_reward": 1.0,
      "step": 584
    },
    {
      "completion_length": 151.875,
      "epoch": 0.14625,
      "grad_norm": 0.24944590032100677,
      "kl": 0.09916547685861588,
      "learning_rate": 4.9674909164005805e-06,
      "loss": 0.004,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 585
    },
    {
      "completion_length": 97.25,
      "epoch": 0.1465,
      "grad_norm": 0.6661841869354248,
      "kl": 0.05971316248178482,
      "learning_rate": 4.967139291017018e-06,
      "loss": 0.0024,
      "reward": 1.71875,
      "reward_std": 0.38816189765930176,
      "rewards/_accuracy_reward": 0.71875,
      "rewards/_format_reward": 1.0,
      "step": 586
    },
    {
      "completion_length": 177.75,
      "epoch": 0.14675,
      "grad_norm": 1.3881531953811646,
      "kl": 0.18598943948745728,
      "learning_rate": 4.966785786799564e-06,
      "loss": 0.0074,
      "reward": 1.6375000476837158,
      "reward_std": 0.5005354285240173,
      "rewards/_accuracy_reward": 0.7625000476837158,
      "rewards/_format_reward": 0.875,
      "step": 587
    },
    {
      "completion_length": 99.375,
      "epoch": 0.147,
      "grad_norm": 0.04929376021027565,
      "kl": 0.08404329419136047,
      "learning_rate": 4.966430404017424e-06,
      "loss": 0.0034,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 588
    },
    {
      "completion_length": 128.125,
      "epoch": 0.14725,
      "grad_norm": 0.5995571613311768,
      "kl": 0.07869472354650497,
      "learning_rate": 4.966073142941239e-06,
      "loss": 0.0031,
      "reward": 1.787500023841858,
      "reward_std": 0.39708763360977173,
      "rewards/_accuracy_reward": 0.7875000238418579,
      "rewards/_format_reward": 1.0,
      "step": 589
    },
    {
      "completion_length": 123.875,
      "epoch": 0.1475,
      "grad_norm": 0.7187158465385437,
      "kl": 0.11943908035755157,
      "learning_rate": 4.965714003843079e-06,
      "loss": 0.0048,
      "reward": 1.625,
      "reward_std": 0.7440237998962402,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.75,
      "step": 590
    },
    {
      "completion_length": 142.875,
      "epoch": 0.14775,
      "grad_norm": 0.6760448217391968,
      "kl": 0.06530044227838516,
      "learning_rate": 4.965352986996443e-06,
      "loss": 0.0026,
      "reward": 1.65625,
      "reward_std": 0.48065245151519775,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 0.75,
      "step": 591
    },
    {
      "completion_length": 110.125,
      "epoch": 0.148,
      "grad_norm": 0.5969019532203674,
      "kl": 0.11454600095748901,
      "learning_rate": 4.964990092676263e-06,
      "loss": 0.0046,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 592
    },
    {
      "completion_length": 156.25,
      "epoch": 0.14825,
      "grad_norm": 0.6029123663902283,
      "kl": 0.06257858872413635,
      "learning_rate": 4.964625321158897e-06,
      "loss": 0.0025,
      "reward": 1.5,
      "reward_std": 0.4225771427154541,
      "rewards/_accuracy_reward": 0.625,
      "rewards/_format_reward": 0.875,
      "step": 593
    },
    {
      "completion_length": 165.875,
      "epoch": 0.1485,
      "grad_norm": 0.6441696882247925,
      "kl": 0.0646340623497963,
      "learning_rate": 4.964258672722135e-06,
      "loss": 0.0026,
      "reward": 1.3825000524520874,
      "reward_std": 0.7398986220359802,
      "rewards/_accuracy_reward": 0.6325000524520874,
      "rewards/_format_reward": 0.75,
      "step": 594
    },
    {
      "completion_length": 129.125,
      "epoch": 0.14875,
      "grad_norm": 0.026783820241689682,
      "kl": 0.057939767837524414,
      "learning_rate": 4.963890147645195e-06,
      "loss": 0.0023,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 595
    },
    {
      "completion_length": 108.0,
      "epoch": 0.149,
      "grad_norm": 1.9925416707992554,
      "kl": 0.1760830134153366,
      "learning_rate": 4.963519746208726e-06,
      "loss": 0.007,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 0.875,
      "step": 596
    },
    {
      "completion_length": 166.25,
      "epoch": 0.14925,
      "grad_norm": 1.065826416015625,
      "kl": 0.05945620313286781,
      "learning_rate": 4.963147468694804e-06,
      "loss": 0.0024,
      "reward": 0.9437500238418579,
      "reward_std": 0.8537470102310181,
      "rewards/_accuracy_reward": 0.3187499940395355,
      "rewards/_format_reward": 0.625,
      "step": 597
    },
    {
      "completion_length": 154.25,
      "epoch": 0.1495,
      "grad_norm": 0.8419215679168701,
      "kl": 0.270252525806427,
      "learning_rate": 4.962773315386935e-06,
      "loss": 0.0108,
      "reward": 1.506250023841858,
      "reward_std": 0.7513974905014038,
      "rewards/_accuracy_reward": 0.7562500238418579,
      "rewards/_format_reward": 0.75,
      "step": 598
    },
    {
      "completion_length": 103.625,
      "epoch": 0.14975,
      "grad_norm": 0.9585555195808411,
      "kl": 0.12021496146917343,
      "learning_rate": 4.962397286570053e-06,
      "loss": 0.0048,
      "reward": 1.506250023841858,
      "reward_std": 0.4144165813922882,
      "rewards/_accuracy_reward": 0.5062500238418579,
      "rewards/_format_reward": 1.0,
      "step": 599
    },
    {
      "completion_length": 206.625,
      "epoch": 0.15,
      "grad_norm": 0.8529797792434692,
      "kl": 0.1137736588716507,
      "learning_rate": 4.962019382530521e-06,
      "loss": 0.0046,
      "reward": 0.7749999761581421,
      "reward_std": 0.7176349759101868,
      "rewards/_accuracy_reward": 0.14999999105930328,
      "rewards/_format_reward": 0.625,
      "step": 600
    },
    {
      "completion_length": 134.0,
      "epoch": 0.15025,
      "grad_norm": 0.17384187877178192,
      "kl": 0.08758542686700821,
      "learning_rate": 4.961639603556128e-06,
      "loss": 0.0035,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 601
    },
    {
      "completion_length": 135.75,
      "epoch": 0.1505,
      "grad_norm": 1.2760076522827148,
      "kl": 0.09961305558681488,
      "learning_rate": 4.961257949936092e-06,
      "loss": 0.004,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 602
    },
    {
      "completion_length": 163.75,
      "epoch": 0.15075,
      "grad_norm": 0.5337422490119934,
      "kl": 0.06328251212835312,
      "learning_rate": 4.96087442196106e-06,
      "loss": 0.0025,
      "reward": 1.65625,
      "reward_std": 0.7188470363616943,
      "rewards/_accuracy_reward": 0.78125,
      "rewards/_format_reward": 0.875,
      "step": 603
    },
    {
      "completion_length": 141.375,
      "epoch": 0.151,
      "grad_norm": 1.2539782524108887,
      "kl": 0.12791743874549866,
      "learning_rate": 4.960489019923105e-06,
      "loss": 0.0051,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 604
    },
    {
      "completion_length": 172.875,
      "epoch": 0.15125,
      "grad_norm": 0.6172487139701843,
      "kl": 0.07650119066238403,
      "learning_rate": 4.960101744115727e-06,
      "loss": 0.0031,
      "reward": 1.381250023841858,
      "reward_std": 0.9133679866790771,
      "rewards/_accuracy_reward": 0.6312500238418579,
      "rewards/_format_reward": 0.75,
      "step": 605
    },
    {
      "completion_length": 178.0,
      "epoch": 0.1515,
      "grad_norm": 0.5221604108810425,
      "kl": 0.04332815483212471,
      "learning_rate": 4.959712594833855e-06,
      "loss": 0.0017,
      "reward": 1.5750000476837158,
      "reward_std": 0.4605897068977356,
      "rewards/_accuracy_reward": 0.574999988079071,
      "rewards/_format_reward": 1.0,
      "step": 606
    },
    {
      "completion_length": 192.25,
      "epoch": 0.15175,
      "grad_norm": 0.47417011857032776,
      "kl": 0.05454748496413231,
      "learning_rate": 4.9593215723738405e-06,
      "loss": 0.0022,
      "reward": 1.0749999284744263,
      "reward_std": 0.0707106813788414,
      "rewards/_accuracy_reward": 0.07500000298023224,
      "rewards/_format_reward": 1.0,
      "step": 607
    },
    {
      "completion_length": 151.75,
      "epoch": 0.152,
      "grad_norm": 0.7074270844459534,
      "kl": 0.06145765259861946,
      "learning_rate": 4.958928677033465e-06,
      "loss": 0.0025,
      "reward": 1.5499999523162842,
      "reward_std": 0.4855041801929474,
      "rewards/_accuracy_reward": 0.5499999523162842,
      "rewards/_format_reward": 1.0,
      "step": 608
    },
    {
      "completion_length": 92.625,
      "epoch": 0.15225,
      "grad_norm": 1.0133639574050903,
      "kl": 0.0878884345293045,
      "learning_rate": 4.958533909111936e-06,
      "loss": 0.0035,
      "reward": 1.5499999523162842,
      "reward_std": 0.4855041801929474,
      "rewards/_accuracy_reward": 0.5499999523162842,
      "rewards/_format_reward": 1.0,
      "step": 609
    },
    {
      "completion_length": 140.75,
      "epoch": 0.1525,
      "grad_norm": 0.5950965881347656,
      "kl": 0.050494369119405746,
      "learning_rate": 4.958137268909887e-06,
      "loss": 0.002,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 610
    },
    {
      "completion_length": 121.75,
      "epoch": 0.15275,
      "grad_norm": 0.8706890344619751,
      "kl": 0.07878470420837402,
      "learning_rate": 4.957738756729375e-06,
      "loss": 0.0032,
      "reward": 1.431249976158142,
      "reward_std": 0.47579821944236755,
      "rewards/_accuracy_reward": 0.4312500059604645,
      "rewards/_format_reward": 1.0,
      "step": 611
    },
    {
      "completion_length": 181.25,
      "epoch": 0.153,
      "grad_norm": 0.4814571738243103,
      "kl": 0.05293947085738182,
      "learning_rate": 4.957338372873886e-06,
      "loss": 0.0021,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 612
    },
    {
      "completion_length": 148.0,
      "epoch": 0.15325,
      "grad_norm": 0.7898260354995728,
      "kl": 0.11220979690551758,
      "learning_rate": 4.956936117648329e-06,
      "loss": 0.0045,
      "reward": 1.65625,
      "reward_std": 0.7188470363616943,
      "rewards/_accuracy_reward": 0.78125,
      "rewards/_format_reward": 0.875,
      "step": 613
    },
    {
      "completion_length": 96.875,
      "epoch": 0.1535,
      "grad_norm": 0.7721397876739502,
      "kl": 0.09208115190267563,
      "learning_rate": 4.956531991359038e-06,
      "loss": 0.0037,
      "reward": 1.59375,
      "reward_std": 0.4419417381286621,
      "rewards/_accuracy_reward": 0.71875,
      "rewards/_format_reward": 0.875,
      "step": 614
    },
    {
      "completion_length": 99.625,
      "epoch": 0.15375,
      "grad_norm": 0.953384518623352,
      "kl": 0.07794458419084549,
      "learning_rate": 4.956125994313775e-06,
      "loss": 0.0031,
      "reward": 1.53125,
      "reward_std": 0.38816189765930176,
      "rewards/_accuracy_reward": 0.53125,
      "rewards/_format_reward": 1.0,
      "step": 615
    },
    {
      "completion_length": 140.25,
      "epoch": 0.154,
      "grad_norm": 0.5639375448226929,
      "kl": 0.09136466681957245,
      "learning_rate": 4.9557181268217225e-06,
      "loss": 0.0037,
      "reward": 1.631250023841858,
      "reward_std": 0.738210916519165,
      "rewards/_accuracy_reward": 0.7562500238418579,
      "rewards/_format_reward": 0.875,
      "step": 616
    },
    {
      "completion_length": 159.125,
      "epoch": 0.15425,
      "grad_norm": 0.9821755290031433,
      "kl": 0.08807244896888733,
      "learning_rate": 4.955308389193489e-06,
      "loss": 0.0035,
      "reward": 1.431249976158142,
      "reward_std": 0.47579824924468994,
      "rewards/_accuracy_reward": 0.4312499761581421,
      "rewards/_format_reward": 1.0,
      "step": 617
    },
    {
      "completion_length": 127.875,
      "epoch": 0.1545,
      "grad_norm": 0.900895357131958,
      "kl": 0.08849354833364487,
      "learning_rate": 4.95489678174111e-06,
      "loss": 0.0035,
      "reward": 1.6875,
      "reward_std": 0.4381372928619385,
      "rewards/_accuracy_reward": 0.8125,
      "rewards/_format_reward": 0.875,
      "step": 618
    },
    {
      "completion_length": 122.875,
      "epoch": 0.15475,
      "grad_norm": 0.10602176189422607,
      "kl": 0.11338386684656143,
      "learning_rate": 4.95448330477804e-06,
      "loss": 0.0045,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 619
    },
    {
      "completion_length": 157.625,
      "epoch": 0.155,
      "grad_norm": 0.620640218257904,
      "kl": 0.0592242069542408,
      "learning_rate": 4.9540679586191605e-06,
      "loss": 0.0024,
      "reward": 1.6687500476837158,
      "reward_std": 0.4613160789012909,
      "rewards/_accuracy_reward": 0.668749988079071,
      "rewards/_format_reward": 1.0,
      "step": 620
    },
    {
      "completion_length": 166.0,
      "epoch": 0.15525,
      "grad_norm": 0.20956626534461975,
      "kl": 0.13530687987804413,
      "learning_rate": 4.953650743580776e-06,
      "loss": 0.0054,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 621
    },
    {
      "completion_length": 140.5,
      "epoch": 0.1555,
      "grad_norm": 0.506284236907959,
      "kl": 0.07134924829006195,
      "learning_rate": 4.953231659980613e-06,
      "loss": 0.0029,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 622
    },
    {
      "completion_length": 155.125,
      "epoch": 0.15575,
      "grad_norm": 1.0659793615341187,
      "kl": 0.09406277537345886,
      "learning_rate": 4.952810708137824e-06,
      "loss": 0.0038,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 0.875,
      "step": 623
    },
    {
      "completion_length": 134.625,
      "epoch": 0.156,
      "grad_norm": 0.7838442921638489,
      "kl": 0.0715455636382103,
      "learning_rate": 4.9523878883729794e-06,
      "loss": 0.0029,
      "reward": 1.18874990940094,
      "reward_std": 0.3359607756137848,
      "rewards/_accuracy_reward": 0.1887499988079071,
      "rewards/_format_reward": 1.0,
      "step": 624
    },
    {
      "completion_length": 111.0,
      "epoch": 0.15625,
      "grad_norm": 0.03516482189297676,
      "kl": 0.05203777924180031,
      "learning_rate": 4.9519632010080765e-06,
      "loss": 0.0021,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 625
    },
    {
      "completion_length": 116.0,
      "epoch": 0.1565,
      "grad_norm": 1.0075751543045044,
      "kl": 0.12949231266975403,
      "learning_rate": 4.9515366463665324e-06,
      "loss": 0.0052,
      "reward": 1.21875,
      "reward_std": 0.8284828662872314,
      "rewards/_accuracy_reward": 0.46875,
      "rewards/_format_reward": 0.75,
      "step": 626
    },
    {
      "completion_length": 163.25,
      "epoch": 0.15675,
      "grad_norm": 0.7406784296035767,
      "kl": 0.08424215018749237,
      "learning_rate": 4.951108224773189e-06,
      "loss": 0.0034,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 627
    },
    {
      "completion_length": 149.625,
      "epoch": 0.157,
      "grad_norm": 0.7964242100715637,
      "kl": 0.10702201724052429,
      "learning_rate": 4.9506779365543054e-06,
      "loss": 0.0043,
      "reward": 1.5199999809265137,
      "reward_std": 0.5133086442947388,
      "rewards/_accuracy_reward": 0.5199999809265137,
      "rewards/_format_reward": 1.0,
      "step": 628
    },
    {
      "completion_length": 160.75,
      "epoch": 0.15725,
      "grad_norm": 0.8447659611701965,
      "kl": 0.11376137286424637,
      "learning_rate": 4.950245782037566e-06,
      "loss": 0.0046,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 629
    },
    {
      "completion_length": 140.375,
      "epoch": 0.1575,
      "grad_norm": 0.713877260684967,
      "kl": 0.06790605187416077,
      "learning_rate": 4.949811761552074e-06,
      "loss": 0.0027,
      "reward": 1.6437499523162842,
      "reward_std": 0.49167174100875854,
      "rewards/_accuracy_reward": 0.6437499523162842,
      "rewards/_format_reward": 1.0,
      "step": 630
    },
    {
      "completion_length": 128.875,
      "epoch": 0.15775,
      "grad_norm": 0.8207094669342041,
      "kl": 0.0979921892285347,
      "learning_rate": 4.9493758754283575e-06,
      "loss": 0.0039,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 631
    },
    {
      "completion_length": 117.875,
      "epoch": 0.158,
      "grad_norm": 1.2843239307403564,
      "kl": 0.11575803905725479,
      "learning_rate": 4.94893812399836e-06,
      "loss": 0.0046,
      "reward": 1.399999976158142,
      "reward_std": 0.720119059085846,
      "rewards/_accuracy_reward": 0.5249999761581421,
      "rewards/_format_reward": 0.875,
      "step": 632
    },
    {
      "completion_length": 130.625,
      "epoch": 0.15825,
      "grad_norm": 0.7998097538948059,
      "kl": 0.10970651358366013,
      "learning_rate": 4.9484985075954505e-06,
      "loss": 0.0044,
      "reward": 1.6262500286102295,
      "reward_std": 0.7428312301635742,
      "rewards/_accuracy_reward": 0.7512500286102295,
      "rewards/_format_reward": 0.875,
      "step": 633
    },
    {
      "completion_length": 86.875,
      "epoch": 0.1585,
      "grad_norm": 0.2539229393005371,
      "kl": 0.0996176227927208,
      "learning_rate": 4.948057026554415e-06,
      "loss": 0.004,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 634
    },
    {
      "completion_length": 79.375,
      "epoch": 0.15875,
      "grad_norm": 0.9077969789505005,
      "kl": 0.09100610762834549,
      "learning_rate": 4.94761368121146e-06,
      "loss": 0.0036,
      "reward": 1.8125,
      "reward_std": 0.3471825420856476,
      "rewards/_accuracy_reward": 0.8125,
      "rewards/_format_reward": 1.0,
      "step": 635
    },
    {
      "completion_length": 78.75,
      "epoch": 0.159,
      "grad_norm": 0.9096614718437195,
      "kl": 0.10145445168018341,
      "learning_rate": 4.947168471904213e-06,
      "loss": 0.0041,
      "reward": 1.3875000476837158,
      "reward_std": 0.3879893124103546,
      "rewards/_accuracy_reward": 0.38749998807907104,
      "rewards/_format_reward": 1.0,
      "step": 636
    },
    {
      "completion_length": 131.375,
      "epoch": 0.15925,
      "grad_norm": 0.593658983707428,
      "kl": 0.08535154908895493,
      "learning_rate": 4.94672139897172e-06,
      "loss": 0.0034,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 637
    },
    {
      "completion_length": 140.125,
      "epoch": 0.1595,
      "grad_norm": 0.05550685152411461,
      "kl": 0.09320636093616486,
      "learning_rate": 4.946272462754447e-06,
      "loss": 0.0037,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 638
    },
    {
      "completion_length": 115.125,
      "epoch": 0.15975,
      "grad_norm": 0.0472259521484375,
      "kl": 0.08565588295459747,
      "learning_rate": 4.945821663594277e-06,
      "loss": 0.0034,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 639
    },
    {
      "completion_length": 109.75,
      "epoch": 0.16,
      "grad_norm": 1.4830896854400635,
      "kl": 0.15049146115779877,
      "learning_rate": 4.9453690018345144e-06,
      "loss": 0.006,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 640
    },
    {
      "completion_length": 108.0,
      "epoch": 0.16025,
      "grad_norm": 0.041197896003723145,
      "kl": 0.1003151386976242,
      "learning_rate": 4.944914477819881e-06,
      "loss": 0.004,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 641
    },
    {
      "completion_length": 128.25,
      "epoch": 0.1605,
      "grad_norm": 0.6992077827453613,
      "kl": 0.12279914319515228,
      "learning_rate": 4.944458091896515e-06,
      "loss": 0.0049,
      "reward": 1.3125,
      "reward_std": 0.4299086630344391,
      "rewards/_accuracy_reward": 0.3124999701976776,
      "rewards/_format_reward": 1.0,
      "step": 642
    },
    {
      "completion_length": 58.25,
      "epoch": 0.16075,
      "grad_norm": 1.5356488227844238,
      "kl": 0.13889075815677643,
      "learning_rate": 4.943999844411978e-06,
      "loss": 0.0056,
      "reward": 1.068750023841858,
      "reward_std": 0.8936032652854919,
      "rewards/_accuracy_reward": 0.4437499940395355,
      "rewards/_format_reward": 0.625,
      "step": 643
    },
    {
      "completion_length": 142.875,
      "epoch": 0.161,
      "grad_norm": 0.6315851211547852,
      "kl": 0.07377047091722488,
      "learning_rate": 4.9435397357152406e-06,
      "loss": 0.003,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 644
    },
    {
      "completion_length": 115.25,
      "epoch": 0.16125,
      "grad_norm": 1.5424988269805908,
      "kl": 0.09540820121765137,
      "learning_rate": 4.943077766156698e-06,
      "loss": 0.0038,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 645
    },
    {
      "completion_length": 92.875,
      "epoch": 0.1615,
      "grad_norm": 0.86021488904953,
      "kl": 0.13427940011024475,
      "learning_rate": 4.94261393608816e-06,
      "loss": 0.0054,
      "reward": 1.4375,
      "reward_std": 0.3471825420856476,
      "rewards/_accuracy_reward": 0.4375,
      "rewards/_format_reward": 1.0,
      "step": 646
    },
    {
      "completion_length": 91.0,
      "epoch": 0.16175,
      "grad_norm": 0.054148320108652115,
      "kl": 0.06728003174066544,
      "learning_rate": 4.942148245862852e-06,
      "loss": 0.0027,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 647
    },
    {
      "completion_length": 95.5,
      "epoch": 0.162,
      "grad_norm": 0.03492613136768341,
      "kl": 0.09255649149417877,
      "learning_rate": 4.9416806958354206e-06,
      "loss": 0.0037,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 648
    },
    {
      "completion_length": 166.5,
      "epoch": 0.16225,
      "grad_norm": 0.9836525917053223,
      "kl": 0.08547134697437286,
      "learning_rate": 4.941211286361922e-06,
      "loss": 0.0034,
      "reward": 1.756250023841858,
      "reward_std": 0.6894291639328003,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 0.875,
      "step": 649
    },
    {
      "completion_length": 166.875,
      "epoch": 0.1625,
      "grad_norm": 1.5894322395324707,
      "kl": 0.11034282296895981,
      "learning_rate": 4.9407400177998335e-06,
      "loss": 0.0044,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 650
    },
    {
      "completion_length": 76.625,
      "epoch": 0.16275,
      "grad_norm": 0.8325356841087341,
      "kl": 0.09968439489603043,
      "learning_rate": 4.940266890508048e-06,
      "loss": 0.004,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 651
    },
    {
      "completion_length": 84.25,
      "epoch": 0.163,
      "grad_norm": 0.9667750000953674,
      "kl": 0.08716170489788055,
      "learning_rate": 4.939791904846869e-06,
      "loss": 0.0035,
      "reward": 1.7625000476837158,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.762499988079071,
      "rewards/_format_reward": 1.0,
      "step": 652
    },
    {
      "completion_length": 152.5,
      "epoch": 0.16325,
      "grad_norm": 0.15192466974258423,
      "kl": 0.11996634304523468,
      "learning_rate": 4.9393150611780215e-06,
      "loss": 0.0048,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 653
    },
    {
      "completion_length": 136.5,
      "epoch": 0.1635,
      "grad_norm": 0.6134188771247864,
      "kl": 0.0701427310705185,
      "learning_rate": 4.938836359864641e-06,
      "loss": 0.0028,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 654
    },
    {
      "completion_length": 169.75,
      "epoch": 0.16375,
      "grad_norm": 0.5714187622070312,
      "kl": 0.0795215517282486,
      "learning_rate": 4.938355801271282e-06,
      "loss": 0.0032,
      "reward": 1.5499999523162842,
      "reward_std": 0.4855042099952698,
      "rewards/_accuracy_reward": 0.5499999523162842,
      "rewards/_format_reward": 1.0,
      "step": 655
    },
    {
      "completion_length": 88.125,
      "epoch": 0.164,
      "grad_norm": 1.2346508502960205,
      "kl": 0.3160145878791809,
      "learning_rate": 4.937873385763909e-06,
      "loss": 0.0126,
      "reward": 1.625,
      "reward_std": 0.40089187026023865,
      "rewards/_accuracy_reward": 0.625,
      "rewards/_format_reward": 1.0,
      "step": 656
    },
    {
      "completion_length": 86.25,
      "epoch": 0.16425,
      "grad_norm": 0.9534627199172974,
      "kl": 0.07120765745639801,
      "learning_rate": 4.937389113709902e-06,
      "loss": 0.0028,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 657
    },
    {
      "completion_length": 112.5,
      "epoch": 0.1645,
      "grad_norm": 0.7603535652160645,
      "kl": 0.1263781189918518,
      "learning_rate": 4.936902985478055e-06,
      "loss": 0.0051,
      "reward": 1.1375000476837158,
      "reward_std": 0.548211395740509,
      "rewards/_accuracy_reward": 0.26249998807907104,
      "rewards/_format_reward": 0.875,
      "step": 658
    },
    {
      "completion_length": 124.125,
      "epoch": 0.16475,
      "grad_norm": 1.240847110748291,
      "kl": 0.10992362350225449,
      "learning_rate": 4.936415001438577e-06,
      "loss": 0.0044,
      "reward": 1.537500023841858,
      "reward_std": 0.7322909235954285,
      "rewards/_accuracy_reward": 0.6625000238418579,
      "rewards/_format_reward": 0.875,
      "step": 659
    },
    {
      "completion_length": 127.625,
      "epoch": 0.165,
      "grad_norm": 0.9347513914108276,
      "kl": 0.10446102917194366,
      "learning_rate": 4.935925161963089e-06,
      "loss": 0.0042,
      "reward": 1.5125000476837158,
      "reward_std": 0.7467787861824036,
      "rewards/_accuracy_reward": 0.637499988079071,
      "rewards/_format_reward": 0.875,
      "step": 660
    },
    {
      "completion_length": 157.5,
      "epoch": 0.16525,
      "grad_norm": 1.6045786142349243,
      "kl": 0.11034439504146576,
      "learning_rate": 4.935433467424624e-06,
      "loss": 0.0044,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 661
    },
    {
      "completion_length": 123.125,
      "epoch": 0.1655,
      "grad_norm": 1.0717341899871826,
      "kl": 0.10492967069149017,
      "learning_rate": 4.93493991819763e-06,
      "loss": 0.0042,
      "reward": 1.71875,
      "reward_std": 0.38816189765930176,
      "rewards/_accuracy_reward": 0.71875,
      "rewards/_format_reward": 1.0,
      "step": 662
    },
    {
      "completion_length": 132.125,
      "epoch": 0.16575,
      "grad_norm": 0.7541182637214661,
      "kl": 0.06509540975093842,
      "learning_rate": 4.934444514657964e-06,
      "loss": 0.0026,
      "reward": 1.6437499523162842,
      "reward_std": 0.49167174100875854,
      "rewards/_accuracy_reward": 0.6437499523162842,
      "rewards/_format_reward": 1.0,
      "step": 663
    },
    {
      "completion_length": 150.375,
      "epoch": 0.166,
      "grad_norm": 0.8722965717315674,
      "kl": 0.09795466810464859,
      "learning_rate": 4.933947257182901e-06,
      "loss": 0.0039,
      "reward": 1.631250023841858,
      "reward_std": 0.738210916519165,
      "rewards/_accuracy_reward": 0.7562500238418579,
      "rewards/_format_reward": 0.875,
      "step": 664
    },
    {
      "completion_length": 162.5,
      "epoch": 0.16625,
      "grad_norm": 0.7149991393089294,
      "kl": 0.07934553176164627,
      "learning_rate": 4.933448146151122e-06,
      "loss": 0.0032,
      "reward": 1.5,
      "reward_std": 0.7559289336204529,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.625,
      "step": 665
    },
    {
      "completion_length": 155.5,
      "epoch": 0.1665,
      "grad_norm": 1.3303704261779785,
      "kl": 0.12056293338537216,
      "learning_rate": 4.932947181942721e-06,
      "loss": 0.0048,
      "reward": 1.2950000762939453,
      "reward_std": 0.6939946413040161,
      "rewards/_accuracy_reward": 0.41999998688697815,
      "rewards/_format_reward": 0.875,
      "step": 666
    },
    {
      "completion_length": 183.0,
      "epoch": 0.16675,
      "grad_norm": 0.6829738616943359,
      "kl": 0.09543811529874802,
      "learning_rate": 4.932444364939205e-06,
      "loss": 0.0038,
      "reward": 1.1687500476837158,
      "reward_std": 0.8314949870109558,
      "rewards/_accuracy_reward": 0.41874998807907104,
      "rewards/_format_reward": 0.75,
      "step": 667
    },
    {
      "completion_length": 124.375,
      "epoch": 0.167,
      "grad_norm": 1.0810277462005615,
      "kl": 0.11649039387702942,
      "learning_rate": 4.9319396955234925e-06,
      "loss": 0.0047,
      "reward": 1.625,
      "reward_std": 0.40089187026023865,
      "rewards/_accuracy_reward": 0.625,
      "rewards/_format_reward": 1.0,
      "step": 668
    },
    {
      "completion_length": 184.875,
      "epoch": 0.16725,
      "grad_norm": 1.8912442922592163,
      "kl": 0.2582206428050995,
      "learning_rate": 4.9314331740799084e-06,
      "loss": 0.0103,
      "reward": 1.625,
      "reward_std": 0.7440237998962402,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.75,
      "step": 669
    },
    {
      "completion_length": 135.875,
      "epoch": 0.1675,
      "grad_norm": 0.932590901851654,
      "kl": 0.13341131806373596,
      "learning_rate": 4.930924800994192e-06,
      "loss": 0.0053,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 670
    },
    {
      "completion_length": 92.5,
      "epoch": 0.16775,
      "grad_norm": 0.3577817976474762,
      "kl": 0.11805645376443863,
      "learning_rate": 4.930414576653492e-06,
      "loss": 0.0047,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 671
    },
    {
      "completion_length": 183.25,
      "epoch": 0.168,
      "grad_norm": 2.2905547618865967,
      "kl": 0.2760542035102844,
      "learning_rate": 4.9299025014463665e-06,
      "loss": 0.011,
      "reward": 1.631250023841858,
      "reward_std": 0.738210916519165,
      "rewards/_accuracy_reward": 0.7562500238418579,
      "rewards/_format_reward": 0.875,
      "step": 672
    },
    {
      "completion_length": 153.75,
      "epoch": 0.16825,
      "grad_norm": 0.8730438947677612,
      "kl": 0.1262456476688385,
      "learning_rate": 4.9293885757627815e-06,
      "loss": 0.005,
      "reward": 1.6875,
      "reward_std": 0.4381372928619385,
      "rewards/_accuracy_reward": 0.8125,
      "rewards/_format_reward": 0.875,
      "step": 673
    },
    {
      "completion_length": 141.375,
      "epoch": 0.1685,
      "grad_norm": 0.07061377912759781,
      "kl": 0.09641307592391968,
      "learning_rate": 4.928872799994116e-06,
      "loss": 0.0039,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 674
    },
    {
      "completion_length": 144.5,
      "epoch": 0.16875,
      "grad_norm": 0.8018800020217896,
      "kl": 0.19013966619968414,
      "learning_rate": 4.928355174533153e-06,
      "loss": 0.0076,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 675
    },
    {
      "completion_length": 171.625,
      "epoch": 0.169,
      "grad_norm": 1.220819115638733,
      "kl": 0.15096057951450348,
      "learning_rate": 4.92783569977409e-06,
      "loss": 0.006,
      "reward": 1.149999976158142,
      "reward_std": 0.6358346939086914,
      "rewards/_accuracy_reward": 0.3999999761581421,
      "rewards/_format_reward": 0.75,
      "step": 676
    },
    {
      "completion_length": 125.75,
      "epoch": 0.16925,
      "grad_norm": 1.0009835958480835,
      "kl": 0.09804116189479828,
      "learning_rate": 4.927314376112528e-06,
      "loss": 0.0039,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 677
    },
    {
      "completion_length": 155.875,
      "epoch": 0.1695,
      "grad_norm": 0.7764220833778381,
      "kl": 0.12891684472560883,
      "learning_rate": 4.926791203945477e-06,
      "loss": 0.0052,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 678
    },
    {
      "completion_length": 139.25,
      "epoch": 0.16975,
      "grad_norm": 0.6513742804527283,
      "kl": 0.05859963223338127,
      "learning_rate": 4.926266183671356e-06,
      "loss": 0.0023,
      "reward": 1.524999976158142,
      "reward_std": 0.5077964067459106,
      "rewards/_accuracy_reward": 0.5249999761581421,
      "rewards/_format_reward": 1.0,
      "step": 679
    },
    {
      "completion_length": 82.25,
      "epoch": 0.17,
      "grad_norm": 1.309946894645691,
      "kl": 0.12626594305038452,
      "learning_rate": 4.925739315689991e-06,
      "loss": 0.0051,
      "reward": 1.412500023841858,
      "reward_std": 0.3691205680370331,
      "rewards/_accuracy_reward": 0.4124999940395355,
      "rewards/_format_reward": 1.0,
      "step": 680
    },
    {
      "completion_length": 107.75,
      "epoch": 0.17025,
      "grad_norm": 1.0792083740234375,
      "kl": 0.1906372606754303,
      "learning_rate": 4.925210600402615e-06,
      "loss": 0.0076,
      "reward": 1.537500023841858,
      "reward_std": 0.7322909235954285,
      "rewards/_accuracy_reward": 0.6625000238418579,
      "rewards/_format_reward": 0.875,
      "step": 681
    },
    {
      "completion_length": 143.25,
      "epoch": 0.1705,
      "grad_norm": 0.5776306986808777,
      "kl": 0.05421634390950203,
      "learning_rate": 4.924680038211868e-06,
      "loss": 0.0022,
      "reward": 1.7825000286102295,
      "reward_std": 0.40780770778656006,
      "rewards/_accuracy_reward": 0.7825000286102295,
      "rewards/_format_reward": 1.0,
      "step": 682
    },
    {
      "completion_length": 99.625,
      "epoch": 0.17075,
      "grad_norm": 1.0922069549560547,
      "kl": 0.16642846167087555,
      "learning_rate": 4.924147629521794e-06,
      "loss": 0.0067,
      "reward": 1.4500000476837158,
      "reward_std": 0.6979562044143677,
      "rewards/_accuracy_reward": 0.574999988079071,
      "rewards/_format_reward": 0.875,
      "step": 683
    },
    {
      "completion_length": 157.375,
      "epoch": 0.171,
      "grad_norm": 0.7435649633407593,
      "kl": 0.08429885655641556,
      "learning_rate": 4.923613374737848e-06,
      "loss": 0.0034,
      "reward": 1.306249976158142,
      "reward_std": 0.4346078038215637,
      "rewards/_accuracy_reward": 0.4312499761581421,
      "rewards/_format_reward": 0.875,
      "step": 684
    },
    {
      "completion_length": 140.0,
      "epoch": 0.17125,
      "grad_norm": 0.8662862181663513,
      "kl": 0.06566808372735977,
      "learning_rate": 4.923077274266886e-06,
      "loss": 0.0026,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 0.875,
      "step": 685
    },
    {
      "completion_length": 148.0,
      "epoch": 0.1715,
      "grad_norm": 1.3568053245544434,
      "kl": 0.11993306875228882,
      "learning_rate": 4.922539328517174e-06,
      "loss": 0.0048,
      "reward": 1.7512500286102295,
      "reward_std": 0.460603266954422,
      "rewards/_accuracy_reward": 0.8762500286102295,
      "rewards/_format_reward": 0.875,
      "step": 686
    },
    {
      "completion_length": 116.75,
      "epoch": 0.17175,
      "grad_norm": 0.056372012943029404,
      "kl": 0.11503936350345612,
      "learning_rate": 4.92199953789838e-06,
      "loss": 0.0046,
      "reward": 1.25,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 0.25,
      "rewards/_format_reward": 1.0,
      "step": 687
    },
    {
      "completion_length": 110.5,
      "epoch": 0.172,
      "grad_norm": 0.8631861209869385,
      "kl": 0.07430507987737656,
      "learning_rate": 4.921457902821578e-06,
      "loss": 0.003,
      "reward": 1.1937499046325684,
      "reward_std": 0.33320683240890503,
      "rewards/_accuracy_reward": 0.19374999403953552,
      "rewards/_format_reward": 1.0,
      "step": 688
    },
    {
      "completion_length": 85.875,
      "epoch": 0.17225,
      "grad_norm": 0.04333508759737015,
      "kl": 0.11433293670415878,
      "learning_rate": 4.920914423699247e-06,
      "loss": 0.0046,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 689
    },
    {
      "completion_length": 159.75,
      "epoch": 0.1725,
      "grad_norm": 0.737657368183136,
      "kl": 0.07528231292963028,
      "learning_rate": 4.92036910094527e-06,
      "loss": 0.003,
      "reward": 1.5,
      "reward_std": 0.9258201122283936,
      "rewards/_accuracy_reward": 0.75,
      "rewards/_format_reward": 0.75,
      "step": 690
    },
    {
      "completion_length": 120.25,
      "epoch": 0.17275,
      "grad_norm": 0.8405797481536865,
      "kl": 0.07952480018138885,
      "learning_rate": 4.919821934974933e-06,
      "loss": 0.0032,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 691
    },
    {
      "completion_length": 132.5,
      "epoch": 0.173,
      "grad_norm": 0.6791375279426575,
      "kl": 0.0799427479505539,
      "learning_rate": 4.9192729262049285e-06,
      "loss": 0.0032,
      "reward": 1.7575000524520874,
      "reward_std": 0.449150025844574,
      "rewards/_accuracy_reward": 0.7574999928474426,
      "rewards/_format_reward": 1.0,
      "step": 692
    },
    {
      "completion_length": 122.875,
      "epoch": 0.17325,
      "grad_norm": 0.7748632431030273,
      "kl": 0.11183080077171326,
      "learning_rate": 4.918722075053349e-06,
      "loss": 0.0045,
      "reward": 1.40625,
      "reward_std": 0.49167174100875854,
      "rewards/_accuracy_reward": 0.4062499701976776,
      "rewards/_format_reward": 1.0,
      "step": 693
    },
    {
      "completion_length": 100.375,
      "epoch": 0.1735,
      "grad_norm": 0.9572948217391968,
      "kl": 0.0853419229388237,
      "learning_rate": 4.918169381939693e-06,
      "loss": 0.0034,
      "reward": 1.787500023841858,
      "reward_std": 0.39708760380744934,
      "rewards/_accuracy_reward": 0.7875000238418579,
      "rewards/_format_reward": 1.0,
      "step": 694
    },
    {
      "completion_length": 158.875,
      "epoch": 0.17375,
      "grad_norm": 0.7936824560165405,
      "kl": 0.062092866748571396,
      "learning_rate": 4.917614847284858e-06,
      "loss": 0.0025,
      "reward": 1.3125,
      "reward_std": 0.4299086630344391,
      "rewards/_accuracy_reward": 0.3125,
      "rewards/_format_reward": 1.0,
      "step": 695
    },
    {
      "completion_length": 147.5,
      "epoch": 0.174,
      "grad_norm": 0.05352199077606201,
      "kl": 0.0950603038072586,
      "learning_rate": 4.917058471511149e-06,
      "loss": 0.0038,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 696
    },
    {
      "completion_length": 189.875,
      "epoch": 0.17425,
      "grad_norm": 0.8454087972640991,
      "kl": 0.14175119996070862,
      "learning_rate": 4.916500255042269e-06,
      "loss": 0.0057,
      "reward": 1.381250023841858,
      "reward_std": 0.9133679866790771,
      "rewards/_accuracy_reward": 0.6312500238418579,
      "rewards/_format_reward": 0.75,
      "step": 697
    },
    {
      "completion_length": 138.125,
      "epoch": 0.1745,
      "grad_norm": 0.7943523526191711,
      "kl": 0.09450940042734146,
      "learning_rate": 4.915940198303324e-06,
      "loss": 0.0038,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 698
    },
    {
      "completion_length": 139.375,
      "epoch": 0.17475,
      "grad_norm": 0.6788039803504944,
      "kl": 0.06518439203500748,
      "learning_rate": 4.915378301720822e-06,
      "loss": 0.0026,
      "reward": 1.3875000476837158,
      "reward_std": 0.3879893124103546,
      "rewards/_accuracy_reward": 0.38749998807907104,
      "rewards/_format_reward": 1.0,
      "step": 699
    },
    {
      "completion_length": 116.875,
      "epoch": 0.175,
      "grad_norm": 0.8311275243759155,
      "kl": 0.08171775192022324,
      "learning_rate": 4.914814565722671e-06,
      "loss": 0.0033,
      "reward": 1.71875,
      "reward_std": 0.38816189765930176,
      "rewards/_accuracy_reward": 0.71875,
      "rewards/_format_reward": 1.0,
      "step": 700
    },
    {
      "completion_length": 150.0,
      "epoch": 0.17525,
      "grad_norm": 0.5767417550086975,
      "kl": 0.06639153510332108,
      "learning_rate": 4.914248990738182e-06,
      "loss": 0.0027,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 701
    },
    {
      "completion_length": 165.25,
      "epoch": 0.1755,
      "grad_norm": 0.6517013311386108,
      "kl": 0.1013181060552597,
      "learning_rate": 4.913681577198063e-06,
      "loss": 0.0041,
      "reward": 1.1624999046325684,
      "reward_std": 0.338853120803833,
      "rewards/_accuracy_reward": 0.2874999940395355,
      "rewards/_format_reward": 0.875,
      "step": 702
    },
    {
      "completion_length": 113.625,
      "epoch": 0.17575,
      "grad_norm": 0.9347190260887146,
      "kl": 0.09112431108951569,
      "learning_rate": 4.913112325534426e-06,
      "loss": 0.0036,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 703
    },
    {
      "completion_length": 97.75,
      "epoch": 0.176,
      "grad_norm": 0.05434059351682663,
      "kl": 0.09588680416345596,
      "learning_rate": 4.912541236180779e-06,
      "loss": 0.0038,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 704
    },
    {
      "completion_length": 149.625,
      "epoch": 0.17625,
      "grad_norm": 0.0285491980612278,
      "kl": 0.0574335977435112,
      "learning_rate": 4.9119683095720325e-06,
      "loss": 0.0023,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 705
    },
    {
      "completion_length": 130.625,
      "epoch": 0.1765,
      "grad_norm": 0.8181139826774597,
      "kl": 0.06118696555495262,
      "learning_rate": 4.9113935461444955e-06,
      "loss": 0.0024,
      "reward": 1.6637499332427979,
      "reward_std": 0.4691310524940491,
      "rewards/_accuracy_reward": 0.6637499928474426,
      "rewards/_format_reward": 1.0,
      "step": 706
    },
    {
      "completion_length": 139.75,
      "epoch": 0.17675,
      "grad_norm": 0.4688571095466614,
      "kl": 0.058115698397159576,
      "learning_rate": 4.910816946335875e-06,
      "loss": 0.0023,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 707
    },
    {
      "completion_length": 164.0,
      "epoch": 0.177,
      "grad_norm": 0.6474580764770508,
      "kl": 0.16749340295791626,
      "learning_rate": 4.910238510585275e-06,
      "loss": 0.0067,
      "reward": 1.3937499523162842,
      "reward_std": 0.7336004972457886,
      "rewards/_accuracy_reward": 0.518750011920929,
      "rewards/_format_reward": 0.875,
      "step": 708
    },
    {
      "completion_length": 174.25,
      "epoch": 0.17725,
      "grad_norm": 0.6559945940971375,
      "kl": 0.11057315766811371,
      "learning_rate": 4.909658239333203e-06,
      "loss": 0.0044,
      "reward": 1.2687499523162842,
      "reward_std": 0.699968159198761,
      "rewards/_accuracy_reward": 0.5187499523162842,
      "rewards/_format_reward": 0.75,
      "step": 709
    },
    {
      "completion_length": 160.25,
      "epoch": 0.1775,
      "grad_norm": 0.049524981528520584,
      "kl": 0.06787683814764023,
      "learning_rate": 4.909076133021558e-06,
      "loss": 0.0027,
      "reward": 1.0499999523162842,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 0.05000000074505806,
      "rewards/_format_reward": 1.0,
      "step": 710
    },
    {
      "completion_length": 180.5,
      "epoch": 0.17775,
      "grad_norm": 0.7570251822471619,
      "kl": 0.08942964673042297,
      "learning_rate": 4.9084921920936405e-06,
      "loss": 0.0036,
      "reward": 0.9187499284744263,
      "reward_std": 0.3712310194969177,
      "rewards/_accuracy_reward": 0.04374999925494194,
      "rewards/_format_reward": 0.875,
      "step": 711
    },
    {
      "completion_length": 163.625,
      "epoch": 0.178,
      "grad_norm": 0.6288597583770752,
      "kl": 0.07151935994625092,
      "learning_rate": 4.907906416994146e-06,
      "loss": 0.0029,
      "reward": 1.65625,
      "reward_std": 0.7188470363616943,
      "rewards/_accuracy_reward": 0.78125,
      "rewards/_format_reward": 0.875,
      "step": 712
    },
    {
      "completion_length": 132.625,
      "epoch": 0.17825,
      "grad_norm": 0.044216256588697433,
      "kl": 0.07765813916921616,
      "learning_rate": 4.907318808169168e-06,
      "loss": 0.0031,
      "reward": 1.0499999523162842,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 0.05000000074505806,
      "rewards/_format_reward": 1.0,
      "step": 713
    },
    {
      "completion_length": 190.0,
      "epoch": 0.1785,
      "grad_norm": 0.9514076709747314,
      "kl": 0.0776422843337059,
      "learning_rate": 4.906729366066197e-06,
      "loss": 0.0031,
      "reward": 1.25,
      "reward_std": 1.0350983142852783,
      "rewards/_accuracy_reward": 0.625,
      "rewards/_format_reward": 0.625,
      "step": 714
    },
    {
      "completion_length": 82.625,
      "epoch": 0.17875,
      "grad_norm": 0.046869371086359024,
      "kl": 0.06022655963897705,
      "learning_rate": 4.906138091134118e-06,
      "loss": 0.0024,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 715
    },
    {
      "completion_length": 141.625,
      "epoch": 0.179,
      "grad_norm": 1.30816650390625,
      "kl": 0.0730072632431984,
      "learning_rate": 4.905544983823214e-06,
      "loss": 0.0029,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 716
    },
    {
      "completion_length": 109.5,
      "epoch": 0.17925,
      "grad_norm": 0.7696007490158081,
      "kl": 0.08097223192453384,
      "learning_rate": 4.904950044585159e-06,
      "loss": 0.0032,
      "reward": 1.7625000476837158,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.762499988079071,
      "rewards/_format_reward": 1.0,
      "step": 717
    },
    {
      "completion_length": 163.0,
      "epoch": 0.1795,
      "grad_norm": 0.674775242805481,
      "kl": 0.06911822408437729,
      "learning_rate": 4.904353273873029e-06,
      "loss": 0.0028,
      "reward": 1.28125,
      "reward_std": 0.6844902038574219,
      "rewards/_accuracy_reward": 0.40625,
      "rewards/_format_reward": 0.875,
      "step": 718
    },
    {
      "completion_length": 176.25,
      "epoch": 0.17975,
      "grad_norm": 0.5623289346694946,
      "kl": 0.05954327434301376,
      "learning_rate": 4.903754672141288e-06,
      "loss": 0.0024,
      "reward": 1.8125,
      "reward_std": 0.3471825420856476,
      "rewards/_accuracy_reward": 0.8125,
      "rewards/_format_reward": 1.0,
      "step": 719
    },
    {
      "completion_length": 147.5,
      "epoch": 0.18,
      "grad_norm": 0.7491151690483093,
      "kl": 0.08063170313835144,
      "learning_rate": 4.903154239845798e-06,
      "loss": 0.0032,
      "reward": 1.4212499856948853,
      "reward_std": 0.485222727060318,
      "rewards/_accuracy_reward": 0.42124998569488525,
      "rewards/_format_reward": 1.0,
      "step": 720
    },
    {
      "completion_length": 147.625,
      "epoch": 0.18025,
      "grad_norm": 0.0454736165702343,
      "kl": 0.06635451316833496,
      "learning_rate": 4.902551977443813e-06,
      "loss": 0.0027,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 721
    },
    {
      "completion_length": 196.875,
      "epoch": 0.1805,
      "grad_norm": 0.5895596146583557,
      "kl": 0.11441276967525482,
      "learning_rate": 4.901947885393986e-06,
      "loss": 0.0046,
      "reward": 1.40625,
      "reward_std": 0.9057110548019409,
      "rewards/_accuracy_reward": 0.65625,
      "rewards/_format_reward": 0.75,
      "step": 722
    },
    {
      "completion_length": 169.0,
      "epoch": 0.18075,
      "grad_norm": 0.07282302528619766,
      "kl": 0.09880199283361435,
      "learning_rate": 4.901341964156356e-06,
      "loss": 0.004,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 723
    },
    {
      "completion_length": 109.875,
      "epoch": 0.181,
      "grad_norm": 0.036335721611976624,
      "kl": 0.05390893295407295,
      "learning_rate": 4.900734214192358e-06,
      "loss": 0.0022,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 724
    },
    {
      "completion_length": 130.0,
      "epoch": 0.18125,
      "grad_norm": 0.9860284924507141,
      "kl": 0.10044866800308228,
      "learning_rate": 4.900124635964823e-06,
      "loss": 0.004,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 725
    },
    {
      "completion_length": 162.625,
      "epoch": 0.1815,
      "grad_norm": 0.8596735596656799,
      "kl": 0.09692024439573288,
      "learning_rate": 4.899513229937968e-06,
      "loss": 0.0039,
      "reward": 1.6375000476837158,
      "reward_std": 0.7224709987640381,
      "rewards/_accuracy_reward": 0.7625000476837158,
      "rewards/_format_reward": 0.875,
      "step": 726
    },
    {
      "completion_length": 102.25,
      "epoch": 0.18175,
      "grad_norm": 0.039204664528369904,
      "kl": 0.07592302560806274,
      "learning_rate": 4.898899996577407e-06,
      "loss": 0.003,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 727
    },
    {
      "completion_length": 131.5,
      "epoch": 0.182,
      "grad_norm": 0.8768433332443237,
      "kl": 0.07269235700368881,
      "learning_rate": 4.898284936350144e-06,
      "loss": 0.0029,
      "reward": 1.78125,
      "reward_std": 0.41052013635635376,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 0.875,
      "step": 728
    },
    {
      "completion_length": 108.5,
      "epoch": 0.18225,
      "grad_norm": 0.023332836106419563,
      "kl": 0.03946740925312042,
      "learning_rate": 4.897668049724574e-06,
      "loss": 0.0016,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 729
    },
    {
      "completion_length": 187.0,
      "epoch": 0.1825,
      "grad_norm": 0.7027626633644104,
      "kl": 0.09945539385080338,
      "learning_rate": 4.897049337170483e-06,
      "loss": 0.004,
      "reward": 1.181249976158142,
      "reward_std": 0.6335486769676208,
      "rewards/_accuracy_reward": 0.3062499761581421,
      "rewards/_format_reward": 0.875,
      "step": 730
    },
    {
      "completion_length": 167.375,
      "epoch": 0.18275,
      "grad_norm": 0.029858523979783058,
      "kl": 0.04215020686388016,
      "learning_rate": 4.896428799159048e-06,
      "loss": 0.0017,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 731
    },
    {
      "completion_length": 108.625,
      "epoch": 0.183,
      "grad_norm": 0.8350287675857544,
      "kl": 0.058248016983270645,
      "learning_rate": 4.8958064361628334e-06,
      "loss": 0.0023,
      "reward": 1.2000000476837158,
      "reward_std": 0.09258202463388443,
      "rewards/_accuracy_reward": 0.20000000298023224,
      "rewards/_format_reward": 1.0,
      "step": 732
    },
    {
      "completion_length": 153.25,
      "epoch": 0.18325,
      "grad_norm": 0.8019189238548279,
      "kl": 0.06479734927415848,
      "learning_rate": 4.8951822486557985e-06,
      "loss": 0.0026,
      "reward": 1.40625,
      "reward_std": 0.49167174100875854,
      "rewards/_accuracy_reward": 0.4062499701976776,
      "rewards/_format_reward": 1.0,
      "step": 733
    },
    {
      "completion_length": 117.0,
      "epoch": 0.1835,
      "grad_norm": 0.0786304697394371,
      "kl": 0.07490724325180054,
      "learning_rate": 4.894556237113287e-06,
      "loss": 0.003,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 734
    },
    {
      "completion_length": 153.25,
      "epoch": 0.18375,
      "grad_norm": 0.7346017360687256,
      "kl": 0.0502316989004612,
      "learning_rate": 4.8939284020120365e-06,
      "loss": 0.002,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 735
    },
    {
      "completion_length": 113.625,
      "epoch": 0.184,
      "grad_norm": 0.7519781589508057,
      "kl": 0.06321275234222412,
      "learning_rate": 4.893298743830168e-06,
      "loss": 0.0025,
      "reward": 1.4500000476837158,
      "reward_std": 0.46445053815841675,
      "rewards/_accuracy_reward": 0.574999988079071,
      "rewards/_format_reward": 0.875,
      "step": 736
    },
    {
      "completion_length": 176.75,
      "epoch": 0.18425,
      "grad_norm": 0.5180202126502991,
      "kl": 0.06774277240037918,
      "learning_rate": 4.892667263047196e-06,
      "loss": 0.0027,
      "reward": 1.65625,
      "reward_std": 0.7188470363616943,
      "rewards/_accuracy_reward": 0.78125,
      "rewards/_format_reward": 0.875,
      "step": 737
    },
    {
      "completion_length": 188.75,
      "epoch": 0.1845,
      "grad_norm": 0.5825796723365784,
      "kl": 0.05548809841275215,
      "learning_rate": 4.89203396014402e-06,
      "loss": 0.0022,
      "reward": 1.78125,
      "reward_std": 0.41052013635635376,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 0.875,
      "step": 738
    },
    {
      "completion_length": 146.625,
      "epoch": 0.18475,
      "grad_norm": 0.9164865016937256,
      "kl": 0.07509761303663254,
      "learning_rate": 4.891398835602925e-06,
      "loss": 0.003,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 739
    },
    {
      "completion_length": 140.125,
      "epoch": 0.185,
      "grad_norm": 0.8452046513557434,
      "kl": 0.054703302681446075,
      "learning_rate": 4.890761889907589e-06,
      "loss": 0.0022,
      "reward": 1.631250023841858,
      "reward_std": 0.738210916519165,
      "rewards/_accuracy_reward": 0.7562500238418579,
      "rewards/_format_reward": 0.875,
      "step": 740
    },
    {
      "completion_length": 99.625,
      "epoch": 0.18525,
      "grad_norm": 0.051303569227457047,
      "kl": 0.08967574685811996,
      "learning_rate": 4.890123123543074e-06,
      "loss": 0.0036,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 741
    },
    {
      "completion_length": 142.875,
      "epoch": 0.1855,
      "grad_norm": 0.7844648361206055,
      "kl": 0.057571351528167725,
      "learning_rate": 4.889482536995826e-06,
      "loss": 0.0023,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 0.875,
      "step": 742
    },
    {
      "completion_length": 126.5,
      "epoch": 0.18575,
      "grad_norm": 0.8076685667037964,
      "kl": 0.07212512940168381,
      "learning_rate": 4.888840130753681e-06,
      "loss": 0.0029,
      "reward": 1.0374999046325684,
      "reward_std": 0.5350233912467957,
      "rewards/_accuracy_reward": 0.16249999403953552,
      "rewards/_format_reward": 0.875,
      "step": 743
    },
    {
      "completion_length": 102.125,
      "epoch": 0.186,
      "grad_norm": 0.02857026271522045,
      "kl": 0.045980606228113174,
      "learning_rate": 4.888195905305859e-06,
      "loss": 0.0018,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 744
    },
    {
      "completion_length": 102.625,
      "epoch": 0.18625,
      "grad_norm": 0.04947218671441078,
      "kl": 0.08267652988433838,
      "learning_rate": 4.887549861142967e-06,
      "loss": 0.0033,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 745
    },
    {
      "completion_length": 99.5,
      "epoch": 0.1865,
      "grad_norm": 1.0107591152191162,
      "kl": 0.07869725674390793,
      "learning_rate": 4.886901998756995e-06,
      "loss": 0.0031,
      "reward": 1.34375,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.34375,
      "rewards/_format_reward": 1.0,
      "step": 746
    },
    {
      "completion_length": 148.0,
      "epoch": 0.18675,
      "grad_norm": 0.8579306602478027,
      "kl": 0.06560367345809937,
      "learning_rate": 4.886252318641316e-06,
      "loss": 0.0026,
      "reward": 1.125,
      "reward_std": 0.10350988060235977,
      "rewards/_accuracy_reward": 0.125,
      "rewards/_format_reward": 1.0,
      "step": 747
    },
    {
      "completion_length": 170.875,
      "epoch": 0.187,
      "grad_norm": 0.5661394596099854,
      "kl": 0.08825960755348206,
      "learning_rate": 4.885600821290692e-06,
      "loss": 0.0035,
      "reward": 1.274999976158142,
      "reward_std": 0.6974443197250366,
      "rewards/_accuracy_reward": 0.3999999761581421,
      "rewards/_format_reward": 0.875,
      "step": 748
    },
    {
      "completion_length": 137.0,
      "epoch": 0.18725,
      "grad_norm": 0.8725441694259644,
      "kl": 0.048608239740133286,
      "learning_rate": 4.884947507201268e-06,
      "loss": 0.0019,
      "reward": 1.0437499284744263,
      "reward_std": 0.5212878584861755,
      "rewards/_accuracy_reward": 0.16875000298023224,
      "rewards/_format_reward": 0.875,
      "step": 749
    },
    {
      "completion_length": 85.125,
      "epoch": 0.1875,
      "grad_norm": 1.9548423290252686,
      "kl": 0.10041142255067825,
      "learning_rate": 4.884292376870567e-06,
      "loss": 0.004,
      "reward": 1.71875,
      "reward_std": 0.38816189765930176,
      "rewards/_accuracy_reward": 0.71875,
      "rewards/_format_reward": 1.0,
      "step": 750
    },
    {
      "completion_length": 143.0,
      "epoch": 0.18775,
      "grad_norm": 0.8026706576347351,
      "kl": 0.060220833867788315,
      "learning_rate": 4.883635430797503e-06,
      "loss": 0.0024,
      "reward": 1.65625,
      "reward_std": 0.7188470363616943,
      "rewards/_accuracy_reward": 0.78125,
      "rewards/_format_reward": 0.875,
      "step": 751
    },
    {
      "completion_length": 151.125,
      "epoch": 0.188,
      "grad_norm": 0.5478430986404419,
      "kl": 0.051096536219120026,
      "learning_rate": 4.882976669482368e-06,
      "loss": 0.002,
      "reward": 1.631250023841858,
      "reward_std": 0.738210916519165,
      "rewards/_accuracy_reward": 0.7562500238418579,
      "rewards/_format_reward": 0.875,
      "step": 752
    },
    {
      "completion_length": 117.5,
      "epoch": 0.18825,
      "grad_norm": 0.6958257555961609,
      "kl": 0.048697832971811295,
      "learning_rate": 4.8823160934268365e-06,
      "loss": 0.0019,
      "reward": 1.524999976158142,
      "reward_std": 0.5077964067459106,
      "rewards/_accuracy_reward": 0.5249999761581421,
      "rewards/_format_reward": 1.0,
      "step": 753
    },
    {
      "completion_length": 147.25,
      "epoch": 0.1885,
      "grad_norm": 0.6645660996437073,
      "kl": 0.0725683867931366,
      "learning_rate": 4.881653703133966e-06,
      "loss": 0.0029,
      "reward": 1.5125000476837158,
      "reward_std": 0.7467787861824036,
      "rewards/_accuracy_reward": 0.637499988079071,
      "rewards/_format_reward": 0.875,
      "step": 754
    },
    {
      "completion_length": 147.125,
      "epoch": 0.18875,
      "grad_norm": 0.639782726764679,
      "kl": 0.047644682228565216,
      "learning_rate": 4.880989499108196e-06,
      "loss": 0.0019,
      "reward": 1.40625,
      "reward_std": 0.49167174100875854,
      "rewards/_accuracy_reward": 0.40625,
      "rewards/_format_reward": 1.0,
      "step": 755
    },
    {
      "completion_length": 176.875,
      "epoch": 0.189,
      "grad_norm": 0.6647182106971741,
      "kl": 0.07348424941301346,
      "learning_rate": 4.880323481855347e-06,
      "loss": 0.0029,
      "reward": 1.6324999332427979,
      "reward_std": 0.7272404432296753,
      "rewards/_accuracy_reward": 0.7575000524520874,
      "rewards/_format_reward": 0.875,
      "step": 756
    },
    {
      "completion_length": 144.5,
      "epoch": 0.18925,
      "grad_norm": 0.04022838547825813,
      "kl": 0.06717957556247711,
      "learning_rate": 4.8796556518826196e-06,
      "loss": 0.0027,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 757
    },
    {
      "completion_length": 170.625,
      "epoch": 0.1895,
      "grad_norm": 0.6884375810623169,
      "kl": 0.04896247014403343,
      "learning_rate": 4.878986009698596e-06,
      "loss": 0.002,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 758
    },
    {
      "completion_length": 153.5,
      "epoch": 0.18975,
      "grad_norm": 0.7841867804527283,
      "kl": 0.07170876115560532,
      "learning_rate": 4.878314555813237e-06,
      "loss": 0.0029,
      "reward": 1.78125,
      "reward_std": 0.41052013635635376,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 0.875,
      "step": 759
    },
    {
      "completion_length": 141.0,
      "epoch": 0.19,
      "grad_norm": 0.7056874632835388,
      "kl": 0.0750083476305008,
      "learning_rate": 4.8776412907378845e-06,
      "loss": 0.003,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 760
    },
    {
      "completion_length": 130.25,
      "epoch": 0.19025,
      "grad_norm": 0.884601354598999,
      "kl": 0.0460171103477478,
      "learning_rate": 4.876966214985259e-06,
      "loss": 0.0018,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 761
    },
    {
      "completion_length": 107.625,
      "epoch": 0.1905,
      "grad_norm": 0.6765369176864624,
      "kl": 0.06972219794988632,
      "learning_rate": 4.87628932906946e-06,
      "loss": 0.0028,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 762
    },
    {
      "completion_length": 145.625,
      "epoch": 0.19075,
      "grad_norm": 0.043741121888160706,
      "kl": 0.06062021851539612,
      "learning_rate": 4.875610633505965e-06,
      "loss": 0.0024,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 763
    },
    {
      "completion_length": 131.375,
      "epoch": 0.191,
      "grad_norm": 0.5471161603927612,
      "kl": 0.03881002590060234,
      "learning_rate": 4.874930128811631e-06,
      "loss": 0.0016,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 764
    },
    {
      "completion_length": 91.25,
      "epoch": 0.19125,
      "grad_norm": 0.7647479176521301,
      "kl": 0.0523533895611763,
      "learning_rate": 4.874247815504693e-06,
      "loss": 0.0021,
      "reward": 1.625,
      "reward_std": 0.40089187026023865,
      "rewards/_accuracy_reward": 0.625,
      "rewards/_format_reward": 1.0,
      "step": 765
    },
    {
      "completion_length": 160.5,
      "epoch": 0.1915,
      "grad_norm": 0.6481146216392517,
      "kl": 0.052776042371988297,
      "learning_rate": 4.87356369410476e-06,
      "loss": 0.0021,
      "reward": 1.5125000476837158,
      "reward_std": 0.7467787861824036,
      "rewards/_accuracy_reward": 0.637499988079071,
      "rewards/_format_reward": 0.875,
      "step": 766
    },
    {
      "completion_length": 165.75,
      "epoch": 0.19175,
      "grad_norm": 0.790132999420166,
      "kl": 0.07757475972175598,
      "learning_rate": 4.872877765132822e-06,
      "loss": 0.0031,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 767
    },
    {
      "completion_length": 214.125,
      "epoch": 0.192,
      "grad_norm": 0.4553297460079193,
      "kl": 0.06625451147556305,
      "learning_rate": 4.8721900291112415e-06,
      "loss": 0.0027,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 768
    },
    {
      "completion_length": 136.625,
      "epoch": 0.19225,
      "grad_norm": 0.7693415880203247,
      "kl": 0.06646943092346191,
      "learning_rate": 4.8715004865637616e-06,
      "loss": 0.0027,
      "reward": 1.40625,
      "reward_std": 0.9057110548019409,
      "rewards/_accuracy_reward": 0.65625,
      "rewards/_format_reward": 0.75,
      "step": 769
    },
    {
      "completion_length": 171.875,
      "epoch": 0.1925,
      "grad_norm": 0.7193809747695923,
      "kl": 0.050990864634513855,
      "learning_rate": 4.870809138015499e-06,
      "loss": 0.002,
      "reward": 1.2999999523162842,
      "reward_std": 0.6917885541915894,
      "rewards/_accuracy_reward": 0.42499998211860657,
      "rewards/_format_reward": 0.875,
      "step": 770
    },
    {
      "completion_length": 159.0,
      "epoch": 0.19275,
      "grad_norm": 0.8034641742706299,
      "kl": 0.056241609156131744,
      "learning_rate": 4.870115983992944e-06,
      "loss": 0.0022,
      "reward": 1.7825000286102295,
      "reward_std": 0.40780770778656006,
      "rewards/_accuracy_reward": 0.7825000286102295,
      "rewards/_format_reward": 1.0,
      "step": 771
    },
    {
      "completion_length": 180.5,
      "epoch": 0.193,
      "grad_norm": 0.02887933887541294,
      "kl": 0.05732205510139465,
      "learning_rate": 4.869421025023965e-06,
      "loss": 0.0023,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 772
    },
    {
      "completion_length": 177.25,
      "epoch": 0.19325,
      "grad_norm": 0.03681923449039459,
      "kl": 0.05520891398191452,
      "learning_rate": 4.8687242616378026e-06,
      "loss": 0.0022,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 773
    },
    {
      "completion_length": 145.5,
      "epoch": 0.1935,
      "grad_norm": 0.7011691331863403,
      "kl": 0.060724180191755295,
      "learning_rate": 4.868025694365073e-06,
      "loss": 0.0024,
      "reward": 1.8762500286102295,
      "reward_std": 0.35001784563064575,
      "rewards/_accuracy_reward": 0.8762500286102295,
      "rewards/_format_reward": 1.0,
      "step": 774
    },
    {
      "completion_length": 153.875,
      "epoch": 0.19375,
      "grad_norm": 0.8208072185516357,
      "kl": 0.06594527512788773,
      "learning_rate": 4.867325323737765e-06,
      "loss": 0.0026,
      "reward": 1.662500023841858,
      "reward_std": 0.7024192810058594,
      "rewards/_accuracy_reward": 0.7875000238418579,
      "rewards/_format_reward": 0.875,
      "step": 775
    },
    {
      "completion_length": 73.5,
      "epoch": 0.194,
      "grad_norm": 1.4499397277832031,
      "kl": 0.07009965926408768,
      "learning_rate": 4.866623150289241e-06,
      "loss": 0.0028,
      "reward": 1.787500023841858,
      "reward_std": 0.39708763360977173,
      "rewards/_accuracy_reward": 0.7875000238418579,
      "rewards/_format_reward": 1.0,
      "step": 776
    },
    {
      "completion_length": 145.875,
      "epoch": 0.19425,
      "grad_norm": 0.7058715224266052,
      "kl": 0.04987990856170654,
      "learning_rate": 4.865919174554238e-06,
      "loss": 0.002,
      "reward": 1.6437499523162842,
      "reward_std": 0.49167174100875854,
      "rewards/_accuracy_reward": 0.6437499523162842,
      "rewards/_format_reward": 1.0,
      "step": 777
    },
    {
      "completion_length": 171.375,
      "epoch": 0.1945,
      "grad_norm": 0.552635908126831,
      "kl": 0.06489388644695282,
      "learning_rate": 4.865213397068864e-06,
      "loss": 0.0026,
      "reward": 1.15625,
      "reward_std": 0.6343936920166016,
      "rewards/_accuracy_reward": 0.2812499701976776,
      "rewards/_format_reward": 0.875,
      "step": 778
    },
    {
      "completion_length": 115.5,
      "epoch": 0.19475,
      "grad_norm": 0.7429036498069763,
      "kl": 0.03541000187397003,
      "learning_rate": 4.8645058183705976e-06,
      "loss": 0.0014,
      "reward": 1.8125,
      "reward_std": 0.3471825420856476,
      "rewards/_accuracy_reward": 0.8125,
      "rewards/_format_reward": 1.0,
      "step": 779
    },
    {
      "completion_length": 139.375,
      "epoch": 0.195,
      "grad_norm": 0.6708275675773621,
      "kl": 0.0737345740199089,
      "learning_rate": 4.863796438998293e-06,
      "loss": 0.0029,
      "reward": 1.787500023841858,
      "reward_std": 0.39708760380744934,
      "rewards/_accuracy_reward": 0.7875000238418579,
      "rewards/_format_reward": 1.0,
      "step": 780
    },
    {
      "completion_length": 80.625,
      "epoch": 0.19525,
      "grad_norm": 1.0399796962738037,
      "kl": 0.06832250952720642,
      "learning_rate": 4.863085259492171e-06,
      "loss": 0.0027,
      "reward": 1.625,
      "reward_std": 0.40089187026023865,
      "rewards/_accuracy_reward": 0.625,
      "rewards/_format_reward": 1.0,
      "step": 781
    },
    {
      "completion_length": 84.5,
      "epoch": 0.1955,
      "grad_norm": 0.02351105399429798,
      "kl": 0.053186241537332535,
      "learning_rate": 4.862372280393828e-06,
      "loss": 0.0021,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 782
    },
    {
      "completion_length": 115.125,
      "epoch": 0.19575,
      "grad_norm": 0.7121822834014893,
      "kl": 0.07135632634162903,
      "learning_rate": 4.861657502246226e-06,
      "loss": 0.0029,
      "reward": 1.8125,
      "reward_std": 0.3471825420856476,
      "rewards/_accuracy_reward": 0.8125,
      "rewards/_format_reward": 1.0,
      "step": 783
    },
    {
      "completion_length": 126.625,
      "epoch": 0.196,
      "grad_norm": 0.8840348720550537,
      "kl": 0.03291170299053192,
      "learning_rate": 4.860940925593703e-06,
      "loss": 0.0013,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 784
    },
    {
      "completion_length": 190.625,
      "epoch": 0.19625,
      "grad_norm": 0.5434854626655579,
      "kl": 0.04633787274360657,
      "learning_rate": 4.860222550981961e-06,
      "loss": 0.0019,
      "reward": 1.3125,
      "reward_std": 0.873723566532135,
      "rewards/_accuracy_reward": 0.5625,
      "rewards/_format_reward": 0.75,
      "step": 785
    },
    {
      "completion_length": 138.25,
      "epoch": 0.1965,
      "grad_norm": 0.6125333309173584,
      "kl": 0.04772162437438965,
      "learning_rate": 4.8595023789580745e-06,
      "loss": 0.0019,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 786
    },
    {
      "completion_length": 160.375,
      "epoch": 0.19675,
      "grad_norm": 0.7128032445907593,
      "kl": 0.07775954157114029,
      "learning_rate": 4.858780410070484e-06,
      "loss": 0.0031,
      "reward": 1.6437499523162842,
      "reward_std": 0.49167174100875854,
      "rewards/_accuracy_reward": 0.643750011920929,
      "rewards/_format_reward": 1.0,
      "step": 787
    },
    {
      "completion_length": 172.125,
      "epoch": 0.197,
      "grad_norm": 0.9440908432006836,
      "kl": 0.06862717866897583,
      "learning_rate": 4.858056644869002e-06,
      "loss": 0.0027,
      "reward": 1.1437499523162842,
      "reward_std": 0.8317097425460815,
      "rewards/_accuracy_reward": 0.39374998211860657,
      "rewards/_format_reward": 0.75,
      "step": 788
    },
    {
      "completion_length": 198.25,
      "epoch": 0.19725,
      "grad_norm": 0.6834743618965149,
      "kl": 0.055516257882118225,
      "learning_rate": 4.8573310839048085e-06,
      "loss": 0.0022,
      "reward": 1.5,
      "reward_std": 0.9258201122283936,
      "rewards/_accuracy_reward": 0.75,
      "rewards/_format_reward": 0.75,
      "step": 789
    },
    {
      "completion_length": 172.125,
      "epoch": 0.1975,
      "grad_norm": 0.5438332557678223,
      "kl": 0.07543152570724487,
      "learning_rate": 4.856603727730446e-06,
      "loss": 0.003,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 790
    },
    {
      "completion_length": 134.125,
      "epoch": 0.19775,
      "grad_norm": 0.6861331462860107,
      "kl": 0.06321967393159866,
      "learning_rate": 4.855874576899831e-06,
      "loss": 0.0025,
      "reward": 1.2874999046325684,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.2874999940395355,
      "rewards/_format_reward": 1.0,
      "step": 791
    },
    {
      "completion_length": 104.75,
      "epoch": 0.198,
      "grad_norm": 1.0154536962509155,
      "kl": 0.08728273957967758,
      "learning_rate": 4.855143631968242e-06,
      "loss": 0.0035,
      "reward": 1.524999976158142,
      "reward_std": 0.5077964067459106,
      "rewards/_accuracy_reward": 0.5249999761581421,
      "rewards/_format_reward": 1.0,
      "step": 792
    },
    {
      "completion_length": 132.0,
      "epoch": 0.19825,
      "grad_norm": 0.7148137092590332,
      "kl": 0.09352617710828781,
      "learning_rate": 4.854410893492326e-06,
      "loss": 0.0037,
      "reward": 1.4375,
      "reward_std": 0.8530408143997192,
      "rewards/_accuracy_reward": 0.6875,
      "rewards/_format_reward": 0.75,
      "step": 793
    },
    {
      "completion_length": 136.25,
      "epoch": 0.1985,
      "grad_norm": 0.6906197667121887,
      "kl": 0.056963000446558,
      "learning_rate": 4.853676362030095e-06,
      "loss": 0.0023,
      "reward": 1.524999976158142,
      "reward_std": 0.5077964067459106,
      "rewards/_accuracy_reward": 0.5249999761581421,
      "rewards/_format_reward": 1.0,
      "step": 794
    },
    {
      "completion_length": 176.5,
      "epoch": 0.19875,
      "grad_norm": 0.04440414160490036,
      "kl": 0.08904334902763367,
      "learning_rate": 4.852940038140927e-06,
      "loss": 0.0036,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 795
    },
    {
      "completion_length": 120.375,
      "epoch": 0.199,
      "grad_norm": 0.07577986270189285,
      "kl": 0.07960440963506699,
      "learning_rate": 4.852201922385564e-06,
      "loss": 0.0032,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 796
    },
    {
      "completion_length": 169.625,
      "epoch": 0.19925,
      "grad_norm": 0.6561159491539001,
      "kl": 0.06286200135946274,
      "learning_rate": 4.851462015326114e-06,
      "loss": 0.0025,
      "reward": 1.502500057220459,
      "reward_std": 0.7540509700775146,
      "rewards/_accuracy_reward": 0.627500057220459,
      "rewards/_format_reward": 0.875,
      "step": 797
    },
    {
      "completion_length": 117.75,
      "epoch": 0.1995,
      "grad_norm": 0.6921773552894592,
      "kl": 0.03880568593740463,
      "learning_rate": 4.850720317526047e-06,
      "loss": 0.0016,
      "reward": 1.7625000476837158,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.7625000476837158,
      "rewards/_format_reward": 1.0,
      "step": 798
    },
    {
      "completion_length": 174.125,
      "epoch": 0.19975,
      "grad_norm": 0.025037772953510284,
      "kl": 0.05044008791446686,
      "learning_rate": 4.8499768295502e-06,
      "loss": 0.002,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 799
    },
    {
      "completion_length": 117.25,
      "epoch": 0.2,
      "grad_norm": 0.742163896560669,
      "kl": 0.08251883089542389,
      "learning_rate": 4.849231551964771e-06,
      "loss": 0.0033,
      "reward": 1.6887500286102295,
      "reward_std": 0.43590423464775085,
      "rewards/_accuracy_reward": 0.6887500286102295,
      "rewards/_format_reward": 1.0,
      "step": 800
    },
    {
      "completion_length": 134.5,
      "epoch": 0.20025,
      "grad_norm": 0.8082313537597656,
      "kl": 0.06866247951984406,
      "learning_rate": 4.8484844853373205e-06,
      "loss": 0.0027,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 801
    },
    {
      "completion_length": 140.375,
      "epoch": 0.2005,
      "grad_norm": 0.04818421229720116,
      "kl": 0.07798528671264648,
      "learning_rate": 4.847735630236773e-06,
      "loss": 0.0031,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 802
    },
    {
      "completion_length": 136.625,
      "epoch": 0.20075,
      "grad_norm": 0.741947591304779,
      "kl": 0.07387517392635345,
      "learning_rate": 4.846984987233414e-06,
      "loss": 0.003,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 803
    },
    {
      "completion_length": 142.625,
      "epoch": 0.201,
      "grad_norm": 0.862678050994873,
      "kl": 0.06001199409365654,
      "learning_rate": 4.84623255689889e-06,
      "loss": 0.0024,
      "reward": 1.4187500476837158,
      "reward_std": 0.7235515117645264,
      "rewards/_accuracy_reward": 0.543749988079071,
      "rewards/_format_reward": 0.875,
      "step": 804
    },
    {
      "completion_length": 156.5,
      "epoch": 0.20125,
      "grad_norm": 0.6630946397781372,
      "kl": 0.06096571311354637,
      "learning_rate": 4.845478339806211e-06,
      "loss": 0.0024,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 805
    },
    {
      "completion_length": 128.875,
      "epoch": 0.2015,
      "grad_norm": 0.6322165131568909,
      "kl": 0.054042182862758636,
      "learning_rate": 4.844722336529745e-06,
      "loss": 0.0022,
      "reward": 1.6437499523162842,
      "reward_std": 0.49167174100875854,
      "rewards/_accuracy_reward": 0.6437499523162842,
      "rewards/_format_reward": 1.0,
      "step": 806
    },
    {
      "completion_length": 116.125,
      "epoch": 0.20175,
      "grad_norm": 0.06692986190319061,
      "kl": 0.0923774242401123,
      "learning_rate": 4.843964547645221e-06,
      "loss": 0.0037,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 807
    },
    {
      "completion_length": 110.75,
      "epoch": 0.202,
      "grad_norm": 1.2808027267456055,
      "kl": 0.07200721651315689,
      "learning_rate": 4.84320497372973e-06,
      "loss": 0.0029,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 808
    },
    {
      "completion_length": 153.25,
      "epoch": 0.20225,
      "grad_norm": 0.6430820822715759,
      "kl": 0.061430469155311584,
      "learning_rate": 4.842443615361718e-06,
      "loss": 0.0025,
      "reward": 1.631250023841858,
      "reward_std": 0.738210916519165,
      "rewards/_accuracy_reward": 0.7562500238418579,
      "rewards/_format_reward": 0.875,
      "step": 809
    },
    {
      "completion_length": 117.125,
      "epoch": 0.2025,
      "grad_norm": 0.9564692974090576,
      "kl": 0.09131399542093277,
      "learning_rate": 4.841680473120994e-06,
      "loss": 0.0037,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 810
    },
    {
      "completion_length": 163.375,
      "epoch": 0.20275,
      "grad_norm": 0.6316709518432617,
      "kl": 0.05354610085487366,
      "learning_rate": 4.840915547588725e-06,
      "loss": 0.0021,
      "reward": 1.3125,
      "reward_std": 0.4299086630344391,
      "rewards/_accuracy_reward": 0.3124999701976776,
      "rewards/_format_reward": 1.0,
      "step": 811
    },
    {
      "completion_length": 169.5,
      "epoch": 0.203,
      "grad_norm": 0.6619630455970764,
      "kl": 0.07358560711145401,
      "learning_rate": 4.840148839347434e-06,
      "loss": 0.0029,
      "reward": 1.287500023841858,
      "reward_std": 0.8786150217056274,
      "rewards/_accuracy_reward": 0.5375000238418579,
      "rewards/_format_reward": 0.75,
      "step": 812
    },
    {
      "completion_length": 161.875,
      "epoch": 0.20325,
      "grad_norm": 0.6946004629135132,
      "kl": 0.06069519370794296,
      "learning_rate": 4.839380348981002e-06,
      "loss": 0.0024,
      "reward": 1.8762500286102295,
      "reward_std": 0.35001784563064575,
      "rewards/_accuracy_reward": 0.8762500286102295,
      "rewards/_format_reward": 1.0,
      "step": 813
    },
    {
      "completion_length": 120.0,
      "epoch": 0.2035,
      "grad_norm": 0.7291589379310608,
      "kl": 0.07319469004869461,
      "learning_rate": 4.838610077074669e-06,
      "loss": 0.0029,
      "reward": 1.412500023841858,
      "reward_std": 0.7273975014686584,
      "rewards/_accuracy_reward": 0.6625000238418579,
      "rewards/_format_reward": 0.75,
      "step": 814
    },
    {
      "completion_length": 155.75,
      "epoch": 0.20375,
      "grad_norm": 0.6683049201965332,
      "kl": 0.06487289816141129,
      "learning_rate": 4.83783802421503e-06,
      "loss": 0.0026,
      "reward": 1.7575000524520874,
      "reward_std": 0.449150025844574,
      "rewards/_accuracy_reward": 0.7574999928474426,
      "rewards/_format_reward": 1.0,
      "step": 815
    },
    {
      "completion_length": 60.625,
      "epoch": 0.204,
      "grad_norm": 1.0868297815322876,
      "kl": 0.07810930162668228,
      "learning_rate": 4.837064190990036e-06,
      "loss": 0.0031,
      "reward": 1.8125,
      "reward_std": 0.3471825420856476,
      "rewards/_accuracy_reward": 0.8125,
      "rewards/_format_reward": 1.0,
      "step": 816
    },
    {
      "completion_length": 153.375,
      "epoch": 0.20425,
      "grad_norm": 0.03452404588460922,
      "kl": 0.06881213933229446,
      "learning_rate": 4.836288577988997e-06,
      "loss": 0.0028,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 817
    },
    {
      "completion_length": 114.0,
      "epoch": 0.2045,
      "grad_norm": 0.8613672256469727,
      "kl": 0.0681089535355568,
      "learning_rate": 4.835511185802574e-06,
      "loss": 0.0027,
      "reward": 1.1624999046325684,
      "reward_std": 0.6214901804924011,
      "rewards/_accuracy_reward": 0.28749996423721313,
      "rewards/_format_reward": 0.875,
      "step": 818
    },
    {
      "completion_length": 133.375,
      "epoch": 0.20475,
      "grad_norm": 0.030039411038160324,
      "kl": 0.06410800665616989,
      "learning_rate": 4.834732015022786e-06,
      "loss": 0.0026,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 819
    },
    {
      "completion_length": 129.625,
      "epoch": 0.205,
      "grad_norm": 0.03727323189377785,
      "kl": 0.06535054743289948,
      "learning_rate": 4.833951066243004e-06,
      "loss": 0.0026,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 820
    },
    {
      "completion_length": 127.125,
      "epoch": 0.20525,
      "grad_norm": 0.7753097414970398,
      "kl": 0.05497225001454353,
      "learning_rate": 4.833168340057957e-06,
      "loss": 0.0022,
      "reward": 1.6687500476837158,
      "reward_std": 0.4613160789012909,
      "rewards/_accuracy_reward": 0.6687500476837158,
      "rewards/_format_reward": 1.0,
      "step": 821
    },
    {
      "completion_length": 117.5,
      "epoch": 0.2055,
      "grad_norm": 1.0983308553695679,
      "kl": 0.07010284066200256,
      "learning_rate": 4.832383837063723e-06,
      "loss": 0.0028,
      "reward": 1.8125,
      "reward_std": 0.3471825420856476,
      "rewards/_accuracy_reward": 0.8125,
      "rewards/_format_reward": 1.0,
      "step": 822
    },
    {
      "completion_length": 182.0,
      "epoch": 0.20575,
      "grad_norm": 0.9410927891731262,
      "kl": 0.08402031660079956,
      "learning_rate": 4.831597557857736e-06,
      "loss": 0.0034,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 823
    },
    {
      "completion_length": 100.375,
      "epoch": 0.206,
      "grad_norm": 0.8562926650047302,
      "kl": 0.10385450720787048,
      "learning_rate": 4.830809503038781e-06,
      "loss": 0.0042,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 824
    },
    {
      "completion_length": 92.875,
      "epoch": 0.20625,
      "grad_norm": 0.051143430173397064,
      "kl": 0.07470560818910599,
      "learning_rate": 4.830019673206997e-06,
      "loss": 0.003,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 825
    },
    {
      "completion_length": 173.75,
      "epoch": 0.2065,
      "grad_norm": 0.4477454423904419,
      "kl": 0.055387578904628754,
      "learning_rate": 4.829228068963873e-06,
      "loss": 0.0022,
      "reward": 0.9087499380111694,
      "reward_std": 0.3676348030567169,
      "rewards/_accuracy_reward": 0.03374999761581421,
      "rewards/_format_reward": 0.875,
      "step": 826
    },
    {
      "completion_length": 123.5,
      "epoch": 0.20675,
      "grad_norm": 0.7335723638534546,
      "kl": 0.06967341154813766,
      "learning_rate": 4.828434690912251e-06,
      "loss": 0.0028,
      "reward": 1.4562499523162842,
      "reward_std": 0.45781898498535156,
      "rewards/_accuracy_reward": 0.45624998211860657,
      "rewards/_format_reward": 1.0,
      "step": 827
    },
    {
      "completion_length": 158.375,
      "epoch": 0.207,
      "grad_norm": 0.787886917591095,
      "kl": 0.04925302416086197,
      "learning_rate": 4.8276395396563215e-06,
      "loss": 0.002,
      "reward": 1.8762500286102295,
      "reward_std": 0.35001784563064575,
      "rewards/_accuracy_reward": 0.8762500286102295,
      "rewards/_format_reward": 1.0,
      "step": 828
    },
    {
      "completion_length": 145.5,
      "epoch": 0.20725,
      "grad_norm": 0.045704782009124756,
      "kl": 0.06455915421247482,
      "learning_rate": 4.826842615801628e-06,
      "loss": 0.0026,
      "reward": 1.0499999523162842,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 0.05000000074505806,
      "rewards/_format_reward": 1.0,
      "step": 829
    },
    {
      "completion_length": 159.75,
      "epoch": 0.2075,
      "grad_norm": 0.7860205173492432,
      "kl": 0.06909380853176117,
      "learning_rate": 4.826043919955062e-06,
      "loss": 0.0028,
      "reward": 1.212499976158142,
      "reward_std": 0.6180325746536255,
      "rewards/_accuracy_reward": 0.3374999761581421,
      "rewards/_format_reward": 0.875,
      "step": 830
    },
    {
      "completion_length": 141.125,
      "epoch": 0.20775,
      "grad_norm": 0.7281314134597778,
      "kl": 0.05228433758020401,
      "learning_rate": 4.825243452724865e-06,
      "loss": 0.0021,
      "reward": 1.524999976158142,
      "reward_std": 0.5077964067459106,
      "rewards/_accuracy_reward": 0.5249999761581421,
      "rewards/_format_reward": 1.0,
      "step": 831
    },
    {
      "completion_length": 105.375,
      "epoch": 0.208,
      "grad_norm": 0.6620430946350098,
      "kl": 0.057157788425683975,
      "learning_rate": 4.824441214720629e-06,
      "loss": 0.0023,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 832
    },
    {
      "completion_length": 161.375,
      "epoch": 0.20825,
      "grad_norm": 0.6484058499336243,
      "kl": 0.05974971503019333,
      "learning_rate": 4.823637206553292e-06,
      "loss": 0.0024,
      "reward": 1.8125,
      "reward_std": 0.3471825420856476,
      "rewards/_accuracy_reward": 0.8125,
      "rewards/_format_reward": 1.0,
      "step": 833
    },
    {
      "completion_length": 150.125,
      "epoch": 0.2085,
      "grad_norm": 0.6747198104858398,
      "kl": 0.0536816343665123,
      "learning_rate": 4.8228314288351405e-06,
      "loss": 0.0021,
      "reward": 1.631250023841858,
      "reward_std": 0.738210916519165,
      "rewards/_accuracy_reward": 0.7562500238418579,
      "rewards/_format_reward": 0.875,
      "step": 834
    },
    {
      "completion_length": 149.125,
      "epoch": 0.20875,
      "grad_norm": 0.7284613847732544,
      "kl": 0.04191889986395836,
      "learning_rate": 4.822023882179811e-06,
      "loss": 0.0017,
      "reward": 1.7625000476837158,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.7625000476837158,
      "rewards/_format_reward": 1.0,
      "step": 835
    },
    {
      "completion_length": 111.25,
      "epoch": 0.209,
      "grad_norm": 0.880097508430481,
      "kl": 0.056231893599033356,
      "learning_rate": 4.821214567202284e-06,
      "loss": 0.0022,
      "reward": 1.693750023841858,
      "reward_std": 0.4271479547023773,
      "rewards/_accuracy_reward": 0.6937500238418579,
      "rewards/_format_reward": 1.0,
      "step": 836
    },
    {
      "completion_length": 110.375,
      "epoch": 0.20925,
      "grad_norm": 0.04309391230344772,
      "kl": 0.044359609484672546,
      "learning_rate": 4.820403484518889e-06,
      "loss": 0.0018,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 837
    },
    {
      "completion_length": 160.125,
      "epoch": 0.2095,
      "grad_norm": 0.6122051477432251,
      "kl": 0.07158859074115753,
      "learning_rate": 4.8195906347473e-06,
      "loss": 0.0029,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 838
    },
    {
      "completion_length": 144.75,
      "epoch": 0.20975,
      "grad_norm": 0.739141047000885,
      "kl": 0.04880441725254059,
      "learning_rate": 4.818776018506538e-06,
      "loss": 0.002,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 839
    },
    {
      "completion_length": 158.75,
      "epoch": 0.21,
      "grad_norm": 0.7204335331916809,
      "kl": 0.08992164582014084,
      "learning_rate": 4.817959636416969e-06,
      "loss": 0.0036,
      "reward": 1.693750023841858,
      "reward_std": 0.4271479547023773,
      "rewards/_accuracy_reward": 0.6937500238418579,
      "rewards/_format_reward": 1.0,
      "step": 840
    },
    {
      "completion_length": 156.25,
      "epoch": 0.21025,
      "grad_norm": 0.9104655385017395,
      "kl": 0.060113731771707535,
      "learning_rate": 4.817141489100302e-06,
      "loss": 0.0024,
      "reward": 1.524999976158142,
      "reward_std": 0.5077964067459106,
      "rewards/_accuracy_reward": 0.5249999761581421,
      "rewards/_format_reward": 1.0,
      "step": 841
    },
    {
      "completion_length": 163.0,
      "epoch": 0.2105,
      "grad_norm": 0.6259116530418396,
      "kl": 0.05476780980825424,
      "learning_rate": 4.816321577179594e-06,
      "loss": 0.0022,
      "reward": 1.7625000476837158,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.762499988079071,
      "rewards/_format_reward": 1.0,
      "step": 842
    },
    {
      "completion_length": 137.0,
      "epoch": 0.21075,
      "grad_norm": 0.04252244159579277,
      "kl": 0.06695520132780075,
      "learning_rate": 4.815499901279242e-06,
      "loss": 0.0027,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 843
    },
    {
      "completion_length": 139.75,
      "epoch": 0.211,
      "grad_norm": 0.025353508070111275,
      "kl": 0.05481298640370369,
      "learning_rate": 4.814676462024988e-06,
      "loss": 0.0022,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 844
    },
    {
      "completion_length": 78.125,
      "epoch": 0.21125,
      "grad_norm": 1.239617943763733,
      "kl": 0.08213215321302414,
      "learning_rate": 4.8138512600439165e-06,
      "loss": 0.0033,
      "reward": 1.625,
      "reward_std": 0.40089187026023865,
      "rewards/_accuracy_reward": 0.625,
      "rewards/_format_reward": 1.0,
      "step": 845
    },
    {
      "completion_length": 151.0,
      "epoch": 0.2115,
      "grad_norm": 0.6661514639854431,
      "kl": 0.061599262058734894,
      "learning_rate": 4.8130242959644555e-06,
      "loss": 0.0025,
      "reward": 1.7625000476837158,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.762499988079071,
      "rewards/_format_reward": 1.0,
      "step": 846
    },
    {
      "completion_length": 188.625,
      "epoch": 0.21175,
      "grad_norm": 0.6768038272857666,
      "kl": 0.08369094878435135,
      "learning_rate": 4.812195570416374e-06,
      "loss": 0.0033,
      "reward": 1.5625,
      "reward_std": 0.7165144085884094,
      "rewards/_accuracy_reward": 0.6875,
      "rewards/_format_reward": 0.875,
      "step": 847
    },
    {
      "completion_length": 122.875,
      "epoch": 0.212,
      "grad_norm": 0.029910584911704063,
      "kl": 0.048999685794115067,
      "learning_rate": 4.811365084030784e-06,
      "loss": 0.002,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 848
    },
    {
      "completion_length": 118.5,
      "epoch": 0.21225,
      "grad_norm": 0.8244682550430298,
      "kl": 0.0865970253944397,
      "learning_rate": 4.810532837440134e-06,
      "loss": 0.0035,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 849
    },
    {
      "completion_length": 151.25,
      "epoch": 0.2125,
      "grad_norm": 0.03901531174778938,
      "kl": 0.05925080180168152,
      "learning_rate": 4.809698831278217e-06,
      "loss": 0.0024,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 850
    },
    {
      "completion_length": 99.125,
      "epoch": 0.21275,
      "grad_norm": 0.764251708984375,
      "kl": 0.08566372096538544,
      "learning_rate": 4.808863066180167e-06,
      "loss": 0.0034,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 851
    },
    {
      "completion_length": 149.375,
      "epoch": 0.213,
      "grad_norm": 0.04004070907831192,
      "kl": 0.0646246075630188,
      "learning_rate": 4.808025542782453e-06,
      "loss": 0.0026,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 852
    },
    {
      "completion_length": 148.875,
      "epoch": 0.21325,
      "grad_norm": 0.6666520237922668,
      "kl": 0.037436630576848984,
      "learning_rate": 4.807186261722886e-06,
      "loss": 0.0015,
      "reward": 1.71875,
      "reward_std": 0.38816189765930176,
      "rewards/_accuracy_reward": 0.71875,
      "rewards/_format_reward": 1.0,
      "step": 853
    },
    {
      "completion_length": 127.5,
      "epoch": 0.2135,
      "grad_norm": 0.6818517446517944,
      "kl": 0.04620020091533661,
      "learning_rate": 4.806345223640616e-06,
      "loss": 0.0018,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 854
    },
    {
      "completion_length": 176.625,
      "epoch": 0.21375,
      "grad_norm": 0.7384047508239746,
      "kl": 0.05121048539876938,
      "learning_rate": 4.80550242917613e-06,
      "loss": 0.002,
      "reward": 1.7512500286102295,
      "reward_std": 0.460603266954422,
      "rewards/_accuracy_reward": 0.8762500286102295,
      "rewards/_format_reward": 0.875,
      "step": 855
    },
    {
      "completion_length": 154.25,
      "epoch": 0.214,
      "grad_norm": 0.6194064617156982,
      "kl": 0.059958089143037796,
      "learning_rate": 4.804657878971252e-06,
      "loss": 0.0024,
      "reward": 1.625,
      "reward_std": 0.7440237998962402,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.75,
      "step": 856
    },
    {
      "completion_length": 98.0,
      "epoch": 0.21425,
      "grad_norm": 0.8191832304000854,
      "kl": 0.058027323335409164,
      "learning_rate": 4.803811573669143e-06,
      "loss": 0.0023,
      "reward": 1.4562499523162842,
      "reward_std": 0.45781898498535156,
      "rewards/_accuracy_reward": 0.45624998211860657,
      "rewards/_format_reward": 1.0,
      "step": 857
    },
    {
      "completion_length": 108.375,
      "epoch": 0.2145,
      "grad_norm": 0.6157840490341187,
      "kl": 0.03446981683373451,
      "learning_rate": 4.802963513914304e-06,
      "loss": 0.0014,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 858
    },
    {
      "completion_length": 139.375,
      "epoch": 0.21475,
      "grad_norm": 0.5992308259010315,
      "kl": 0.03977646678686142,
      "learning_rate": 4.802113700352567e-06,
      "loss": 0.0016,
      "reward": 1.7625000476837158,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.762499988079071,
      "rewards/_format_reward": 1.0,
      "step": 859
    },
    {
      "completion_length": 130.125,
      "epoch": 0.215,
      "grad_norm": 0.6911972165107727,
      "kl": 0.06907260417938232,
      "learning_rate": 4.801262133631101e-06,
      "loss": 0.0028,
      "reward": 1.7625000476837158,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.7625000476837158,
      "rewards/_format_reward": 1.0,
      "step": 860
    },
    {
      "completion_length": 144.25,
      "epoch": 0.21525,
      "grad_norm": 0.928624153137207,
      "kl": 0.06295520812273026,
      "learning_rate": 4.800408814398414e-06,
      "loss": 0.0025,
      "reward": 1.8125,
      "reward_std": 0.3471825420856476,
      "rewards/_accuracy_reward": 0.8125,
      "rewards/_format_reward": 1.0,
      "step": 861
    },
    {
      "completion_length": 122.625,
      "epoch": 0.2155,
      "grad_norm": 0.8381000757217407,
      "kl": 0.05789494886994362,
      "learning_rate": 4.799553743304345e-06,
      "loss": 0.0023,
      "reward": 1.7625000476837158,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.762499988079071,
      "rewards/_format_reward": 1.0,
      "step": 862
    },
    {
      "completion_length": 152.625,
      "epoch": 0.21575,
      "grad_norm": 0.5595877766609192,
      "kl": 0.057784553617239,
      "learning_rate": 4.798696921000066e-06,
      "loss": 0.0023,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 863
    },
    {
      "completion_length": 132.5,
      "epoch": 0.216,
      "grad_norm": 0.02260027453303337,
      "kl": 0.05030575767159462,
      "learning_rate": 4.7978383481380865e-06,
      "loss": 0.002,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 864
    },
    {
      "completion_length": 118.875,
      "epoch": 0.21625,
      "grad_norm": 0.7802910804748535,
      "kl": 0.05282498896121979,
      "learning_rate": 4.796978025372247e-06,
      "loss": 0.0021,
      "reward": 1.3937499523162842,
      "reward_std": 0.7336004972457886,
      "rewards/_accuracy_reward": 0.5187499523162842,
      "rewards/_format_reward": 0.875,
      "step": 865
    },
    {
      "completion_length": 156.125,
      "epoch": 0.2165,
      "grad_norm": 0.02012362889945507,
      "kl": 0.04851672798395157,
      "learning_rate": 4.796115953357718e-06,
      "loss": 0.0019,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 866
    },
    {
      "completion_length": 138.5,
      "epoch": 0.21675,
      "grad_norm": 0.03598388284444809,
      "kl": 0.0767478421330452,
      "learning_rate": 4.795252132751008e-06,
      "loss": 0.0031,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 867
    },
    {
      "completion_length": 121.125,
      "epoch": 0.217,
      "grad_norm": 0.9107113480567932,
      "kl": 0.0775720402598381,
      "learning_rate": 4.794386564209953e-06,
      "loss": 0.0031,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 868
    },
    {
      "completion_length": 168.875,
      "epoch": 0.21725,
      "grad_norm": 0.6234192848205566,
      "kl": 0.06976676732301712,
      "learning_rate": 4.793519248393721e-06,
      "loss": 0.0028,
      "reward": 1.5125000476837158,
      "reward_std": 0.7467787861824036,
      "rewards/_accuracy_reward": 0.6375000476837158,
      "rewards/_format_reward": 0.875,
      "step": 869
    },
    {
      "completion_length": 133.75,
      "epoch": 0.2175,
      "grad_norm": 0.7727608680725098,
      "kl": 0.12097954005002975,
      "learning_rate": 4.79265018596281e-06,
      "loss": 0.0048,
      "reward": 1.40625,
      "reward_std": 0.49167174100875854,
      "rewards/_accuracy_reward": 0.4062499701976776,
      "rewards/_format_reward": 1.0,
      "step": 870
    },
    {
      "completion_length": 146.625,
      "epoch": 0.21775,
      "grad_norm": 0.5868052244186401,
      "kl": 0.042058780789375305,
      "learning_rate": 4.791779377579051e-06,
      "loss": 0.0017,
      "reward": 1.7625000476837158,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.762499988079071,
      "rewards/_format_reward": 1.0,
      "step": 871
    },
    {
      "completion_length": 203.625,
      "epoch": 0.218,
      "grad_norm": 0.023968705907464027,
      "kl": 0.05295765399932861,
      "learning_rate": 4.790906823905599e-06,
      "loss": 0.0021,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 872
    },
    {
      "completion_length": 167.625,
      "epoch": 0.21825,
      "grad_norm": 0.563790500164032,
      "kl": 0.03417491540312767,
      "learning_rate": 4.790032525606945e-06,
      "loss": 0.0014,
      "reward": 1.1687499284744263,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.16875000298023224,
      "rewards/_format_reward": 1.0,
      "step": 873
    },
    {
      "completion_length": 104.875,
      "epoch": 0.2185,
      "grad_norm": 0.6778443455696106,
      "kl": 0.05654909834265709,
      "learning_rate": 4.7891564833489035e-06,
      "loss": 0.0023,
      "reward": 1.71875,
      "reward_std": 0.38816189765930176,
      "rewards/_accuracy_reward": 0.71875,
      "rewards/_format_reward": 1.0,
      "step": 874
    },
    {
      "completion_length": 156.25,
      "epoch": 0.21875,
      "grad_norm": 0.693367600440979,
      "kl": 0.05336631089448929,
      "learning_rate": 4.788278697798619e-06,
      "loss": 0.0021,
      "reward": 1.7625000476837158,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.762499988079071,
      "rewards/_format_reward": 1.0,
      "step": 875
    },
    {
      "completion_length": 187.125,
      "epoch": 0.219,
      "grad_norm": 0.6634543538093567,
      "kl": 0.06201925501227379,
      "learning_rate": 4.787399169624562e-06,
      "loss": 0.0025,
      "reward": 1.1937499046325684,
      "reward_std": 0.33320683240890503,
      "rewards/_accuracy_reward": 0.19374999403953552,
      "rewards/_format_reward": 1.0,
      "step": 876
    },
    {
      "completion_length": 169.125,
      "epoch": 0.21925,
      "grad_norm": 0.625119149684906,
      "kl": 0.06440308690071106,
      "learning_rate": 4.786517899496535e-06,
      "loss": 0.0026,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 0.875,
      "step": 877
    },
    {
      "completion_length": 101.875,
      "epoch": 0.2195,
      "grad_norm": 0.7212375402450562,
      "kl": 0.06768248230218887,
      "learning_rate": 4.7856348880856595e-06,
      "loss": 0.0027,
      "reward": 1.7625000476837158,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.762499988079071,
      "rewards/_format_reward": 1.0,
      "step": 878
    },
    {
      "completion_length": 125.5,
      "epoch": 0.21975,
      "grad_norm": 0.8191072344779968,
      "kl": 0.08255218714475632,
      "learning_rate": 4.78475013606439e-06,
      "loss": 0.0033,
      "reward": 1.524999976158142,
      "reward_std": 0.5077964067459106,
      "rewards/_accuracy_reward": 0.5249999761581421,
      "rewards/_format_reward": 1.0,
      "step": 879
    },
    {
      "completion_length": 165.0,
      "epoch": 0.22,
      "grad_norm": 0.5947607159614563,
      "kl": 0.03656945377588272,
      "learning_rate": 4.783863644106502e-06,
      "loss": 0.0015,
      "reward": 1.8762500286102295,
      "reward_std": 0.35001784563064575,
      "rewards/_accuracy_reward": 0.8762500286102295,
      "rewards/_format_reward": 1.0,
      "step": 880
    },
    {
      "completion_length": 84.0,
      "epoch": 0.22025,
      "grad_norm": 0.7441555857658386,
      "kl": 0.1628367006778717,
      "learning_rate": 4.7829754128871e-06,
      "loss": 0.0065,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 881
    },
    {
      "completion_length": 123.5,
      "epoch": 0.2205,
      "grad_norm": 0.697911262512207,
      "kl": 0.08555817604064941,
      "learning_rate": 4.782085443082607e-06,
      "loss": 0.0034,
      "reward": 1.71875,
      "reward_std": 0.38816189765930176,
      "rewards/_accuracy_reward": 0.71875,
      "rewards/_format_reward": 1.0,
      "step": 882
    },
    {
      "completion_length": 120.125,
      "epoch": 0.22075,
      "grad_norm": 0.02246098220348358,
      "kl": 0.05425877869129181,
      "learning_rate": 4.7811937353707776e-06,
      "loss": 0.0022,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 883
    },
    {
      "completion_length": 231.875,
      "epoch": 0.221,
      "grad_norm": 0.4748757779598236,
      "kl": 0.04530277103185654,
      "learning_rate": 4.780300290430683e-06,
      "loss": 0.0018,
      "reward": 1.25,
      "reward_std": 1.0350983142852783,
      "rewards/_accuracy_reward": 0.625,
      "rewards/_format_reward": 0.625,
      "step": 884
    },
    {
      "completion_length": 178.625,
      "epoch": 0.22125,
      "grad_norm": 0.7197502255439758,
      "kl": 0.05272772163152695,
      "learning_rate": 4.779405108942722e-06,
      "loss": 0.0021,
      "reward": 1.8125,
      "reward_std": 0.3471825420856476,
      "rewards/_accuracy_reward": 0.8125,
      "rewards/_format_reward": 1.0,
      "step": 885
    },
    {
      "completion_length": 112.125,
      "epoch": 0.2215,
      "grad_norm": 0.07369816303253174,
      "kl": 0.053687069565057755,
      "learning_rate": 4.778508191588613e-06,
      "loss": 0.0021,
      "reward": 1.0499999523162842,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 0.05000000074505806,
      "rewards/_format_reward": 1.0,
      "step": 886
    },
    {
      "completion_length": 111.25,
      "epoch": 0.22175,
      "grad_norm": 0.04976990818977356,
      "kl": 0.053799863904714584,
      "learning_rate": 4.7776095390514e-06,
      "loss": 0.0022,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 887
    },
    {
      "completion_length": 105.25,
      "epoch": 0.222,
      "grad_norm": 0.9817723631858826,
      "kl": 0.0718049630522728,
      "learning_rate": 4.776709152015443e-06,
      "loss": 0.0029,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 888
    },
    {
      "completion_length": 160.75,
      "epoch": 0.22225,
      "grad_norm": 0.8418934345245361,
      "kl": 0.046997714787721634,
      "learning_rate": 4.775807031166428e-06,
      "loss": 0.0019,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 889
    },
    {
      "completion_length": 164.125,
      "epoch": 0.2225,
      "grad_norm": 0.637934148311615,
      "kl": 0.05987370014190674,
      "learning_rate": 4.774903177191358e-06,
      "loss": 0.0024,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 0.875,
      "step": 890
    },
    {
      "completion_length": 205.5,
      "epoch": 0.22275,
      "grad_norm": 0.4765873849391937,
      "kl": 0.052201397716999054,
      "learning_rate": 4.773997590778558e-06,
      "loss": 0.0021,
      "reward": 1.4387500286102295,
      "reward_std": 0.7156503200531006,
      "rewards/_accuracy_reward": 0.5637500286102295,
      "rewards/_format_reward": 0.875,
      "step": 891
    },
    {
      "completion_length": 173.25,
      "epoch": 0.223,
      "grad_norm": 0.5394091010093689,
      "kl": 0.07298759371042252,
      "learning_rate": 4.773090272617672e-06,
      "loss": 0.0029,
      "reward": 1.65625,
      "reward_std": 0.7188470363616943,
      "rewards/_accuracy_reward": 0.78125,
      "rewards/_format_reward": 0.875,
      "step": 892
    },
    {
      "completion_length": 156.375,
      "epoch": 0.22325,
      "grad_norm": 0.7306042909622192,
      "kl": 0.06932543963193893,
      "learning_rate": 4.77218122339966e-06,
      "loss": 0.0028,
      "reward": 1.5012500286102295,
      "reward_std": 0.4208982586860657,
      "rewards/_accuracy_reward": 0.5012500286102295,
      "rewards/_format_reward": 1.0,
      "step": 893
    },
    {
      "completion_length": 138.75,
      "epoch": 0.2235,
      "grad_norm": 0.021331820636987686,
      "kl": 0.037514664232730865,
      "learning_rate": 4.771270443816805e-06,
      "loss": 0.0015,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 894
    },
    {
      "completion_length": 103.25,
      "epoch": 0.22375,
      "grad_norm": 0.024962345138192177,
      "kl": 0.04039287567138672,
      "learning_rate": 4.770357934562704e-06,
      "loss": 0.0016,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 895
    },
    {
      "completion_length": 129.5,
      "epoch": 0.224,
      "grad_norm": 0.022136209532618523,
      "kl": 0.05364343896508217,
      "learning_rate": 4.769443696332272e-06,
      "loss": 0.0021,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 896
    },
    {
      "completion_length": 123.875,
      "epoch": 0.22425,
      "grad_norm": 1.0361751317977905,
      "kl": 0.08603714406490326,
      "learning_rate": 4.7685277298217425e-06,
      "loss": 0.0034,
      "reward": 1.3624999523162842,
      "reward_std": 0.404218852519989,
      "rewards/_accuracy_reward": 0.36249998211860657,
      "rewards/_format_reward": 1.0,
      "step": 897
    },
    {
      "completion_length": 114.5,
      "epoch": 0.2245,
      "grad_norm": 0.8131916522979736,
      "kl": 0.07286559790372849,
      "learning_rate": 4.767610035728663e-06,
      "loss": 0.0029,
      "reward": 1.337499976158142,
      "reward_std": 0.4181165397167206,
      "rewards/_accuracy_reward": 0.3374999761581421,
      "rewards/_format_reward": 1.0,
      "step": 898
    },
    {
      "completion_length": 197.25,
      "epoch": 0.22475,
      "grad_norm": 0.5685933232307434,
      "kl": 0.053996216505765915,
      "learning_rate": 4.766690614751897e-06,
      "loss": 0.0022,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 899
    },
    {
      "completion_length": 80.25,
      "epoch": 0.225,
      "grad_norm": 0.023312676697969437,
      "kl": 0.046684399247169495,
      "learning_rate": 4.765769467591626e-06,
      "loss": 0.0019,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 900
    },
    {
      "completion_length": 173.625,
      "epoch": 0.22525,
      "grad_norm": 0.6596946120262146,
      "kl": 0.04578675329685211,
      "learning_rate": 4.76484659494934e-06,
      "loss": 0.0018,
      "reward": 1.6637499332427979,
      "reward_std": 0.4691310524940491,
      "rewards/_accuracy_reward": 0.6637499928474426,
      "rewards/_format_reward": 1.0,
      "step": 901
    },
    {
      "completion_length": 91.875,
      "epoch": 0.2255,
      "grad_norm": 0.9707310795783997,
      "kl": 0.03129902854561806,
      "learning_rate": 4.763921997527849e-06,
      "loss": 0.0013,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 902
    },
    {
      "completion_length": 134.25,
      "epoch": 0.22575,
      "grad_norm": 0.7488545775413513,
      "kl": 0.07043536752462387,
      "learning_rate": 4.762995676031275e-06,
      "loss": 0.0028,
      "reward": 1.7625000476837158,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.7625000476837158,
      "rewards/_format_reward": 1.0,
      "step": 903
    },
    {
      "completion_length": 179.125,
      "epoch": 0.226,
      "grad_norm": 0.5836617350578308,
      "kl": 0.047344304621219635,
      "learning_rate": 4.762067631165049e-06,
      "loss": 0.0019,
      "reward": 1.5,
      "reward_std": 0.9258201122283936,
      "rewards/_accuracy_reward": 0.75,
      "rewards/_format_reward": 0.75,
      "step": 904
    },
    {
      "completion_length": 177.875,
      "epoch": 0.22625,
      "grad_norm": 0.5657011270523071,
      "kl": 0.03409140184521675,
      "learning_rate": 4.761137863635921e-06,
      "loss": 0.0014,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 905
    },
    {
      "completion_length": 183.125,
      "epoch": 0.2265,
      "grad_norm": 0.481889009475708,
      "kl": 0.048406727612018585,
      "learning_rate": 4.760206374151947e-06,
      "loss": 0.0019,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 906
    },
    {
      "completion_length": 135.75,
      "epoch": 0.22675,
      "grad_norm": 0.6987292170524597,
      "kl": 0.042507898062467575,
      "learning_rate": 4.759273163422496e-06,
      "loss": 0.0017,
      "reward": 1.5625,
      "reward_std": 0.7165144085884094,
      "rewards/_accuracy_reward": 0.6875,
      "rewards/_format_reward": 0.875,
      "step": 907
    },
    {
      "completion_length": 215.875,
      "epoch": 0.227,
      "grad_norm": 0.5568097829818726,
      "kl": 0.04911498725414276,
      "learning_rate": 4.7583382321582525e-06,
      "loss": 0.002,
      "reward": 1.131250023841858,
      "reward_std": 0.9902876615524292,
      "rewards/_accuracy_reward": 0.5062500238418579,
      "rewards/_format_reward": 0.625,
      "step": 908
    },
    {
      "completion_length": 178.125,
      "epoch": 0.22725,
      "grad_norm": 0.6918895244598389,
      "kl": 0.04337242990732193,
      "learning_rate": 4.757401581071203e-06,
      "loss": 0.0017,
      "reward": 1.8125,
      "reward_std": 0.3471825420856476,
      "rewards/_accuracy_reward": 0.8125,
      "rewards/_format_reward": 1.0,
      "step": 909
    },
    {
      "completion_length": 170.875,
      "epoch": 0.2275,
      "grad_norm": 0.04047883674502373,
      "kl": 0.06391174346208572,
      "learning_rate": 4.7564632108746524e-06,
      "loss": 0.0026,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 910
    },
    {
      "completion_length": 190.0,
      "epoch": 0.22775,
      "grad_norm": 0.6083565950393677,
      "kl": 0.04682445526123047,
      "learning_rate": 4.755523122283206e-06,
      "loss": 0.0019,
      "reward": 1.40625,
      "reward_std": 0.9057110548019409,
      "rewards/_accuracy_reward": 0.65625,
      "rewards/_format_reward": 0.75,
      "step": 911
    },
    {
      "completion_length": 135.5,
      "epoch": 0.228,
      "grad_norm": 0.7495693564414978,
      "kl": 0.0452733151614666,
      "learning_rate": 4.754581316012785e-06,
      "loss": 0.0018,
      "reward": 1.524999976158142,
      "reward_std": 0.5077964067459106,
      "rewards/_accuracy_reward": 0.5249999761581421,
      "rewards/_format_reward": 1.0,
      "step": 912
    },
    {
      "completion_length": 143.0,
      "epoch": 0.22825,
      "grad_norm": 0.9222220778465271,
      "kl": 0.038283564150333405,
      "learning_rate": 4.753637792780614e-06,
      "loss": 0.0015,
      "reward": 1.1624999046325684,
      "reward_std": 0.338853120803833,
      "rewards/_accuracy_reward": 0.2874999940395355,
      "rewards/_format_reward": 0.875,
      "step": 913
    },
    {
      "completion_length": 123.75,
      "epoch": 0.2285,
      "grad_norm": 0.6918537616729736,
      "kl": 0.04517769068479538,
      "learning_rate": 4.752692553305229e-06,
      "loss": 0.0018,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 914
    },
    {
      "completion_length": 157.5,
      "epoch": 0.22875,
      "grad_norm": 0.9993019700050354,
      "kl": 0.061792753636837006,
      "learning_rate": 4.7517455983064694e-06,
      "loss": 0.0025,
      "reward": 1.78125,
      "reward_std": 0.41052013635635376,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 0.875,
      "step": 915
    },
    {
      "completion_length": 137.75,
      "epoch": 0.229,
      "grad_norm": 0.8047826290130615,
      "kl": 0.05265399068593979,
      "learning_rate": 4.750796928505484e-06,
      "loss": 0.0021,
      "reward": 1.7625000476837158,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.7625000476837158,
      "rewards/_format_reward": 1.0,
      "step": 916
    },
    {
      "completion_length": 70.5,
      "epoch": 0.22925,
      "grad_norm": 1.218523383140564,
      "kl": 0.3203689157962799,
      "learning_rate": 4.749846544624725e-06,
      "loss": 0.0128,
      "reward": 1.787500023841858,
      "reward_std": 0.39708763360977173,
      "rewards/_accuracy_reward": 0.7875000238418579,
      "rewards/_format_reward": 1.0,
      "step": 917
    },
    {
      "completion_length": 166.5,
      "epoch": 0.2295,
      "grad_norm": 0.7494506239891052,
      "kl": 0.047605931758880615,
      "learning_rate": 4.7488944473879515e-06,
      "loss": 0.0019,
      "reward": 1.8125,
      "reward_std": 0.3471825420856476,
      "rewards/_accuracy_reward": 0.8125,
      "rewards/_format_reward": 1.0,
      "step": 918
    },
    {
      "completion_length": 149.875,
      "epoch": 0.22975,
      "grad_norm": 0.5708422064781189,
      "kl": 0.06305453181266785,
      "learning_rate": 4.747940637520226e-06,
      "loss": 0.0025,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 919
    },
    {
      "completion_length": 146.375,
      "epoch": 0.23,
      "grad_norm": 0.6123313307762146,
      "kl": 0.05034901574254036,
      "learning_rate": 4.746985115747918e-06,
      "loss": 0.002,
      "reward": 1.8762500286102295,
      "reward_std": 0.35001784563064575,
      "rewards/_accuracy_reward": 0.8762500286102295,
      "rewards/_format_reward": 1.0,
      "step": 920
    },
    {
      "completion_length": 168.75,
      "epoch": 0.23025,
      "grad_norm": 0.02322268672287464,
      "kl": 0.04557321220636368,
      "learning_rate": 4.746027882798697e-06,
      "loss": 0.0018,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 921
    },
    {
      "completion_length": 197.0,
      "epoch": 0.2305,
      "grad_norm": 0.6486432552337646,
      "kl": 0.06248953938484192,
      "learning_rate": 4.745068939401539e-06,
      "loss": 0.0025,
      "reward": 1.6437499523162842,
      "reward_std": 0.49167174100875854,
      "rewards/_accuracy_reward": 0.6437499523162842,
      "rewards/_format_reward": 1.0,
      "step": 922
    },
    {
      "completion_length": 163.75,
      "epoch": 0.23075,
      "grad_norm": 0.6944877505302429,
      "kl": 0.051626596599817276,
      "learning_rate": 4.744108286286721e-06,
      "loss": 0.0021,
      "reward": 1.7625000476837158,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.762499988079071,
      "rewards/_format_reward": 1.0,
      "step": 923
    },
    {
      "completion_length": 176.0,
      "epoch": 0.231,
      "grad_norm": 0.603113055229187,
      "kl": 0.07564710080623627,
      "learning_rate": 4.743145924185821e-06,
      "loss": 0.003,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 924
    },
    {
      "completion_length": 177.0,
      "epoch": 0.23125,
      "grad_norm": 0.5147649645805359,
      "kl": 0.06837765127420425,
      "learning_rate": 4.742181853831721e-06,
      "loss": 0.0027,
      "reward": 1.65625,
      "reward_std": 0.7188470363616943,
      "rewards/_accuracy_reward": 0.78125,
      "rewards/_format_reward": 0.875,
      "step": 925
    },
    {
      "completion_length": 155.75,
      "epoch": 0.2315,
      "grad_norm": 0.6233566403388977,
      "kl": 0.06354863196611404,
      "learning_rate": 4.741216075958602e-06,
      "loss": 0.0025,
      "reward": 1.412500023841858,
      "reward_std": 0.36912059783935547,
      "rewards/_accuracy_reward": 0.4124999940395355,
      "rewards/_format_reward": 1.0,
      "step": 926
    },
    {
      "completion_length": 184.125,
      "epoch": 0.23175,
      "grad_norm": 0.5731986165046692,
      "kl": 0.050587963312864304,
      "learning_rate": 4.740248591301945e-06,
      "loss": 0.002,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 0.875,
      "step": 927
    },
    {
      "completion_length": 100.5,
      "epoch": 0.232,
      "grad_norm": 1.4272077083587646,
      "kl": 0.08796297013759613,
      "learning_rate": 4.7392794005985324e-06,
      "loss": 0.0035,
      "reward": 1.71875,
      "reward_std": 0.38816189765930176,
      "rewards/_accuracy_reward": 0.71875,
      "rewards/_format_reward": 1.0,
      "step": 928
    },
    {
      "completion_length": 114.625,
      "epoch": 0.23225,
      "grad_norm": 0.027059296146035194,
      "kl": 0.060833338648080826,
      "learning_rate": 4.738308504586445e-06,
      "loss": 0.0024,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 929
    },
    {
      "completion_length": 90.875,
      "epoch": 0.2325,
      "grad_norm": 0.9342624545097351,
      "kl": 0.058008529245853424,
      "learning_rate": 4.737335904005063e-06,
      "loss": 0.0023,
      "reward": 1.6687500476837158,
      "reward_std": 0.4613160789012909,
      "rewards/_accuracy_reward": 0.668749988079071,
      "rewards/_format_reward": 1.0,
      "step": 930
    },
    {
      "completion_length": 138.625,
      "epoch": 0.23275,
      "grad_norm": 0.030422937124967575,
      "kl": 0.04037817567586899,
      "learning_rate": 4.736361599595063e-06,
      "loss": 0.0016,
      "reward": 1.0499999523162842,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 0.05000000074505806,
      "rewards/_format_reward": 1.0,
      "step": 931
    },
    {
      "completion_length": 101.25,
      "epoch": 0.233,
      "grad_norm": 0.7583170533180237,
      "kl": 0.08360082656145096,
      "learning_rate": 4.735385592098421e-06,
      "loss": 0.0033,
      "reward": 1.8125,
      "reward_std": 0.3471825420856476,
      "rewards/_accuracy_reward": 0.8125,
      "rewards/_format_reward": 1.0,
      "step": 932
    },
    {
      "completion_length": 158.625,
      "epoch": 0.23325,
      "grad_norm": 0.6318457722663879,
      "kl": 0.05788834020495415,
      "learning_rate": 4.734407882258408e-06,
      "loss": 0.0023,
      "reward": 1.625,
      "reward_std": 0.40089187026023865,
      "rewards/_accuracy_reward": 0.625,
      "rewards/_format_reward": 1.0,
      "step": 933
    },
    {
      "completion_length": 176.5,
      "epoch": 0.2335,
      "grad_norm": 0.6953318119049072,
      "kl": 0.0506259948015213,
      "learning_rate": 4.733428470819595e-06,
      "loss": 0.002,
      "reward": 1.631250023841858,
      "reward_std": 0.738210916519165,
      "rewards/_accuracy_reward": 0.7562500238418579,
      "rewards/_format_reward": 0.875,
      "step": 934
    },
    {
      "completion_length": 118.5,
      "epoch": 0.23375,
      "grad_norm": 0.021268269047141075,
      "kl": 0.03520062938332558,
      "learning_rate": 4.732447358527843e-06,
      "loss": 0.0014,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 935
    },
    {
      "completion_length": 102.875,
      "epoch": 0.234,
      "grad_norm": 0.8448748588562012,
      "kl": 0.07049023360013962,
      "learning_rate": 4.731464546130315e-06,
      "loss": 0.0028,
      "reward": 1.6375000476837158,
      "reward_std": 0.7224709987640381,
      "rewards/_accuracy_reward": 0.762499988079071,
      "rewards/_format_reward": 0.875,
      "step": 936
    },
    {
      "completion_length": 159.875,
      "epoch": 0.23425,
      "grad_norm": 0.8189094066619873,
      "kl": 0.0628812164068222,
      "learning_rate": 4.730480034375462e-06,
      "loss": 0.0025,
      "reward": 1.625,
      "reward_std": 0.7440237998962402,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.75,
      "step": 937
    },
    {
      "completion_length": 165.875,
      "epoch": 0.2345,
      "grad_norm": 0.026304002851247787,
      "kl": 0.06353601813316345,
      "learning_rate": 4.729493824013036e-06,
      "loss": 0.0025,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 938
    },
    {
      "completion_length": 191.375,
      "epoch": 0.23475,
      "grad_norm": 0.6404834389686584,
      "kl": 0.040367912501096725,
      "learning_rate": 4.7285059157940765e-06,
      "loss": 0.0016,
      "reward": 1.40625,
      "reward_std": 0.9057110548019409,
      "rewards/_accuracy_reward": 0.65625,
      "rewards/_format_reward": 0.75,
      "step": 939
    },
    {
      "completion_length": 180.0,
      "epoch": 0.235,
      "grad_norm": 0.660751461982727,
      "kl": 0.11275404691696167,
      "learning_rate": 4.72751631047092e-06,
      "loss": 0.0045,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 940
    },
    {
      "completion_length": 176.875,
      "epoch": 0.23525,
      "grad_norm": 0.03521808236837387,
      "kl": 0.05358295515179634,
      "learning_rate": 4.726525008797194e-06,
      "loss": 0.0021,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 941
    },
    {
      "completion_length": 91.25,
      "epoch": 0.2355,
      "grad_norm": 0.06520809978246689,
      "kl": 0.06617758423089981,
      "learning_rate": 4.725532011527817e-06,
      "loss": 0.0026,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 942
    },
    {
      "completion_length": 193.625,
      "epoch": 0.23575,
      "grad_norm": 0.029271895065903664,
      "kl": 0.060000792145729065,
      "learning_rate": 4.724537319419e-06,
      "loss": 0.0024,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 943
    },
    {
      "completion_length": 169.75,
      "epoch": 0.236,
      "grad_norm": 0.7201210260391235,
      "kl": 0.06569670885801315,
      "learning_rate": 4.723540933228245e-06,
      "loss": 0.0026,
      "reward": 1.5625,
      "reward_std": 0.7165144085884094,
      "rewards/_accuracy_reward": 0.6875,
      "rewards/_format_reward": 0.875,
      "step": 944
    },
    {
      "completion_length": 177.875,
      "epoch": 0.23625,
      "grad_norm": 0.5506649613380432,
      "kl": 0.04273473471403122,
      "learning_rate": 4.7225428537143414e-06,
      "loss": 0.0017,
      "reward": 1.6687500476837158,
      "reward_std": 0.4613160789012909,
      "rewards/_accuracy_reward": 0.668749988079071,
      "rewards/_format_reward": 1.0,
      "step": 945
    },
    {
      "completion_length": 98.125,
      "epoch": 0.2365,
      "grad_norm": 0.021767426282167435,
      "kl": 0.08275524526834488,
      "learning_rate": 4.721543081637372e-06,
      "loss": 0.0033,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 946
    },
    {
      "completion_length": 93.875,
      "epoch": 0.23675,
      "grad_norm": 0.7869265675544739,
      "kl": 0.06405540555715561,
      "learning_rate": 4.720541617758707e-06,
      "loss": 0.0026,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 0.875,
      "step": 947
    },
    {
      "completion_length": 172.125,
      "epoch": 0.237,
      "grad_norm": 0.5938262939453125,
      "kl": 0.06068947911262512,
      "learning_rate": 4.719538462841003e-06,
      "loss": 0.0024,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 948
    },
    {
      "completion_length": 112.25,
      "epoch": 0.23725,
      "grad_norm": 1.1759775876998901,
      "kl": 0.2916286885738373,
      "learning_rate": 4.718533617648209e-06,
      "loss": 0.0117,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 949
    },
    {
      "completion_length": 86.75,
      "epoch": 0.2375,
      "grad_norm": 0.8917730450630188,
      "kl": 0.08274582028388977,
      "learning_rate": 4.717527082945555e-06,
      "loss": 0.0033,
      "reward": 1.693750023841858,
      "reward_std": 0.4271479547023773,
      "rewards/_accuracy_reward": 0.6937500238418579,
      "rewards/_format_reward": 1.0,
      "step": 950
    },
    {
      "completion_length": 155.625,
      "epoch": 0.23775,
      "grad_norm": 0.02533833496272564,
      "kl": 0.04348806291818619,
      "learning_rate": 4.716518859499563e-06,
      "loss": 0.0017,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 951
    },
    {
      "completion_length": 100.25,
      "epoch": 0.238,
      "grad_norm": 0.669034481048584,
      "kl": 0.039708979427814484,
      "learning_rate": 4.715508948078037e-06,
      "loss": 0.0016,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 952
    },
    {
      "completion_length": 93.25,
      "epoch": 0.23825,
      "grad_norm": 1.0357922315597534,
      "kl": 0.060257647186517715,
      "learning_rate": 4.714497349450071e-06,
      "loss": 0.0024,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 0.875,
      "step": 953
    },
    {
      "completion_length": 111.75,
      "epoch": 0.2385,
      "grad_norm": 0.7821860909461975,
      "kl": 0.03877865895628929,
      "learning_rate": 4.71348406438604e-06,
      "loss": 0.0016,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 954
    },
    {
      "completion_length": 155.625,
      "epoch": 0.23875,
      "grad_norm": 0.04612157121300697,
      "kl": 0.04425455257296562,
      "learning_rate": 4.712469093657605e-06,
      "loss": 0.0018,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 955
    },
    {
      "completion_length": 149.75,
      "epoch": 0.239,
      "grad_norm": 0.7191103100776672,
      "kl": 0.06059260666370392,
      "learning_rate": 4.71145243803771e-06,
      "loss": 0.0024,
      "reward": 1.8125,
      "reward_std": 0.3471825420856476,
      "rewards/_accuracy_reward": 0.8125,
      "rewards/_format_reward": 1.0,
      "step": 956
    },
    {
      "completion_length": 169.0,
      "epoch": 0.23925,
      "grad_norm": 0.688480019569397,
      "kl": 0.05014285817742348,
      "learning_rate": 4.710434098300584e-06,
      "loss": 0.002,
      "reward": 1.5187499523162842,
      "reward_std": 0.7323824167251587,
      "rewards/_accuracy_reward": 0.6437499523162842,
      "rewards/_format_reward": 0.875,
      "step": 957
    },
    {
      "completion_length": 86.0,
      "epoch": 0.2395,
      "grad_norm": 0.7771919369697571,
      "kl": 0.06990315020084381,
      "learning_rate": 4.709414075221734e-06,
      "loss": 0.0028,
      "reward": 1.8125,
      "reward_std": 0.3471825420856476,
      "rewards/_accuracy_reward": 0.8125,
      "rewards/_format_reward": 1.0,
      "step": 958
    },
    {
      "completion_length": 126.75,
      "epoch": 0.23975,
      "grad_norm": 0.815279483795166,
      "kl": 0.07264941185712814,
      "learning_rate": 4.7083923695779546e-06,
      "loss": 0.0029,
      "reward": 1.78125,
      "reward_std": 0.41052013635635376,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 0.875,
      "step": 959
    },
    {
      "completion_length": 171.0,
      "epoch": 0.24,
      "grad_norm": 0.5627329349517822,
      "kl": 0.03297321870923042,
      "learning_rate": 4.707368982147318e-06,
      "loss": 0.0013,
      "reward": 1.0625,
      "reward_std": 0.5403371453285217,
      "rewards/_accuracy_reward": 0.1875,
      "rewards/_format_reward": 0.875,
      "step": 960
    },
    {
      "completion_length": 158.25,
      "epoch": 0.24025,
      "grad_norm": 0.4752623438835144,
      "kl": 0.046661727130413055,
      "learning_rate": 4.706343913709178e-06,
      "loss": 0.0019,
      "reward": 1.631250023841858,
      "reward_std": 0.7382108569145203,
      "rewards/_accuracy_reward": 0.7562500238418579,
      "rewards/_format_reward": 0.875,
      "step": 961
    },
    {
      "completion_length": 150.5,
      "epoch": 0.2405,
      "grad_norm": 0.06294679641723633,
      "kl": 0.06743825972080231,
      "learning_rate": 4.70531716504417e-06,
      "loss": 0.0027,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 962
    },
    {
      "completion_length": 148.625,
      "epoch": 0.24075,
      "grad_norm": 0.8773144483566284,
      "kl": 0.05056190490722656,
      "learning_rate": 4.704288736934207e-06,
      "loss": 0.002,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 963
    },
    {
      "completion_length": 144.375,
      "epoch": 0.241,
      "grad_norm": 0.5290398001670837,
      "kl": 0.03290877863764763,
      "learning_rate": 4.703258630162481e-06,
      "loss": 0.0013,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 964
    },
    {
      "completion_length": 194.125,
      "epoch": 0.24125,
      "grad_norm": 0.6033351421356201,
      "kl": 0.05277324095368385,
      "learning_rate": 4.702226845513465e-06,
      "loss": 0.0021,
      "reward": 1.2874999046325684,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.2874999940395355,
      "rewards/_format_reward": 1.0,
      "step": 965
    },
    {
      "completion_length": 169.5,
      "epoch": 0.2415,
      "grad_norm": 0.6577865481376648,
      "kl": 0.05829022079706192,
      "learning_rate": 4.701193383772905e-06,
      "loss": 0.0023,
      "reward": 1.8125,
      "reward_std": 0.3471825420856476,
      "rewards/_accuracy_reward": 0.8125,
      "rewards/_format_reward": 1.0,
      "step": 966
    },
    {
      "completion_length": 170.5,
      "epoch": 0.24175,
      "grad_norm": 0.6581544280052185,
      "kl": 0.05274191126227379,
      "learning_rate": 4.70015824572783e-06,
      "loss": 0.0021,
      "reward": 1.7825000286102295,
      "reward_std": 0.40780770778656006,
      "rewards/_accuracy_reward": 0.7825000286102295,
      "rewards/_format_reward": 1.0,
      "step": 967
    },
    {
      "completion_length": 155.75,
      "epoch": 0.242,
      "grad_norm": 0.6504667401313782,
      "kl": 0.04294908419251442,
      "learning_rate": 4.699121432166542e-06,
      "loss": 0.0017,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 968
    },
    {
      "completion_length": 113.125,
      "epoch": 0.24225,
      "grad_norm": 0.02235039882361889,
      "kl": 0.05611787736415863,
      "learning_rate": 4.6980829438786176e-06,
      "loss": 0.0022,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 969
    },
    {
      "completion_length": 194.25,
      "epoch": 0.2425,
      "grad_norm": 0.6296171545982361,
      "kl": 0.05270276963710785,
      "learning_rate": 4.697042781654913e-06,
      "loss": 0.0021,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 970
    },
    {
      "completion_length": 122.75,
      "epoch": 0.24275,
      "grad_norm": 0.02494359202682972,
      "kl": 0.0459245890378952,
      "learning_rate": 4.696000946287558e-06,
      "loss": 0.0018,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 971
    },
    {
      "completion_length": 139.5,
      "epoch": 0.243,
      "grad_norm": 0.6154767870903015,
      "kl": 0.053218137472867966,
      "learning_rate": 4.6949574385699514e-06,
      "loss": 0.0021,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 972
    },
    {
      "completion_length": 145.875,
      "epoch": 0.24325,
      "grad_norm": 0.6306710243225098,
      "kl": 0.05243955925107002,
      "learning_rate": 4.693912259296773e-06,
      "loss": 0.0021,
      "reward": 1.8125,
      "reward_std": 0.3471825420856476,
      "rewards/_accuracy_reward": 0.8125,
      "rewards/_format_reward": 1.0,
      "step": 973
    },
    {
      "completion_length": 181.375,
      "epoch": 0.2435,
      "grad_norm": 0.5748218297958374,
      "kl": 0.07226546108722687,
      "learning_rate": 4.6928654092639725e-06,
      "loss": 0.0029,
      "reward": 0.9124999046325684,
      "reward_std": 0.6384971141815186,
      "rewards/_accuracy_reward": 0.16249999403953552,
      "rewards/_format_reward": 0.75,
      "step": 974
    },
    {
      "completion_length": 81.0,
      "epoch": 0.24375,
      "grad_norm": 0.027224192395806313,
      "kl": 0.04066862910985947,
      "learning_rate": 4.69181688926877e-06,
      "loss": 0.0016,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 975
    },
    {
      "completion_length": 139.375,
      "epoch": 0.244,
      "grad_norm": 0.03555990010499954,
      "kl": 0.0650315135717392,
      "learning_rate": 4.690766700109659e-06,
      "loss": 0.0026,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 976
    },
    {
      "completion_length": 84.125,
      "epoch": 0.24425,
      "grad_norm": 1.2255222797393799,
      "kl": 0.055360615253448486,
      "learning_rate": 4.689714842586406e-06,
      "loss": 0.0022,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 977
    },
    {
      "completion_length": 161.875,
      "epoch": 0.2445,
      "grad_norm": 0.044598329812288284,
      "kl": 0.059485312551259995,
      "learning_rate": 4.688661317500045e-06,
      "loss": 0.0024,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 978
    },
    {
      "completion_length": 122.125,
      "epoch": 0.24475,
      "grad_norm": 0.9748655557632446,
      "kl": 0.13712793588638306,
      "learning_rate": 4.687606125652882e-06,
      "loss": 0.0055,
      "reward": 1.7625000476837158,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.7625000476837158,
      "rewards/_format_reward": 1.0,
      "step": 979
    },
    {
      "completion_length": 142.75,
      "epoch": 0.245,
      "grad_norm": 0.02790018729865551,
      "kl": 0.052116554230451584,
      "learning_rate": 4.68654926784849e-06,
      "loss": 0.0021,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 980
    },
    {
      "completion_length": 154.0,
      "epoch": 0.24525,
      "grad_norm": 0.6151390075683594,
      "kl": 0.06243494153022766,
      "learning_rate": 4.685490744891713e-06,
      "loss": 0.0025,
      "reward": 1.40625,
      "reward_std": 0.9057110548019409,
      "rewards/_accuracy_reward": 0.65625,
      "rewards/_format_reward": 0.75,
      "step": 981
    },
    {
      "completion_length": 144.875,
      "epoch": 0.2455,
      "grad_norm": 0.7018941640853882,
      "kl": 0.03996715694665909,
      "learning_rate": 4.6844305575886635e-06,
      "loss": 0.0016,
      "reward": 1.6437499523162842,
      "reward_std": 0.49167174100875854,
      "rewards/_accuracy_reward": 0.6437499523162842,
      "rewards/_format_reward": 1.0,
      "step": 982
    },
    {
      "completion_length": 190.875,
      "epoch": 0.24575,
      "grad_norm": 0.6229122281074524,
      "kl": 0.047085534781217575,
      "learning_rate": 4.6833687067467185e-06,
      "loss": 0.0019,
      "reward": 1.78125,
      "reward_std": 0.41052013635635376,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 0.875,
      "step": 983
    },
    {
      "completion_length": 156.875,
      "epoch": 0.246,
      "grad_norm": 0.9269128441810608,
      "kl": 0.08278842270374298,
      "learning_rate": 4.682305193174524e-06,
      "loss": 0.0033,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 984
    },
    {
      "completion_length": 130.75,
      "epoch": 0.24625,
      "grad_norm": 0.8343520760536194,
      "kl": 0.030732639133930206,
      "learning_rate": 4.681240017681994e-06,
      "loss": 0.0012,
      "reward": 0.9249999523162842,
      "reward_std": 0.3535533845424652,
      "rewards/_accuracy_reward": 0.05000000074505806,
      "rewards/_format_reward": 0.875,
      "step": 985
    },
    {
      "completion_length": 183.75,
      "epoch": 0.2465,
      "grad_norm": 0.4889462888240814,
      "kl": 0.02942308969795704,
      "learning_rate": 4.680173181080302e-06,
      "loss": 0.0012,
      "reward": 1.5,
      "reward_std": 0.9258201122283936,
      "rewards/_accuracy_reward": 0.75,
      "rewards/_format_reward": 0.75,
      "step": 986
    },
    {
      "completion_length": 168.5,
      "epoch": 0.24675,
      "grad_norm": 0.733590841293335,
      "kl": 0.044175948947668076,
      "learning_rate": 4.679104684181893e-06,
      "loss": 0.0018,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 987
    },
    {
      "completion_length": 132.125,
      "epoch": 0.247,
      "grad_norm": 0.7705006003379822,
      "kl": 0.04930579662322998,
      "learning_rate": 4.6780345278004744e-06,
      "loss": 0.002,
      "reward": 1.6637500524520874,
      "reward_std": 0.4691310524940491,
      "rewards/_accuracy_reward": 0.6637500524520874,
      "rewards/_format_reward": 1.0,
      "step": 988
    },
    {
      "completion_length": 156.5,
      "epoch": 0.24725,
      "grad_norm": 0.03196730837225914,
      "kl": 0.046509016305208206,
      "learning_rate": 4.676962712751015e-06,
      "loss": 0.0019,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 989
    },
    {
      "completion_length": 136.5,
      "epoch": 0.2475,
      "grad_norm": 0.7628892660140991,
      "kl": 0.10023954510688782,
      "learning_rate": 4.675889239849749e-06,
      "loss": 0.004,
      "reward": 1.306249976158142,
      "reward_std": 0.6784633994102478,
      "rewards/_accuracy_reward": 0.4312500059604645,
      "rewards/_format_reward": 0.875,
      "step": 990
    },
    {
      "completion_length": 210.625,
      "epoch": 0.24775,
      "grad_norm": 0.5449919700622559,
      "kl": 0.04874037951231003,
      "learning_rate": 4.674814109914174e-06,
      "loss": 0.0019,
      "reward": 1.3125,
      "reward_std": 0.873723566532135,
      "rewards/_accuracy_reward": 0.5625,
      "rewards/_format_reward": 0.75,
      "step": 991
    },
    {
      "completion_length": 102.125,
      "epoch": 0.248,
      "grad_norm": 0.07450534403324127,
      "kl": 0.05309867858886719,
      "learning_rate": 4.673737323763048e-06,
      "loss": 0.0021,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 992
    },
    {
      "completion_length": 104.125,
      "epoch": 0.24825,
      "grad_norm": 0.7853342294692993,
      "kl": 0.04614270478487015,
      "learning_rate": 4.67265888221639e-06,
      "loss": 0.0018,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 993
    },
    {
      "completion_length": 125.375,
      "epoch": 0.2485,
      "grad_norm": 0.8209336400032043,
      "kl": 0.040556248277425766,
      "learning_rate": 4.671578786095479e-06,
      "loss": 0.0016,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 0.875,
      "step": 994
    },
    {
      "completion_length": 157.125,
      "epoch": 0.24875,
      "grad_norm": 0.7643418908119202,
      "kl": 0.07217823714017868,
      "learning_rate": 4.670497036222856e-06,
      "loss": 0.0029,
      "reward": 1.2874999046325684,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.2874999940395355,
      "rewards/_format_reward": 1.0,
      "step": 995
    },
    {
      "completion_length": 119.75,
      "epoch": 0.249,
      "grad_norm": 0.8099098801612854,
      "kl": 0.053473103791475296,
      "learning_rate": 4.669413633422322e-06,
      "loss": 0.0021,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 996
    },
    {
      "completion_length": 155.75,
      "epoch": 0.24925,
      "grad_norm": 0.620407223701477,
      "kl": 0.05117916315793991,
      "learning_rate": 4.668328578518933e-06,
      "loss": 0.002,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 997
    },
    {
      "completion_length": 183.625,
      "epoch": 0.2495,
      "grad_norm": 0.8129308223724365,
      "kl": 0.07624640315771103,
      "learning_rate": 4.667241872339007e-06,
      "loss": 0.003,
      "reward": 1.625,
      "reward_std": 0.7440237998962402,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.75,
      "step": 998
    },
    {
      "completion_length": 153.625,
      "epoch": 0.24975,
      "grad_norm": 0.6230663061141968,
      "kl": 0.04454692453145981,
      "learning_rate": 4.666153515710118e-06,
      "loss": 0.0018,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 999
    },
    {
      "completion_length": 121.125,
      "epoch": 0.25,
      "grad_norm": 0.8729314804077148,
      "kl": 0.040495917201042175,
      "learning_rate": 4.665063509461098e-06,
      "loss": 0.0016,
      "reward": 1.6875,
      "reward_std": 0.4381372928619385,
      "rewards/_accuracy_reward": 0.8125,
      "rewards/_format_reward": 0.875,
      "step": 1000
    },
    {
      "completion_length": 118.375,
      "epoch": 0.25025,
      "grad_norm": 0.7109651565551758,
      "kl": 0.1086815893650055,
      "learning_rate": 4.66397185442203e-06,
      "loss": 0.0043,
      "reward": 1.787500023841858,
      "reward_std": 0.39708763360977173,
      "rewards/_accuracy_reward": 0.7875000238418579,
      "rewards/_format_reward": 1.0,
      "step": 1001
    },
    {
      "completion_length": 176.75,
      "epoch": 0.2505,
      "grad_norm": 0.536847710609436,
      "kl": 0.0531662292778492,
      "learning_rate": 4.6628785514242615e-06,
      "loss": 0.0021,
      "reward": 1.78125,
      "reward_std": 0.41052013635635376,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 0.875,
      "step": 1002
    },
    {
      "completion_length": 103.5,
      "epoch": 0.25075,
      "grad_norm": 0.034843314439058304,
      "kl": 0.048501890152692795,
      "learning_rate": 4.6617836013003885e-06,
      "loss": 0.0019,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1003
    },
    {
      "completion_length": 198.25,
      "epoch": 0.251,
      "grad_norm": 0.6616882085800171,
      "kl": 0.07180707901716232,
      "learning_rate": 4.6606870048842626e-06,
      "loss": 0.0029,
      "reward": 1.2625000476837158,
      "reward_std": 0.8745407462120056,
      "rewards/_accuracy_reward": 0.637499988079071,
      "rewards/_format_reward": 0.625,
      "step": 1004
    },
    {
      "completion_length": 110.0,
      "epoch": 0.25125,
      "grad_norm": 0.9252467155456543,
      "kl": 0.08372751623392105,
      "learning_rate": 4.65958876301099e-06,
      "loss": 0.0033,
      "reward": 1.524999976158142,
      "reward_std": 0.5077964067459106,
      "rewards/_accuracy_reward": 0.5249999761581421,
      "rewards/_format_reward": 1.0,
      "step": 1005
    },
    {
      "completion_length": 162.875,
      "epoch": 0.2515,
      "grad_norm": 0.48977896571159363,
      "kl": 0.05411114916205406,
      "learning_rate": 4.658488876516929e-06,
      "loss": 0.0022,
      "reward": 1.7825000286102295,
      "reward_std": 0.40780770778656006,
      "rewards/_accuracy_reward": 0.7825000286102295,
      "rewards/_format_reward": 1.0,
      "step": 1006
    },
    {
      "completion_length": 64.125,
      "epoch": 0.25175,
      "grad_norm": 1.0273231267929077,
      "kl": 0.083249032497406,
      "learning_rate": 4.6573873462396935e-06,
      "loss": 0.0033,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1007
    },
    {
      "completion_length": 165.25,
      "epoch": 0.252,
      "grad_norm": 0.5020899176597595,
      "kl": 0.05609561502933502,
      "learning_rate": 4.656284173018144e-06,
      "loss": 0.0022,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 1008
    },
    {
      "completion_length": 142.5,
      "epoch": 0.25225,
      "grad_norm": 0.7043915390968323,
      "kl": 0.05257268622517586,
      "learning_rate": 4.655179357692396e-06,
      "loss": 0.0021,
      "reward": 1.524999976158142,
      "reward_std": 0.5077964067459106,
      "rewards/_accuracy_reward": 0.5249999761581421,
      "rewards/_format_reward": 1.0,
      "step": 1009
    },
    {
      "completion_length": 174.0,
      "epoch": 0.2525,
      "grad_norm": 0.705171525478363,
      "kl": 0.06622593849897385,
      "learning_rate": 4.654072901103815e-06,
      "loss": 0.0026,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1010
    },
    {
      "completion_length": 83.75,
      "epoch": 0.25275,
      "grad_norm": 0.04914606735110283,
      "kl": 0.05078301206231117,
      "learning_rate": 4.652964804095015e-06,
      "loss": 0.002,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1011
    },
    {
      "completion_length": 101.375,
      "epoch": 0.253,
      "grad_norm": 1.0606887340545654,
      "kl": 0.04142900928854942,
      "learning_rate": 4.65185506750986e-06,
      "loss": 0.0017,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1012
    },
    {
      "completion_length": 128.0,
      "epoch": 0.25325,
      "grad_norm": 0.742917001247406,
      "kl": 0.062295470386743546,
      "learning_rate": 4.650743692193462e-06,
      "loss": 0.0025,
      "reward": 1.75,
      "reward_std": 0.4629100561141968,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 0.75,
      "step": 1013
    },
    {
      "completion_length": 113.0,
      "epoch": 0.2535,
      "grad_norm": 0.7006327509880066,
      "kl": 0.04041333496570587,
      "learning_rate": 4.649630678992184e-06,
      "loss": 0.0016,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1014
    },
    {
      "completion_length": 174.625,
      "epoch": 0.25375,
      "grad_norm": 0.7579224109649658,
      "kl": 0.07045772671699524,
      "learning_rate": 4.648516028753632e-06,
      "loss": 0.0028,
      "reward": 1.40625,
      "reward_std": 0.9057110548019409,
      "rewards/_accuracy_reward": 0.65625,
      "rewards/_format_reward": 0.75,
      "step": 1015
    },
    {
      "completion_length": 117.375,
      "epoch": 0.254,
      "grad_norm": 0.7735872864723206,
      "kl": 0.051190085709095,
      "learning_rate": 4.6473997423266615e-06,
      "loss": 0.002,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1016
    },
    {
      "completion_length": 163.375,
      "epoch": 0.25425,
      "grad_norm": 0.7195467352867126,
      "kl": 0.06525428593158722,
      "learning_rate": 4.646281820561372e-06,
      "loss": 0.0026,
      "reward": 1.7625000476837158,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.762499988079071,
      "rewards/_format_reward": 1.0,
      "step": 1017
    },
    {
      "completion_length": 147.125,
      "epoch": 0.2545,
      "grad_norm": 0.021355951204895973,
      "kl": 0.04439732804894447,
      "learning_rate": 4.645162264309112e-06,
      "loss": 0.0018,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1018
    },
    {
      "completion_length": 170.0,
      "epoch": 0.25475,
      "grad_norm": 0.6866489052772522,
      "kl": 0.056952353566884995,
      "learning_rate": 4.644041074422469e-06,
      "loss": 0.0023,
      "reward": 1.8125,
      "reward_std": 0.3471825420856476,
      "rewards/_accuracy_reward": 0.8125,
      "rewards/_format_reward": 1.0,
      "step": 1019
    },
    {
      "completion_length": 166.125,
      "epoch": 0.255,
      "grad_norm": 0.6103510856628418,
      "kl": 0.05860072746872902,
      "learning_rate": 4.642918251755281e-06,
      "loss": 0.0023,
      "reward": 1.7625000476837158,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.762499988079071,
      "rewards/_format_reward": 1.0,
      "step": 1020
    },
    {
      "completion_length": 161.5,
      "epoch": 0.25525,
      "grad_norm": 0.6660823822021484,
      "kl": 0.06608124077320099,
      "learning_rate": 4.641793797162625e-06,
      "loss": 0.0026,
      "reward": 1.8125,
      "reward_std": 0.3471825420856476,
      "rewards/_accuracy_reward": 0.8125,
      "rewards/_format_reward": 1.0,
      "step": 1021
    },
    {
      "completion_length": 92.0,
      "epoch": 0.2555,
      "grad_norm": 0.07947294414043427,
      "kl": 0.09260207414627075,
      "learning_rate": 4.640667711500821e-06,
      "loss": 0.0037,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1022
    },
    {
      "completion_length": 143.75,
      "epoch": 0.25575,
      "grad_norm": 0.023698054254055023,
      "kl": 0.04806230962276459,
      "learning_rate": 4.6395399956274334e-06,
      "loss": 0.0019,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1023
    },
    {
      "completion_length": 215.5,
      "epoch": 0.256,
      "grad_norm": 0.5254735350608826,
      "kl": 0.037495993077754974,
      "learning_rate": 4.638410650401267e-06,
      "loss": 0.0015,
      "reward": 1.193750023841858,
      "reward_std": 0.8304204940795898,
      "rewards/_accuracy_reward": 0.4437499940395355,
      "rewards/_format_reward": 0.75,
      "step": 1024
    },
    {
      "completion_length": 138.0,
      "epoch": 0.25625,
      "grad_norm": 0.02838887646794319,
      "kl": 0.06760545819997787,
      "learning_rate": 4.637279676682367e-06,
      "loss": 0.0027,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1025
    },
    {
      "completion_length": 126.375,
      "epoch": 0.2565,
      "grad_norm": 0.024629445746541023,
      "kl": 0.06675737351179123,
      "learning_rate": 4.636147075332019e-06,
      "loss": 0.0027,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1026
    },
    {
      "completion_length": 143.0,
      "epoch": 0.25675,
      "grad_norm": 0.600119411945343,
      "kl": 0.06903208047151566,
      "learning_rate": 4.635012847212749e-06,
      "loss": 0.0028,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 1027
    },
    {
      "completion_length": 134.625,
      "epoch": 0.257,
      "grad_norm": 0.7650855183601379,
      "kl": 0.059212468564510345,
      "learning_rate": 4.633876993188319e-06,
      "loss": 0.0024,
      "reward": 1.8762500286102295,
      "reward_std": 0.35001784563064575,
      "rewards/_accuracy_reward": 0.8762500286102295,
      "rewards/_format_reward": 1.0,
      "step": 1028
    },
    {
      "completion_length": 180.375,
      "epoch": 0.25725,
      "grad_norm": 0.5085853338241577,
      "kl": 0.04607116058468819,
      "learning_rate": 4.632739514123733e-06,
      "loss": 0.0018,
      "reward": 1.5125000476837158,
      "reward_std": 0.7467787861824036,
      "rewards/_accuracy_reward": 0.637499988079071,
      "rewards/_format_reward": 0.875,
      "step": 1029
    },
    {
      "completion_length": 154.25,
      "epoch": 0.2575,
      "grad_norm": 0.6598264575004578,
      "kl": 0.05613408610224724,
      "learning_rate": 4.631600410885231e-06,
      "loss": 0.0022,
      "reward": 1.8762500286102295,
      "reward_std": 0.35001784563064575,
      "rewards/_accuracy_reward": 0.8762500286102295,
      "rewards/_format_reward": 1.0,
      "step": 1030
    },
    {
      "completion_length": 135.375,
      "epoch": 0.25775,
      "grad_norm": 0.020788883790373802,
      "kl": 0.06492722034454346,
      "learning_rate": 4.6304596843402885e-06,
      "loss": 0.0026,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1031
    },
    {
      "completion_length": 165.375,
      "epoch": 0.258,
      "grad_norm": 0.6187155842781067,
      "kl": 0.045201320201158524,
      "learning_rate": 4.62931733535762e-06,
      "loss": 0.0018,
      "reward": 1.53125,
      "reward_std": 0.38816189765930176,
      "rewards/_accuracy_reward": 0.53125,
      "rewards/_format_reward": 1.0,
      "step": 1032
    },
    {
      "completion_length": 195.125,
      "epoch": 0.25825,
      "grad_norm": 0.5255759358406067,
      "kl": 0.05828214809298515,
      "learning_rate": 4.628173364807171e-06,
      "loss": 0.0023,
      "reward": 1.787500023841858,
      "reward_std": 0.39708763360977173,
      "rewards/_accuracy_reward": 0.7875000238418579,
      "rewards/_format_reward": 1.0,
      "step": 1033
    },
    {
      "completion_length": 150.0,
      "epoch": 0.2585,
      "grad_norm": 0.6497631072998047,
      "kl": 0.07949826866388321,
      "learning_rate": 4.627027773560129e-06,
      "loss": 0.0032,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 0.875,
      "step": 1034
    },
    {
      "completion_length": 155.25,
      "epoch": 0.25875,
      "grad_norm": 0.8581832051277161,
      "kl": 0.0458100289106369,
      "learning_rate": 4.625880562488908e-06,
      "loss": 0.0018,
      "reward": 1.7625000476837158,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.762499988079071,
      "rewards/_format_reward": 1.0,
      "step": 1035
    },
    {
      "completion_length": 181.75,
      "epoch": 0.259,
      "grad_norm": 0.6497436761856079,
      "kl": 0.04667607694864273,
      "learning_rate": 4.62473173246716e-06,
      "loss": 0.0019,
      "reward": 1.0625,
      "reward_std": 0.5403372049331665,
      "rewards/_accuracy_reward": 0.1875,
      "rewards/_format_reward": 0.875,
      "step": 1036
    },
    {
      "completion_length": 161.125,
      "epoch": 0.25925,
      "grad_norm": 0.6015608906745911,
      "kl": 0.047349605709314346,
      "learning_rate": 4.62358128436977e-06,
      "loss": 0.0019,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1037
    },
    {
      "completion_length": 183.75,
      "epoch": 0.2595,
      "grad_norm": 0.6029166579246521,
      "kl": 0.04961675405502319,
      "learning_rate": 4.622429219072854e-06,
      "loss": 0.002,
      "reward": 1.5625,
      "reward_std": 0.7165144085884094,
      "rewards/_accuracy_reward": 0.6875,
      "rewards/_format_reward": 0.875,
      "step": 1038
    },
    {
      "completion_length": 176.875,
      "epoch": 0.25975,
      "grad_norm": 0.5468695759773254,
      "kl": 0.049566950649023056,
      "learning_rate": 4.6212755374537596e-06,
      "loss": 0.002,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 1039
    },
    {
      "completion_length": 90.125,
      "epoch": 0.26,
      "grad_norm": 0.7798323035240173,
      "kl": 0.0876527652144432,
      "learning_rate": 4.620120240391065e-06,
      "loss": 0.0035,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1040
    },
    {
      "completion_length": 199.375,
      "epoch": 0.26025,
      "grad_norm": 0.5108053088188171,
      "kl": 0.056546930223703384,
      "learning_rate": 4.61896332876458e-06,
      "loss": 0.0023,
      "reward": 1.5,
      "reward_std": 0.9258201122283936,
      "rewards/_accuracy_reward": 0.75,
      "rewards/_format_reward": 0.75,
      "step": 1041
    },
    {
      "completion_length": 159.125,
      "epoch": 0.2605,
      "grad_norm": 0.6133120059967041,
      "kl": 0.06025753542780876,
      "learning_rate": 4.6178048034553435e-06,
      "loss": 0.0024,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 1042
    },
    {
      "completion_length": 156.875,
      "epoch": 0.26075,
      "grad_norm": 0.6843867897987366,
      "kl": 0.04468563199043274,
      "learning_rate": 4.616644665345621e-06,
      "loss": 0.0018,
      "reward": 1.6437499523162842,
      "reward_std": 0.49167174100875854,
      "rewards/_accuracy_reward": 0.6437499523162842,
      "rewards/_format_reward": 1.0,
      "step": 1043
    },
    {
      "completion_length": 193.875,
      "epoch": 0.261,
      "grad_norm": 0.034902796149253845,
      "kl": 0.05293627455830574,
      "learning_rate": 4.6154829153189105e-06,
      "loss": 0.0021,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1044
    },
    {
      "completion_length": 221.25,
      "epoch": 0.26125,
      "grad_norm": 0.5196229219436646,
      "kl": 0.044894713908433914,
      "learning_rate": 4.614319554259934e-06,
      "loss": 0.0018,
      "reward": 1.5,
      "reward_std": 0.9258201122283936,
      "rewards/_accuracy_reward": 0.75,
      "rewards/_format_reward": 0.75,
      "step": 1045
    },
    {
      "completion_length": 107.5,
      "epoch": 0.2615,
      "grad_norm": 0.021327383816242218,
      "kl": 0.04686171934008598,
      "learning_rate": 4.613154583054641e-06,
      "loss": 0.0019,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1046
    },
    {
      "completion_length": 169.375,
      "epoch": 0.26175,
      "grad_norm": 0.029194172471761703,
      "kl": 0.06922190636396408,
      "learning_rate": 4.611988002590209e-06,
      "loss": 0.0028,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1047
    },
    {
      "completion_length": 186.75,
      "epoch": 0.262,
      "grad_norm": 0.5589852333068848,
      "kl": 0.05440639704465866,
      "learning_rate": 4.610819813755038e-06,
      "loss": 0.0022,
      "reward": 0.90625,
      "reward_std": 0.6483150720596313,
      "rewards/_accuracy_reward": 0.15625,
      "rewards/_format_reward": 0.75,
      "step": 1048
    },
    {
      "completion_length": 181.625,
      "epoch": 0.26225,
      "grad_norm": 0.7409690022468567,
      "kl": 0.0589996799826622,
      "learning_rate": 4.609650017438757e-06,
      "loss": 0.0024,
      "reward": 1.3762500286102295,
      "reward_std": 0.915547251701355,
      "rewards/_accuracy_reward": 0.6262500286102295,
      "rewards/_format_reward": 0.75,
      "step": 1049
    },
    {
      "completion_length": 197.375,
      "epoch": 0.2625,
      "grad_norm": 0.7713769674301147,
      "kl": 0.05258062854409218,
      "learning_rate": 4.608478614532215e-06,
      "loss": 0.0021,
      "reward": 1.5,
      "reward_std": 0.9258201122283936,
      "rewards/_accuracy_reward": 0.75,
      "rewards/_format_reward": 0.75,
      "step": 1050
    },
    {
      "completion_length": 100.0,
      "epoch": 0.26275,
      "grad_norm": 0.7785927653312683,
      "kl": 0.04665987938642502,
      "learning_rate": 4.6073056059274865e-06,
      "loss": 0.0019,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 1051
    },
    {
      "completion_length": 200.125,
      "epoch": 0.263,
      "grad_norm": 0.6331179738044739,
      "kl": 0.052123308181762695,
      "learning_rate": 4.60613099251787e-06,
      "loss": 0.0021,
      "reward": 1.5,
      "reward_std": 0.9258201122283936,
      "rewards/_accuracy_reward": 0.75,
      "rewards/_format_reward": 0.75,
      "step": 1052
    },
    {
      "completion_length": 109.75,
      "epoch": 0.26325,
      "grad_norm": 0.8628464937210083,
      "kl": 0.05367436632514,
      "learning_rate": 4.604954775197882e-06,
      "loss": 0.0021,
      "reward": 1.7575000524520874,
      "reward_std": 0.449150025844574,
      "rewards/_accuracy_reward": 0.7574999928474426,
      "rewards/_format_reward": 1.0,
      "step": 1053
    },
    {
      "completion_length": 184.75,
      "epoch": 0.2635,
      "grad_norm": 0.5951057076454163,
      "kl": 0.050312891602516174,
      "learning_rate": 4.603776954863266e-06,
      "loss": 0.002,
      "reward": 1.1875,
      "reward_std": 0.9519716501235962,
      "rewards/_accuracy_reward": 0.5625,
      "rewards/_format_reward": 0.625,
      "step": 1054
    },
    {
      "completion_length": 157.5,
      "epoch": 0.26375,
      "grad_norm": 0.8466554880142212,
      "kl": 0.04847400635480881,
      "learning_rate": 4.602597532410982e-06,
      "loss": 0.0019,
      "reward": 1.5499999523162842,
      "reward_std": 0.4855042099952698,
      "rewards/_accuracy_reward": 0.5499999523162842,
      "rewards/_format_reward": 1.0,
      "step": 1055
    },
    {
      "completion_length": 175.125,
      "epoch": 0.264,
      "grad_norm": 0.5892555713653564,
      "kl": 0.05255506560206413,
      "learning_rate": 4.601416508739211e-06,
      "loss": 0.0021,
      "reward": 1.6887500286102295,
      "reward_std": 0.43590423464775085,
      "rewards/_accuracy_reward": 0.6887500286102295,
      "rewards/_format_reward": 1.0,
      "step": 1056
    },
    {
      "completion_length": 133.125,
      "epoch": 0.26425,
      "grad_norm": 0.026735153049230576,
      "kl": 0.04194887727499008,
      "learning_rate": 4.600233884747355e-06,
      "loss": 0.0017,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1057
    },
    {
      "completion_length": 113.5,
      "epoch": 0.2645,
      "grad_norm": 0.5905328989028931,
      "kl": 0.0982663631439209,
      "learning_rate": 4.599049661336033e-06,
      "loss": 0.0039,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 1058
    },
    {
      "completion_length": 120.75,
      "epoch": 0.26475,
      "grad_norm": 1.0292084217071533,
      "kl": 0.0494346097111702,
      "learning_rate": 4.5978638394070835e-06,
      "loss": 0.002,
      "reward": 1.78125,
      "reward_std": 0.41052013635635376,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 0.875,
      "step": 1059
    },
    {
      "completion_length": 183.25,
      "epoch": 0.265,
      "grad_norm": 0.6092599630355835,
      "kl": 0.060696642845869064,
      "learning_rate": 4.596676419863561e-06,
      "loss": 0.0024,
      "reward": 1.7625000476837158,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.762499988079071,
      "rewards/_format_reward": 1.0,
      "step": 1060
    },
    {
      "completion_length": 155.75,
      "epoch": 0.26525,
      "grad_norm": 0.7234264612197876,
      "kl": 0.05358058586716652,
      "learning_rate": 4.595487403609736e-06,
      "loss": 0.0021,
      "reward": 1.787500023841858,
      "reward_std": 0.39708760380744934,
      "rewards/_accuracy_reward": 0.7875000238418579,
      "rewards/_format_reward": 1.0,
      "step": 1061
    },
    {
      "completion_length": 180.75,
      "epoch": 0.2655,
      "grad_norm": 0.5621580481529236,
      "kl": 0.06479740887880325,
      "learning_rate": 4.5942967915510975e-06,
      "loss": 0.0026,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 1062
    },
    {
      "completion_length": 107.5,
      "epoch": 0.26575,
      "grad_norm": 0.46496903896331787,
      "kl": 0.037450678646564484,
      "learning_rate": 4.593104584594348e-06,
      "loss": 0.0015,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 1063
    },
    {
      "completion_length": 114.25,
      "epoch": 0.266,
      "grad_norm": 0.7852677702903748,
      "kl": 0.0679827630519867,
      "learning_rate": 4.591910783647405e-06,
      "loss": 0.0027,
      "reward": 1.8125,
      "reward_std": 0.3471825420856476,
      "rewards/_accuracy_reward": 0.8125,
      "rewards/_format_reward": 1.0,
      "step": 1064
    },
    {
      "completion_length": 181.75,
      "epoch": 0.26625,
      "grad_norm": 0.5932605862617493,
      "kl": 0.057104308158159256,
      "learning_rate": 4.590715389619399e-06,
      "loss": 0.0023,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1065
    },
    {
      "completion_length": 123.75,
      "epoch": 0.2665,
      "grad_norm": 0.6589471697807312,
      "kl": 0.04012312740087509,
      "learning_rate": 4.589518403420676e-06,
      "loss": 0.0016,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 1066
    },
    {
      "completion_length": 68.375,
      "epoch": 0.26675,
      "grad_norm": 0.8799357414245605,
      "kl": 0.0480550192296505,
      "learning_rate": 4.588319825962793e-06,
      "loss": 0.0019,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 1067
    },
    {
      "completion_length": 146.625,
      "epoch": 0.267,
      "grad_norm": 0.6732004284858704,
      "kl": 0.045358166098594666,
      "learning_rate": 4.587119658158517e-06,
      "loss": 0.0018,
      "reward": 1.3937499523162842,
      "reward_std": 0.7336004972457886,
      "rewards/_accuracy_reward": 0.5187499523162842,
      "rewards/_format_reward": 0.875,
      "step": 1068
    },
    {
      "completion_length": 183.875,
      "epoch": 0.26725,
      "grad_norm": 0.040793102234601974,
      "kl": 0.07178792357444763,
      "learning_rate": 4.58591790092183e-06,
      "loss": 0.0029,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1069
    },
    {
      "completion_length": 132.5,
      "epoch": 0.2675,
      "grad_norm": 0.04739204794168472,
      "kl": 0.06881429255008698,
      "learning_rate": 4.584714555167921e-06,
      "loss": 0.0028,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1070
    },
    {
      "completion_length": 156.75,
      "epoch": 0.26775,
      "grad_norm": 0.8715057969093323,
      "kl": 0.08568653464317322,
      "learning_rate": 4.583509621813192e-06,
      "loss": 0.0034,
      "reward": 1.524999976158142,
      "reward_std": 0.5077964067459106,
      "rewards/_accuracy_reward": 0.5249999761581421,
      "rewards/_format_reward": 1.0,
      "step": 1071
    },
    {
      "completion_length": 141.0,
      "epoch": 0.268,
      "grad_norm": 0.0545993335545063,
      "kl": 0.07613251358270645,
      "learning_rate": 4.582303101775249e-06,
      "loss": 0.003,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1072
    },
    {
      "completion_length": 154.25,
      "epoch": 0.26825,
      "grad_norm": 0.7691239714622498,
      "kl": 0.07986550033092499,
      "learning_rate": 4.581094995972912e-06,
      "loss": 0.0032,
      "reward": 1.787500023841858,
      "reward_std": 0.39708763360977173,
      "rewards/_accuracy_reward": 0.7875000238418579,
      "rewards/_format_reward": 1.0,
      "step": 1073
    },
    {
      "completion_length": 166.75,
      "epoch": 0.2685,
      "grad_norm": 0.5310074687004089,
      "kl": 0.05323049798607826,
      "learning_rate": 4.579885305326206e-06,
      "loss": 0.0021,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1074
    },
    {
      "completion_length": 172.625,
      "epoch": 0.26875,
      "grad_norm": 0.7366254329681396,
      "kl": 0.060853827744722366,
      "learning_rate": 4.578674030756364e-06,
      "loss": 0.0024,
      "reward": 1.40625,
      "reward_std": 0.49167174100875854,
      "rewards/_accuracy_reward": 0.4062499701976776,
      "rewards/_format_reward": 1.0,
      "step": 1075
    },
    {
      "completion_length": 157.625,
      "epoch": 0.269,
      "grad_norm": 0.5994381904602051,
      "kl": 0.05490027368068695,
      "learning_rate": 4.577461173185821e-06,
      "loss": 0.0022,
      "reward": 1.0749999284744263,
      "reward_std": 0.0707106813788414,
      "rewards/_accuracy_reward": 0.07500000298023224,
      "rewards/_format_reward": 1.0,
      "step": 1076
    },
    {
      "completion_length": 160.375,
      "epoch": 0.26925,
      "grad_norm": 0.023495573550462723,
      "kl": 0.04241487383842468,
      "learning_rate": 4.576246733538223e-06,
      "loss": 0.0017,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1077
    },
    {
      "completion_length": 182.625,
      "epoch": 0.2695,
      "grad_norm": 0.6254801750183105,
      "kl": 0.055535938590765,
      "learning_rate": 4.5750307127384194e-06,
      "loss": 0.0022,
      "reward": 1.1687499284744263,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.16875000298023224,
      "rewards/_format_reward": 1.0,
      "step": 1078
    },
    {
      "completion_length": 116.125,
      "epoch": 0.26975,
      "grad_norm": 0.04201361909508705,
      "kl": 0.07124117761850357,
      "learning_rate": 4.5738131117124605e-06,
      "loss": 0.0028,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1079
    },
    {
      "completion_length": 122.875,
      "epoch": 0.27,
      "grad_norm": 0.8643020391464233,
      "kl": 0.06395326554775238,
      "learning_rate": 4.572593931387604e-06,
      "loss": 0.0026,
      "reward": 1.7825000286102295,
      "reward_std": 0.40780770778656006,
      "rewards/_accuracy_reward": 0.7825000286102295,
      "rewards/_format_reward": 1.0,
      "step": 1080
    },
    {
      "completion_length": 146.375,
      "epoch": 0.27025,
      "grad_norm": 0.019885435700416565,
      "kl": 0.038068097084760666,
      "learning_rate": 4.571373172692309e-06,
      "loss": 0.0015,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1081
    },
    {
      "completion_length": 123.625,
      "epoch": 0.2705,
      "grad_norm": 1.255374550819397,
      "kl": 0.05284246429800987,
      "learning_rate": 4.570150836556236e-06,
      "loss": 0.0021,
      "reward": 1.1937499046325684,
      "reward_std": 0.33320683240890503,
      "rewards/_accuracy_reward": 0.19375000894069672,
      "rewards/_format_reward": 1.0,
      "step": 1082
    },
    {
      "completion_length": 162.5,
      "epoch": 0.27075,
      "grad_norm": 0.6360936760902405,
      "kl": 0.08327899128198624,
      "learning_rate": 4.568926923910248e-06,
      "loss": 0.0033,
      "reward": 1.6437499523162842,
      "reward_std": 0.49167174100875854,
      "rewards/_accuracy_reward": 0.6437499523162842,
      "rewards/_format_reward": 1.0,
      "step": 1083
    },
    {
      "completion_length": 152.75,
      "epoch": 0.271,
      "grad_norm": 0.7469035387039185,
      "kl": 0.048695940524339676,
      "learning_rate": 4.567701435686405e-06,
      "loss": 0.0019,
      "reward": 1.787500023841858,
      "reward_std": 0.39708763360977173,
      "rewards/_accuracy_reward": 0.7875000238418579,
      "rewards/_format_reward": 1.0,
      "step": 1084
    },
    {
      "completion_length": 153.625,
      "epoch": 0.27125,
      "grad_norm": 0.05639031156897545,
      "kl": 0.06517668068408966,
      "learning_rate": 4.566474372817971e-06,
      "loss": 0.0026,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1085
    },
    {
      "completion_length": 117.75,
      "epoch": 0.2715,
      "grad_norm": 0.9581111669540405,
      "kl": 0.05397922918200493,
      "learning_rate": 4.5652457362394094e-06,
      "loss": 0.0022,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1086
    },
    {
      "completion_length": 147.625,
      "epoch": 0.27175,
      "grad_norm": 0.7434791922569275,
      "kl": 0.07150553166866302,
      "learning_rate": 4.56401552688638e-06,
      "loss": 0.0029,
      "reward": 1.2874999046325684,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.28749996423721313,
      "rewards/_format_reward": 1.0,
      "step": 1087
    },
    {
      "completion_length": 138.25,
      "epoch": 0.272,
      "grad_norm": 0.8051536083221436,
      "kl": 0.05290424823760986,
      "learning_rate": 4.562783745695738e-06,
      "loss": 0.0021,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1088
    },
    {
      "completion_length": 130.5,
      "epoch": 0.27225,
      "grad_norm": 0.05256952345371246,
      "kl": 0.07315313816070557,
      "learning_rate": 4.561550393605541e-06,
      "loss": 0.0029,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1089
    },
    {
      "completion_length": 154.75,
      "epoch": 0.2725,
      "grad_norm": 0.03965034335851669,
      "kl": 0.07297085970640182,
      "learning_rate": 4.560315471555039e-06,
      "loss": 0.0029,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1090
    },
    {
      "completion_length": 151.375,
      "epoch": 0.27275,
      "grad_norm": 0.6053784489631653,
      "kl": 0.055059581995010376,
      "learning_rate": 4.55907898048468e-06,
      "loss": 0.0022,
      "reward": 1.431249976158142,
      "reward_std": 0.47579824924468994,
      "rewards/_accuracy_reward": 0.4312499761581421,
      "rewards/_format_reward": 1.0,
      "step": 1091
    },
    {
      "completion_length": 139.125,
      "epoch": 0.273,
      "grad_norm": 0.8535023331642151,
      "kl": 0.037554092705249786,
      "learning_rate": 4.5578409213361055e-06,
      "loss": 0.0015,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 1092
    },
    {
      "completion_length": 159.375,
      "epoch": 0.27325,
      "grad_norm": 0.03497467190027237,
      "kl": 0.0712779238820076,
      "learning_rate": 4.55660129505215e-06,
      "loss": 0.0029,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1093
    },
    {
      "completion_length": 112.375,
      "epoch": 0.2735,
      "grad_norm": 0.7117050290107727,
      "kl": 0.05563116446137428,
      "learning_rate": 4.555360102576844e-06,
      "loss": 0.0022,
      "reward": 1.431249976158142,
      "reward_std": 0.47579821944236755,
      "rewards/_accuracy_reward": 0.4312499761581421,
      "rewards/_format_reward": 1.0,
      "step": 1094
    },
    {
      "completion_length": 167.375,
      "epoch": 0.27375,
      "grad_norm": 0.5020763874053955,
      "kl": 0.050325650721788406,
      "learning_rate": 4.55411734485541e-06,
      "loss": 0.002,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 1095
    },
    {
      "completion_length": 133.125,
      "epoch": 0.274,
      "grad_norm": 0.718513011932373,
      "kl": 0.05303411930799484,
      "learning_rate": 4.55287302283426e-06,
      "loss": 0.0021,
      "reward": 1.65625,
      "reward_std": 0.7188470363616943,
      "rewards/_accuracy_reward": 0.78125,
      "rewards/_format_reward": 0.875,
      "step": 1096
    },
    {
      "completion_length": 189.375,
      "epoch": 0.27425,
      "grad_norm": 0.608174741268158,
      "kl": 0.05475342273712158,
      "learning_rate": 4.551627137461002e-06,
      "loss": 0.0022,
      "reward": 1.7625000476837158,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.762499988079071,
      "rewards/_format_reward": 1.0,
      "step": 1097
    },
    {
      "completion_length": 158.25,
      "epoch": 0.2745,
      "grad_norm": 0.6787841320037842,
      "kl": 0.05620495602488518,
      "learning_rate": 4.550379689684431e-06,
      "loss": 0.0022,
      "reward": 1.8125,
      "reward_std": 0.3471825420856476,
      "rewards/_accuracy_reward": 0.8125,
      "rewards/_format_reward": 1.0,
      "step": 1098
    },
    {
      "completion_length": 146.375,
      "epoch": 0.27475,
      "grad_norm": 0.5872085690498352,
      "kl": 0.041002292186021805,
      "learning_rate": 4.549130680454532e-06,
      "loss": 0.0016,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 1099
    },
    {
      "completion_length": 161.5,
      "epoch": 0.275,
      "grad_norm": 0.588703453540802,
      "kl": 0.055859677493572235,
      "learning_rate": 4.54788011072248e-06,
      "loss": 0.0022,
      "reward": 1.6687500476837158,
      "reward_std": 0.4613160789012909,
      "rewards/_accuracy_reward": 0.668749988079071,
      "rewards/_format_reward": 1.0,
      "step": 1100
    },
    {
      "completion_length": 170.5,
      "epoch": 0.27525,
      "grad_norm": 0.5734580159187317,
      "kl": 0.06272434443235397,
      "learning_rate": 4.546627981440639e-06,
      "loss": 0.0025,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1101
    },
    {
      "completion_length": 160.875,
      "epoch": 0.2755,
      "grad_norm": 0.6104035973548889,
      "kl": 0.0559980645775795,
      "learning_rate": 4.545374293562559e-06,
      "loss": 0.0022,
      "reward": 1.5125000476837158,
      "reward_std": 0.7467787861824036,
      "rewards/_accuracy_reward": 0.6375000476837158,
      "rewards/_format_reward": 0.875,
      "step": 1102
    },
    {
      "completion_length": 177.125,
      "epoch": 0.27575,
      "grad_norm": 0.5717198252677917,
      "kl": 0.09279928356409073,
      "learning_rate": 4.544119048042978e-06,
      "loss": 0.0037,
      "reward": 1.6875,
      "reward_std": 0.4381372928619385,
      "rewards/_accuracy_reward": 0.8125,
      "rewards/_format_reward": 0.875,
      "step": 1103
    },
    {
      "completion_length": 196.625,
      "epoch": 0.276,
      "grad_norm": 0.5511927604675293,
      "kl": 0.03467211127281189,
      "learning_rate": 4.542862245837821e-06,
      "loss": 0.0014,
      "reward": 1.25,
      "reward_std": 1.0350983142852783,
      "rewards/_accuracy_reward": 0.625,
      "rewards/_format_reward": 0.625,
      "step": 1104
    },
    {
      "completion_length": 155.625,
      "epoch": 0.27625,
      "grad_norm": 0.6550043821334839,
      "kl": 0.04956316575407982,
      "learning_rate": 4.541603887904198e-06,
      "loss": 0.002,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 1105
    },
    {
      "completion_length": 163.875,
      "epoch": 0.2765,
      "grad_norm": 0.4754960834980011,
      "kl": 0.046637773513793945,
      "learning_rate": 4.540343975200401e-06,
      "loss": 0.0019,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 1106
    },
    {
      "completion_length": 172.25,
      "epoch": 0.27675,
      "grad_norm": 0.031275276094675064,
      "kl": 0.04974092170596123,
      "learning_rate": 4.5390825086859094e-06,
      "loss": 0.002,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1107
    },
    {
      "completion_length": 149.75,
      "epoch": 0.277,
      "grad_norm": 0.5498752593994141,
      "kl": 0.04549973085522652,
      "learning_rate": 4.537819489321385e-06,
      "loss": 0.0018,
      "reward": 1.4200000762939453,
      "reward_std": 0.7127813100814819,
      "rewards/_accuracy_reward": 0.5449999570846558,
      "rewards/_format_reward": 0.875,
      "step": 1108
    },
    {
      "completion_length": 152.5,
      "epoch": 0.27725,
      "grad_norm": 0.6540334224700928,
      "kl": 0.03749295696616173,
      "learning_rate": 4.536554918068673e-06,
      "loss": 0.0015,
      "reward": 1.6437499523162842,
      "reward_std": 0.49167174100875854,
      "rewards/_accuracy_reward": 0.6437499523162842,
      "rewards/_format_reward": 1.0,
      "step": 1109
    },
    {
      "completion_length": 155.125,
      "epoch": 0.2775,
      "grad_norm": 0.6249139904975891,
      "kl": 0.052198849618434906,
      "learning_rate": 4.535288795890799e-06,
      "loss": 0.0021,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1110
    },
    {
      "completion_length": 162.75,
      "epoch": 0.27775,
      "grad_norm": 0.5957991480827332,
      "kl": 0.0481363981962204,
      "learning_rate": 4.5340211237519685e-06,
      "loss": 0.0019,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 1111
    },
    {
      "completion_length": 84.5,
      "epoch": 0.278,
      "grad_norm": 0.970755398273468,
      "kl": 0.029281822964549065,
      "learning_rate": 4.5327519026175694e-06,
      "loss": 0.0012,
      "reward": 1.7575000524520874,
      "reward_std": 0.449150025844574,
      "rewards/_accuracy_reward": 0.7575000524520874,
      "rewards/_format_reward": 1.0,
      "step": 1112
    },
    {
      "completion_length": 160.5,
      "epoch": 0.27825,
      "grad_norm": 0.5828734040260315,
      "kl": 0.05844755843281746,
      "learning_rate": 4.5314811334541695e-06,
      "loss": 0.0023,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 1113
    },
    {
      "completion_length": 180.625,
      "epoch": 0.2785,
      "grad_norm": 0.502030611038208,
      "kl": 0.05643211305141449,
      "learning_rate": 4.530208817229516e-06,
      "loss": 0.0023,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1114
    },
    {
      "completion_length": 120.375,
      "epoch": 0.27875,
      "grad_norm": 0.7388814091682434,
      "kl": 0.038211237639188766,
      "learning_rate": 4.528934954912531e-06,
      "loss": 0.0015,
      "reward": 1.5499999523162842,
      "reward_std": 0.4855041801929474,
      "rewards/_accuracy_reward": 0.5499999523162842,
      "rewards/_format_reward": 1.0,
      "step": 1115
    },
    {
      "completion_length": 203.375,
      "epoch": 0.279,
      "grad_norm": 0.4916674494743347,
      "kl": 0.050826288759708405,
      "learning_rate": 4.527659547473317e-06,
      "loss": 0.002,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 1116
    },
    {
      "completion_length": 111.625,
      "epoch": 0.27925,
      "grad_norm": 0.6236878037452698,
      "kl": 0.06385045498609543,
      "learning_rate": 4.526382595883152e-06,
      "loss": 0.0026,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 1117
    },
    {
      "completion_length": 169.125,
      "epoch": 0.2795,
      "grad_norm": 0.5840001702308655,
      "kl": 0.05632218345999718,
      "learning_rate": 4.5251041011144905e-06,
      "loss": 0.0023,
      "reward": 1.6262500286102295,
      "reward_std": 0.7428312301635742,
      "rewards/_accuracy_reward": 0.7512500286102295,
      "rewards/_format_reward": 0.875,
      "step": 1118
    },
    {
      "completion_length": 130.0,
      "epoch": 0.27975,
      "grad_norm": 0.8513467311859131,
      "kl": 0.08324826508760452,
      "learning_rate": 4.523824064140961e-06,
      "loss": 0.0033,
      "reward": 1.7625000476837158,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.762499988079071,
      "rewards/_format_reward": 1.0,
      "step": 1119
    },
    {
      "completion_length": 149.75,
      "epoch": 0.28,
      "grad_norm": 0.480070024728775,
      "kl": 0.039729684591293335,
      "learning_rate": 4.522542485937369e-06,
      "loss": 0.0016,
      "reward": 1.5012500286102295,
      "reward_std": 0.923509418964386,
      "rewards/_accuracy_reward": 0.7512500286102295,
      "rewards/_format_reward": 0.75,
      "step": 1120
    },
    {
      "completion_length": 187.0,
      "epoch": 0.28025,
      "grad_norm": 0.5705462694168091,
      "kl": 0.05749392881989479,
      "learning_rate": 4.521259367479691e-06,
      "loss": 0.0023,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 1121
    },
    {
      "completion_length": 92.5,
      "epoch": 0.2805,
      "grad_norm": 0.5976485013961792,
      "kl": 0.06839491426944733,
      "learning_rate": 4.519974709745076e-06,
      "loss": 0.0027,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1122
    },
    {
      "completion_length": 145.75,
      "epoch": 0.28075,
      "grad_norm": 0.46838706731796265,
      "kl": 0.0469730868935585,
      "learning_rate": 4.51868851371185e-06,
      "loss": 0.0019,
      "reward": 1.1687499284744263,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.16875000298023224,
      "rewards/_format_reward": 1.0,
      "step": 1123
    },
    {
      "completion_length": 138.625,
      "epoch": 0.281,
      "grad_norm": 0.02328825183212757,
      "kl": 0.045329801738262177,
      "learning_rate": 4.517400780359505e-06,
      "loss": 0.0018,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1124
    },
    {
      "completion_length": 123.0,
      "epoch": 0.28125,
      "grad_norm": 0.023147309198975563,
      "kl": 0.05815961956977844,
      "learning_rate": 4.516111510668707e-06,
      "loss": 0.0023,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1125
    },
    {
      "completion_length": 176.125,
      "epoch": 0.2815,
      "grad_norm": 0.5607932806015015,
      "kl": 0.052996277809143066,
      "learning_rate": 4.51482070562129e-06,
      "loss": 0.0021,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 1126
    },
    {
      "completion_length": 89.625,
      "epoch": 0.28175,
      "grad_norm": 0.023232001811265945,
      "kl": 0.04320669546723366,
      "learning_rate": 4.513528366200258e-06,
      "loss": 0.0017,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1127
    },
    {
      "completion_length": 160.875,
      "epoch": 0.282,
      "grad_norm": 0.5776987671852112,
      "kl": 0.05144071206450462,
      "learning_rate": 4.512234493389785e-06,
      "loss": 0.0021,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1128
    },
    {
      "completion_length": 172.75,
      "epoch": 0.28225,
      "grad_norm": 0.5175846219062805,
      "kl": 0.05581043288111687,
      "learning_rate": 4.510939088175211e-06,
      "loss": 0.0022,
      "reward": 1.631250023841858,
      "reward_std": 0.738210916519165,
      "rewards/_accuracy_reward": 0.7562500238418579,
      "rewards/_format_reward": 0.875,
      "step": 1129
    },
    {
      "completion_length": 145.375,
      "epoch": 0.2825,
      "grad_norm": 0.6114826202392578,
      "kl": 0.05112025886774063,
      "learning_rate": 4.509642151543043e-06,
      "loss": 0.002,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1130
    },
    {
      "completion_length": 102.75,
      "epoch": 0.28275,
      "grad_norm": 0.6514590978622437,
      "kl": 0.04705269634723663,
      "learning_rate": 4.508343684480956e-06,
      "loss": 0.0019,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1131
    },
    {
      "completion_length": 158.75,
      "epoch": 0.283,
      "grad_norm": 0.608859658241272,
      "kl": 0.1234949603676796,
      "learning_rate": 4.507043687977787e-06,
      "loss": 0.0049,
      "reward": 1.443750023841858,
      "reward_std": 0.7022603750228882,
      "rewards/_accuracy_reward": 0.6937500238418579,
      "rewards/_format_reward": 0.75,
      "step": 1132
    },
    {
      "completion_length": 149.875,
      "epoch": 0.28325,
      "grad_norm": 0.8146029710769653,
      "kl": 0.056399088352918625,
      "learning_rate": 4.505742163023541e-06,
      "loss": 0.0023,
      "reward": 1.0437499284744263,
      "reward_std": 0.5212878584861755,
      "rewards/_accuracy_reward": 0.16875000298023224,
      "rewards/_format_reward": 0.875,
      "step": 1133
    },
    {
      "completion_length": 207.125,
      "epoch": 0.2835,
      "grad_norm": 0.5459649562835693,
      "kl": 0.06084807217121124,
      "learning_rate": 4.504439110609385e-06,
      "loss": 0.0024,
      "reward": 1.28125,
      "reward_std": 0.8807210922241211,
      "rewards/_accuracy_reward": 0.65625,
      "rewards/_format_reward": 0.625,
      "step": 1134
    },
    {
      "completion_length": 151.375,
      "epoch": 0.28375,
      "grad_norm": 0.7785174250602722,
      "kl": 0.05954066291451454,
      "learning_rate": 4.503134531727652e-06,
      "loss": 0.0024,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 1135
    },
    {
      "completion_length": 152.0,
      "epoch": 0.284,
      "grad_norm": 0.05124456435441971,
      "kl": 0.04783984273672104,
      "learning_rate": 4.501828427371834e-06,
      "loss": 0.0019,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1136
    },
    {
      "completion_length": 168.875,
      "epoch": 0.28425,
      "grad_norm": 0.027116047218441963,
      "kl": 0.0674908459186554,
      "learning_rate": 4.5005207985365875e-06,
      "loss": 0.0027,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1137
    },
    {
      "completion_length": 156.75,
      "epoch": 0.2845,
      "grad_norm": 0.7124760150909424,
      "kl": 0.06690853834152222,
      "learning_rate": 4.4992116462177274e-06,
      "loss": 0.0027,
      "reward": 1.756250023841858,
      "reward_std": 0.45153507590293884,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 0.875,
      "step": 1138
    },
    {
      "completion_length": 181.75,
      "epoch": 0.28475,
      "grad_norm": 0.5964755415916443,
      "kl": 0.06595727056264877,
      "learning_rate": 4.49790097141223e-06,
      "loss": 0.0026,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 1139
    },
    {
      "completion_length": 156.25,
      "epoch": 0.285,
      "grad_norm": 0.8890787959098816,
      "kl": 0.07360620051622391,
      "learning_rate": 4.496588775118232e-06,
      "loss": 0.0029,
      "reward": 1.631250023841858,
      "reward_std": 0.7382108569145203,
      "rewards/_accuracy_reward": 0.7562500238418579,
      "rewards/_format_reward": 0.875,
      "step": 1140
    },
    {
      "completion_length": 157.5,
      "epoch": 0.28525,
      "grad_norm": 0.8517801761627197,
      "kl": 0.0814465880393982,
      "learning_rate": 4.495275058335029e-06,
      "loss": 0.0033,
      "reward": 1.4187500476837158,
      "reward_std": 0.7235515117645264,
      "rewards/_accuracy_reward": 0.543749988079071,
      "rewards/_format_reward": 0.875,
      "step": 1141
    },
    {
      "completion_length": 171.125,
      "epoch": 0.2855,
      "grad_norm": 0.5479044914245605,
      "kl": 0.04513910040259361,
      "learning_rate": 4.4939598220630724e-06,
      "loss": 0.0018,
      "reward": 1.5125000476837158,
      "reward_std": 0.7467787861824036,
      "rewards/_accuracy_reward": 0.6375000476837158,
      "rewards/_format_reward": 0.875,
      "step": 1142
    },
    {
      "completion_length": 164.0,
      "epoch": 0.28575,
      "grad_norm": 0.05868508666753769,
      "kl": 0.06565727293491364,
      "learning_rate": 4.49264306730397e-06,
      "loss": 0.0026,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1143
    },
    {
      "completion_length": 155.75,
      "epoch": 0.286,
      "grad_norm": 0.7048906087875366,
      "kl": 0.04985063150525093,
      "learning_rate": 4.491324795060491e-06,
      "loss": 0.002,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1144
    },
    {
      "completion_length": 129.625,
      "epoch": 0.28625,
      "grad_norm": 0.017044005915522575,
      "kl": 0.04838981479406357,
      "learning_rate": 4.490005006336555e-06,
      "loss": 0.0019,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1145
    },
    {
      "completion_length": 131.375,
      "epoch": 0.2865,
      "grad_norm": 0.5756621360778809,
      "kl": 0.05202525854110718,
      "learning_rate": 4.48868370213724e-06,
      "loss": 0.0021,
      "reward": 1.787500023841858,
      "reward_std": 0.39708760380744934,
      "rewards/_accuracy_reward": 0.7875000238418579,
      "rewards/_format_reward": 1.0,
      "step": 1146
    },
    {
      "completion_length": 152.375,
      "epoch": 0.28675,
      "grad_norm": 1.1808115243911743,
      "kl": 0.06879065185785294,
      "learning_rate": 4.487360883468775e-06,
      "loss": 0.0028,
      "reward": 1.3125,
      "reward_std": 0.4299086630344391,
      "rewards/_accuracy_reward": 0.3124999701976776,
      "rewards/_format_reward": 1.0,
      "step": 1147
    },
    {
      "completion_length": 175.125,
      "epoch": 0.287,
      "grad_norm": 0.7814071774482727,
      "kl": 0.06425180286169052,
      "learning_rate": 4.4860365513385456e-06,
      "loss": 0.0026,
      "reward": 1.46875,
      "reward_std": 0.6999680995941162,
      "rewards/_accuracy_reward": 0.59375,
      "rewards/_format_reward": 0.875,
      "step": 1148
    },
    {
      "completion_length": 115.75,
      "epoch": 0.28725,
      "grad_norm": 0.8087677955627441,
      "kl": 0.04324078559875488,
      "learning_rate": 4.484710706755087e-06,
      "loss": 0.0017,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 1149
    },
    {
      "completion_length": 144.375,
      "epoch": 0.2875,
      "grad_norm": 0.9671500325202942,
      "kl": 0.09105661511421204,
      "learning_rate": 4.4833833507280884e-06,
      "loss": 0.0036,
      "reward": 1.5149999856948853,
      "reward_std": 0.5187072157859802,
      "rewards/_accuracy_reward": 0.5149999856948853,
      "rewards/_format_reward": 1.0,
      "step": 1150
    },
    {
      "completion_length": 156.375,
      "epoch": 0.28775,
      "grad_norm": 0.7499131560325623,
      "kl": 0.07455121725797653,
      "learning_rate": 4.482054484268389e-06,
      "loss": 0.003,
      "reward": 1.8762500286102295,
      "reward_std": 0.35001784563064575,
      "rewards/_accuracy_reward": 0.8762500286102295,
      "rewards/_format_reward": 1.0,
      "step": 1151
    },
    {
      "completion_length": 144.75,
      "epoch": 0.288,
      "grad_norm": 0.08447606861591339,
      "kl": 0.10362078249454498,
      "learning_rate": 4.4807241083879774e-06,
      "loss": 0.0041,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1152
    },
    {
      "completion_length": 96.125,
      "epoch": 0.28825,
      "grad_norm": 0.8950498700141907,
      "kl": 0.10107363015413284,
      "learning_rate": 4.4793922240999935e-06,
      "loss": 0.004,
      "reward": 1.8125,
      "reward_std": 0.3471825420856476,
      "rewards/_accuracy_reward": 0.8125,
      "rewards/_format_reward": 1.0,
      "step": 1153
    },
    {
      "completion_length": 122.125,
      "epoch": 0.2885,
      "grad_norm": 1.3117358684539795,
      "kl": 0.09728724509477615,
      "learning_rate": 4.478058832418726e-06,
      "loss": 0.0039,
      "reward": 1.5499999523162842,
      "reward_std": 0.4855041801929474,
      "rewards/_accuracy_reward": 0.5499999523162842,
      "rewards/_format_reward": 1.0,
      "step": 1154
    },
    {
      "completion_length": 167.0,
      "epoch": 0.28875,
      "grad_norm": 0.6316139101982117,
      "kl": 0.08301078528165817,
      "learning_rate": 4.476723934359609e-06,
      "loss": 0.0033,
      "reward": 1.6437499523162842,
      "reward_std": 0.49167174100875854,
      "rewards/_accuracy_reward": 0.643750011920929,
      "rewards/_format_reward": 1.0,
      "step": 1155
    },
    {
      "completion_length": 130.875,
      "epoch": 0.289,
      "grad_norm": 0.7130420804023743,
      "kl": 0.08175483345985413,
      "learning_rate": 4.475387530939226e-06,
      "loss": 0.0033,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 1156
    },
    {
      "completion_length": 135.5,
      "epoch": 0.28925,
      "grad_norm": 0.06840886920690536,
      "kl": 0.07843038439750671,
      "learning_rate": 4.474049623175307e-06,
      "loss": 0.0031,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1157
    },
    {
      "completion_length": 105.875,
      "epoch": 0.2895,
      "grad_norm": 0.633524477481842,
      "kl": 0.07753744721412659,
      "learning_rate": 4.4727102120867274e-06,
      "loss": 0.0031,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 0.875,
      "step": 1158
    },
    {
      "completion_length": 168.5,
      "epoch": 0.28975,
      "grad_norm": 0.808603048324585,
      "kl": 0.08730296045541763,
      "learning_rate": 4.471369298693505e-06,
      "loss": 0.0035,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 1159
    },
    {
      "completion_length": 131.75,
      "epoch": 0.29,
      "grad_norm": 0.039577484130859375,
      "kl": 0.06506015360355377,
      "learning_rate": 4.470026884016805e-06,
      "loss": 0.0026,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1160
    },
    {
      "completion_length": 107.25,
      "epoch": 0.29025,
      "grad_norm": 0.7665241360664368,
      "kl": 0.09168189764022827,
      "learning_rate": 4.468682969078935e-06,
      "loss": 0.0037,
      "reward": 1.787500023841858,
      "reward_std": 0.39708763360977173,
      "rewards/_accuracy_reward": 0.7875000238418579,
      "rewards/_format_reward": 1.0,
      "step": 1161
    },
    {
      "completion_length": 148.875,
      "epoch": 0.2905,
      "grad_norm": 0.6652460694313049,
      "kl": 0.05769990384578705,
      "learning_rate": 4.467337554903344e-06,
      "loss": 0.0023,
      "reward": 1.40625,
      "reward_std": 0.49167174100875854,
      "rewards/_accuracy_reward": 0.4062499701976776,
      "rewards/_format_reward": 1.0,
      "step": 1162
    },
    {
      "completion_length": 180.5,
      "epoch": 0.29075,
      "grad_norm": 0.6770204305648804,
      "kl": 0.0662575513124466,
      "learning_rate": 4.465990642514622e-06,
      "loss": 0.0027,
      "reward": 1.537500023841858,
      "reward_std": 0.7322909235954285,
      "rewards/_accuracy_reward": 0.6625000238418579,
      "rewards/_format_reward": 0.875,
      "step": 1163
    },
    {
      "completion_length": 110.0,
      "epoch": 0.291,
      "grad_norm": 0.037855084985494614,
      "kl": 0.06914416700601578,
      "learning_rate": 4.464642232938505e-06,
      "loss": 0.0028,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1164
    },
    {
      "completion_length": 155.125,
      "epoch": 0.29125,
      "grad_norm": 0.48786526918411255,
      "kl": 0.05076320096850395,
      "learning_rate": 4.463292327201862e-06,
      "loss": 0.002,
      "reward": 1.1837499141693115,
      "reward_std": 0.3386079967021942,
      "rewards/_accuracy_reward": 0.1837499886751175,
      "rewards/_format_reward": 1.0,
      "step": 1165
    },
    {
      "completion_length": 75.375,
      "epoch": 0.2915,
      "grad_norm": 0.994990348815918,
      "kl": 0.09153227508068085,
      "learning_rate": 4.461940926332708e-06,
      "loss": 0.0037,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1166
    },
    {
      "completion_length": 109.625,
      "epoch": 0.29175,
      "grad_norm": 0.021669652312994003,
      "kl": 0.04759254679083824,
      "learning_rate": 4.460588031360191e-06,
      "loss": 0.0019,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1167
    },
    {
      "completion_length": 93.875,
      "epoch": 0.292,
      "grad_norm": 0.8044827580451965,
      "kl": 0.03482041880488396,
      "learning_rate": 4.4592336433146e-06,
      "loss": 0.0014,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 1168
    },
    {
      "completion_length": 166.125,
      "epoch": 0.29225,
      "grad_norm": 0.6489118933677673,
      "kl": 0.06921645253896713,
      "learning_rate": 4.457877763227361e-06,
      "loss": 0.0028,
      "reward": 1.40625,
      "reward_std": 0.49167174100875854,
      "rewards/_accuracy_reward": 0.40625,
      "rewards/_format_reward": 1.0,
      "step": 1169
    },
    {
      "completion_length": 168.75,
      "epoch": 0.2925,
      "grad_norm": 0.5671146512031555,
      "kl": 0.06925438344478607,
      "learning_rate": 4.456520392131035e-06,
      "loss": 0.0028,
      "reward": 1.3937499523162842,
      "reward_std": 0.7336004972457886,
      "rewards/_accuracy_reward": 0.518750011920929,
      "rewards/_format_reward": 0.875,
      "step": 1170
    },
    {
      "completion_length": 176.5,
      "epoch": 0.29275,
      "grad_norm": 0.7186687588691711,
      "kl": 0.08284782618284225,
      "learning_rate": 4.45516153105932e-06,
      "loss": 0.0033,
      "reward": 1.28125,
      "reward_std": 0.44395747780799866,
      "rewards/_accuracy_reward": 0.4062499701976776,
      "rewards/_format_reward": 0.875,
      "step": 1171
    },
    {
      "completion_length": 140.0,
      "epoch": 0.293,
      "grad_norm": 0.5549473762512207,
      "kl": 0.05967408046126366,
      "learning_rate": 4.453801181047047e-06,
      "loss": 0.0024,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1172
    },
    {
      "completion_length": 160.625,
      "epoch": 0.29325,
      "grad_norm": 0.593147337436676,
      "kl": 0.062421780079603195,
      "learning_rate": 4.452439343130183e-06,
      "loss": 0.0025,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1173
    },
    {
      "completion_length": 135.125,
      "epoch": 0.2935,
      "grad_norm": 0.03139398992061615,
      "kl": 0.05725998803973198,
      "learning_rate": 4.4510760183458246e-06,
      "loss": 0.0023,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1174
    },
    {
      "completion_length": 136.875,
      "epoch": 0.29375,
      "grad_norm": 0.035139165818691254,
      "kl": 0.08669183403253555,
      "learning_rate": 4.4497112077322045e-06,
      "loss": 0.0035,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1175
    },
    {
      "completion_length": 93.125,
      "epoch": 0.294,
      "grad_norm": 0.03356340900063515,
      "kl": 0.10462416708469391,
      "learning_rate": 4.448344912328686e-06,
      "loss": 0.0042,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1176
    },
    {
      "completion_length": 174.5,
      "epoch": 0.29425,
      "grad_norm": 0.6406842470169067,
      "kl": 0.10782821476459503,
      "learning_rate": 4.446977133175761e-06,
      "loss": 0.0043,
      "reward": 1.5625,
      "reward_std": 0.7165144085884094,
      "rewards/_accuracy_reward": 0.6875,
      "rewards/_format_reward": 0.875,
      "step": 1177
    },
    {
      "completion_length": 180.125,
      "epoch": 0.2945,
      "grad_norm": 0.6326098442077637,
      "kl": 0.0835682675242424,
      "learning_rate": 4.445607871315053e-06,
      "loss": 0.0033,
      "reward": 1.1437499523162842,
      "reward_std": 0.8317097425460815,
      "rewards/_accuracy_reward": 0.39374998211860657,
      "rewards/_format_reward": 0.75,
      "step": 1178
    },
    {
      "completion_length": 96.625,
      "epoch": 0.29475,
      "grad_norm": 0.7805556058883667,
      "kl": 0.03996328264474869,
      "learning_rate": 4.444237127789315e-06,
      "loss": 0.0016,
      "reward": 1.40625,
      "reward_std": 0.49167174100875854,
      "rewards/_accuracy_reward": 0.40625,
      "rewards/_format_reward": 1.0,
      "step": 1179
    },
    {
      "completion_length": 133.375,
      "epoch": 0.295,
      "grad_norm": 0.02025960385799408,
      "kl": 0.059164561331272125,
      "learning_rate": 4.442864903642428e-06,
      "loss": 0.0024,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1180
    },
    {
      "completion_length": 147.875,
      "epoch": 0.29525,
      "grad_norm": 0.03799540922045708,
      "kl": 0.06712915748357773,
      "learning_rate": 4.4414911999194e-06,
      "loss": 0.0027,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1181
    },
    {
      "completion_length": 164.25,
      "epoch": 0.2955,
      "grad_norm": 0.6490309238433838,
      "kl": 0.07048535346984863,
      "learning_rate": 4.440116017666365e-06,
      "loss": 0.0028,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 1182
    },
    {
      "completion_length": 136.0,
      "epoch": 0.29575,
      "grad_norm": 0.6978442072868347,
      "kl": 0.06952231377363205,
      "learning_rate": 4.438739357930587e-06,
      "loss": 0.0028,
      "reward": 1.524999976158142,
      "reward_std": 0.5077964067459106,
      "rewards/_accuracy_reward": 0.5249999761581421,
      "rewards/_format_reward": 1.0,
      "step": 1183
    },
    {
      "completion_length": 98.125,
      "epoch": 0.296,
      "grad_norm": 1.5878691673278809,
      "kl": 0.04807111620903015,
      "learning_rate": 4.437361221760449e-06,
      "loss": 0.0019,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1184
    },
    {
      "completion_length": 166.0,
      "epoch": 0.29625,
      "grad_norm": 0.5427411198616028,
      "kl": 0.07635194063186646,
      "learning_rate": 4.435981610205464e-06,
      "loss": 0.0031,
      "reward": 0.9699999094009399,
      "reward_std": 0.3982820212841034,
      "rewards/_accuracy_reward": 0.0949999988079071,
      "rewards/_format_reward": 0.875,
      "step": 1185
    },
    {
      "completion_length": 140.625,
      "epoch": 0.2965,
      "grad_norm": 0.6156898140907288,
      "kl": 0.06197688356041908,
      "learning_rate": 4.434600524316266e-06,
      "loss": 0.0025,
      "reward": 1.5199999809265137,
      "reward_std": 0.5133086442947388,
      "rewards/_accuracy_reward": 0.5199999809265137,
      "rewards/_format_reward": 1.0,
      "step": 1186
    },
    {
      "completion_length": 144.0,
      "epoch": 0.29675,
      "grad_norm": 0.6569059491157532,
      "kl": 0.05045042932033539,
      "learning_rate": 4.4332179651446106e-06,
      "loss": 0.002,
      "reward": 1.6325000524520874,
      "reward_std": 0.507395327091217,
      "rewards/_accuracy_reward": 0.7574999928474426,
      "rewards/_format_reward": 0.875,
      "step": 1187
    },
    {
      "completion_length": 164.5,
      "epoch": 0.297,
      "grad_norm": 0.7192619442939758,
      "kl": 0.07004435360431671,
      "learning_rate": 4.431833933743378e-06,
      "loss": 0.0028,
      "reward": 1.65625,
      "reward_std": 0.7188470363616943,
      "rewards/_accuracy_reward": 0.78125,
      "rewards/_format_reward": 0.875,
      "step": 1188
    },
    {
      "completion_length": 160.125,
      "epoch": 0.29725,
      "grad_norm": 0.7192215323448181,
      "kl": 0.05854785814881325,
      "learning_rate": 4.430448431166567e-06,
      "loss": 0.0023,
      "reward": 1.40625,
      "reward_std": 0.49167174100875854,
      "rewards/_accuracy_reward": 0.40625,
      "rewards/_format_reward": 1.0,
      "step": 1189
    },
    {
      "completion_length": 148.375,
      "epoch": 0.2975,
      "grad_norm": 0.6885538101196289,
      "kl": 0.07502228021621704,
      "learning_rate": 4.4290614584693005e-06,
      "loss": 0.003,
      "reward": 1.5499999523162842,
      "reward_std": 0.4855041801929474,
      "rewards/_accuracy_reward": 0.5499999523162842,
      "rewards/_format_reward": 1.0,
      "step": 1190
    },
    {
      "completion_length": 93.125,
      "epoch": 0.29775,
      "grad_norm": 0.816205620765686,
      "kl": 0.08329864591360092,
      "learning_rate": 4.427673016707817e-06,
      "loss": 0.0033,
      "reward": 1.8125,
      "reward_std": 0.3471825420856476,
      "rewards/_accuracy_reward": 0.8125,
      "rewards/_format_reward": 1.0,
      "step": 1191
    },
    {
      "completion_length": 160.25,
      "epoch": 0.298,
      "grad_norm": 0.7627013921737671,
      "kl": 0.0577714703977108,
      "learning_rate": 4.426283106939474e-06,
      "loss": 0.0023,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 1192
    },
    {
      "completion_length": 135.75,
      "epoch": 0.29825,
      "grad_norm": 0.6774864196777344,
      "kl": 0.05635792762041092,
      "learning_rate": 4.424891730222749e-06,
      "loss": 0.0023,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 1193
    },
    {
      "completion_length": 113.625,
      "epoch": 0.2985,
      "grad_norm": 0.7691601514816284,
      "kl": 0.0638766884803772,
      "learning_rate": 4.423498887617238e-06,
      "loss": 0.0026,
      "reward": 1.4375,
      "reward_std": 0.3471825420856476,
      "rewards/_accuracy_reward": 0.4375,
      "rewards/_format_reward": 1.0,
      "step": 1194
    },
    {
      "completion_length": 115.0,
      "epoch": 0.29875,
      "grad_norm": 0.9962632060050964,
      "kl": 0.09802590310573578,
      "learning_rate": 4.422104580183649e-06,
      "loss": 0.0039,
      "reward": 1.7575000524520874,
      "reward_std": 0.449150025844574,
      "rewards/_accuracy_reward": 0.7575000524520874,
      "rewards/_format_reward": 1.0,
      "step": 1195
    },
    {
      "completion_length": 132.125,
      "epoch": 0.299,
      "grad_norm": 0.8800735473632812,
      "kl": 0.05530092492699623,
      "learning_rate": 4.420708808983809e-06,
      "loss": 0.0022,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 0.875,
      "step": 1196
    },
    {
      "completion_length": 129.0,
      "epoch": 0.29925,
      "grad_norm": 0.02906613051891327,
      "kl": 0.08473115414381027,
      "learning_rate": 4.419311575080657e-06,
      "loss": 0.0034,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1197
    },
    {
      "completion_length": 194.375,
      "epoch": 0.2995,
      "grad_norm": 0.5856153964996338,
      "kl": 0.06350870430469513,
      "learning_rate": 4.41791287953825e-06,
      "loss": 0.0025,
      "reward": 1.431249976158142,
      "reward_std": 0.47579821944236755,
      "rewards/_accuracy_reward": 0.4312500059604645,
      "rewards/_format_reward": 1.0,
      "step": 1198
    },
    {
      "completion_length": 159.0,
      "epoch": 0.29975,
      "grad_norm": 0.03134987875819206,
      "kl": 0.06507380306720734,
      "learning_rate": 4.416512723421752e-06,
      "loss": 0.0026,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1199
    },
    {
      "completion_length": 124.125,
      "epoch": 0.3,
      "grad_norm": 0.0544891431927681,
      "kl": 0.07167188823223114,
      "learning_rate": 4.415111107797445e-06,
      "loss": 0.0029,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1200
    },
    {
      "completion_length": 140.25,
      "epoch": 0.30025,
      "grad_norm": 0.032767925411462784,
      "kl": 0.07854177057743073,
      "learning_rate": 4.413708033732721e-06,
      "loss": 0.0031,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1201
    },
    {
      "completion_length": 97.0,
      "epoch": 0.3005,
      "grad_norm": 0.02442978322505951,
      "kl": 0.03377045691013336,
      "learning_rate": 4.412303502296081e-06,
      "loss": 0.0014,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1202
    },
    {
      "completion_length": 156.375,
      "epoch": 0.30075,
      "grad_norm": 0.8720740079879761,
      "kl": 0.06999517232179642,
      "learning_rate": 4.410897514557134e-06,
      "loss": 0.0028,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 1203
    },
    {
      "completion_length": 161.125,
      "epoch": 0.301,
      "grad_norm": 0.6562350988388062,
      "kl": 0.05543859675526619,
      "learning_rate": 4.409490071586606e-06,
      "loss": 0.0022,
      "reward": 1.7625000476837158,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.7625000476837158,
      "rewards/_format_reward": 1.0,
      "step": 1204
    },
    {
      "completion_length": 158.75,
      "epoch": 0.30125,
      "grad_norm": 0.7255245447158813,
      "kl": 0.06354228407144547,
      "learning_rate": 4.408081174456322e-06,
      "loss": 0.0025,
      "reward": 1.3512500524520874,
      "reward_std": 0.6214140057563782,
      "rewards/_accuracy_reward": 0.4762499928474426,
      "rewards/_format_reward": 0.875,
      "step": 1205
    },
    {
      "completion_length": 152.625,
      "epoch": 0.3015,
      "grad_norm": 0.9874303936958313,
      "kl": 0.0944613516330719,
      "learning_rate": 4.406670824239221e-06,
      "loss": 0.0038,
      "reward": 1.600000023841858,
      "reward_std": 0.43260011076927185,
      "rewards/_accuracy_reward": 0.6000000238418579,
      "rewards/_format_reward": 1.0,
      "step": 1206
    },
    {
      "completion_length": 159.625,
      "epoch": 0.30175,
      "grad_norm": 0.12287536263465881,
      "kl": 0.07532623410224915,
      "learning_rate": 4.405259022009345e-06,
      "loss": 0.003,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1207
    },
    {
      "completion_length": 164.625,
      "epoch": 0.302,
      "grad_norm": 0.6047512888908386,
      "kl": 0.042720258235931396,
      "learning_rate": 4.403845768841842e-06,
      "loss": 0.0017,
      "reward": 1.8125,
      "reward_std": 0.3471825420856476,
      "rewards/_accuracy_reward": 0.8125,
      "rewards/_format_reward": 1.0,
      "step": 1208
    },
    {
      "completion_length": 147.375,
      "epoch": 0.30225,
      "grad_norm": 0.718567967414856,
      "kl": 0.06836355477571487,
      "learning_rate": 4.402431065812968e-06,
      "loss": 0.0027,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 1209
    },
    {
      "completion_length": 133.125,
      "epoch": 0.3025,
      "grad_norm": 0.051449116319417953,
      "kl": 0.09786742180585861,
      "learning_rate": 4.401014914000078e-06,
      "loss": 0.0039,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1210
    },
    {
      "completion_length": 155.0,
      "epoch": 0.30275,
      "grad_norm": 0.6808714270591736,
      "kl": 0.06858290731906891,
      "learning_rate": 4.399597314481635e-06,
      "loss": 0.0027,
      "reward": 1.3937499523162842,
      "reward_std": 0.7336004972457886,
      "rewards/_accuracy_reward": 0.5187499523162842,
      "rewards/_format_reward": 0.875,
      "step": 1211
    },
    {
      "completion_length": 103.625,
      "epoch": 0.303,
      "grad_norm": 0.7550353407859802,
      "kl": 0.07095042616128922,
      "learning_rate": 4.398178268337202e-06,
      "loss": 0.0028,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 1212
    },
    {
      "completion_length": 157.75,
      "epoch": 0.30325,
      "grad_norm": 0.03089936450123787,
      "kl": 0.07108917087316513,
      "learning_rate": 4.396757776647446e-06,
      "loss": 0.0028,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1213
    },
    {
      "completion_length": 125.0,
      "epoch": 0.3035,
      "grad_norm": 0.6539469957351685,
      "kl": 0.05641159415245056,
      "learning_rate": 4.395335840494131e-06,
      "loss": 0.0023,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 1214
    },
    {
      "completion_length": 131.5,
      "epoch": 0.30375,
      "grad_norm": 0.09180185198783875,
      "kl": 0.0818408653140068,
      "learning_rate": 4.393912460960125e-06,
      "loss": 0.0033,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1215
    },
    {
      "completion_length": 117.0,
      "epoch": 0.304,
      "grad_norm": 1.0178251266479492,
      "kl": 0.14222905039787292,
      "learning_rate": 4.3924876391293915e-06,
      "loss": 0.0057,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1216
    },
    {
      "completion_length": 176.5,
      "epoch": 0.30425,
      "grad_norm": 0.5800394415855408,
      "kl": 0.07087651640176773,
      "learning_rate": 4.391061376086996e-06,
      "loss": 0.0028,
      "reward": 1.524999976158142,
      "reward_std": 0.5077964067459106,
      "rewards/_accuracy_reward": 0.5249999761581421,
      "rewards/_format_reward": 1.0,
      "step": 1217
    },
    {
      "completion_length": 153.875,
      "epoch": 0.3045,
      "grad_norm": 0.022167326882481575,
      "kl": 0.04559296742081642,
      "learning_rate": 4.389633672919099e-06,
      "loss": 0.0018,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1218
    },
    {
      "completion_length": 143.5,
      "epoch": 0.30475,
      "grad_norm": 0.6811370253562927,
      "kl": 0.05372779816389084,
      "learning_rate": 4.388204530712959e-06,
      "loss": 0.0021,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 1219
    },
    {
      "completion_length": 159.5,
      "epoch": 0.305,
      "grad_norm": 0.6724026203155518,
      "kl": 0.06683686375617981,
      "learning_rate": 4.386773950556931e-06,
      "loss": 0.0027,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1220
    },
    {
      "completion_length": 190.5,
      "epoch": 0.30525,
      "grad_norm": 0.4614053964614868,
      "kl": 0.0702865943312645,
      "learning_rate": 4.385341933540461e-06,
      "loss": 0.0028,
      "reward": 1.5,
      "reward_std": 0.9258201122283936,
      "rewards/_accuracy_reward": 0.75,
      "rewards/_format_reward": 0.75,
      "step": 1221
    },
    {
      "completion_length": 199.875,
      "epoch": 0.3055,
      "grad_norm": 0.4716734290122986,
      "kl": 0.06874912232160568,
      "learning_rate": 4.3839084807540956e-06,
      "loss": 0.0027,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 1222
    },
    {
      "completion_length": 116.5,
      "epoch": 0.30575,
      "grad_norm": 0.662601113319397,
      "kl": 0.047971662133932114,
      "learning_rate": 4.3824735932894695e-06,
      "loss": 0.0019,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 0.875,
      "step": 1223
    },
    {
      "completion_length": 95.625,
      "epoch": 0.306,
      "grad_norm": 0.805237352848053,
      "kl": 0.037139102816581726,
      "learning_rate": 4.381037272239311e-06,
      "loss": 0.0015,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 1224
    },
    {
      "completion_length": 182.875,
      "epoch": 0.30625,
      "grad_norm": 0.480247437953949,
      "kl": 0.06881922483444214,
      "learning_rate": 4.379599518697444e-06,
      "loss": 0.0028,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 1225
    },
    {
      "completion_length": 81.0,
      "epoch": 0.3065,
      "grad_norm": 0.9215694665908813,
      "kl": 0.08191632479429245,
      "learning_rate": 4.378160333758779e-06,
      "loss": 0.0033,
      "reward": 1.71875,
      "reward_std": 0.38816189765930176,
      "rewards/_accuracy_reward": 0.71875,
      "rewards/_format_reward": 1.0,
      "step": 1226
    },
    {
      "completion_length": 178.875,
      "epoch": 0.30675,
      "grad_norm": 0.04747424274682999,
      "kl": 0.08109784126281738,
      "learning_rate": 4.3767197185193164e-06,
      "loss": 0.0032,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1227
    },
    {
      "completion_length": 166.25,
      "epoch": 0.307,
      "grad_norm": 0.45579221844673157,
      "kl": 0.04330654814839363,
      "learning_rate": 4.3752776740761495e-06,
      "loss": 0.0017,
      "reward": 1.631250023841858,
      "reward_std": 0.7382108569145203,
      "rewards/_accuracy_reward": 0.7562500238418579,
      "rewards/_format_reward": 0.875,
      "step": 1228
    },
    {
      "completion_length": 167.625,
      "epoch": 0.30725,
      "grad_norm": 0.5388981699943542,
      "kl": 0.044501304626464844,
      "learning_rate": 4.373834201527457e-06,
      "loss": 0.0018,
      "reward": 1.15625,
      "reward_std": 0.6343936920166016,
      "rewards/_accuracy_reward": 0.28125,
      "rewards/_format_reward": 0.875,
      "step": 1229
    },
    {
      "completion_length": 142.375,
      "epoch": 0.3075,
      "grad_norm": 0.04394035413861275,
      "kl": 0.06808657199144363,
      "learning_rate": 4.372389301972506e-06,
      "loss": 0.0027,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1230
    },
    {
      "completion_length": 145.625,
      "epoch": 0.30775,
      "grad_norm": 0.036082785576581955,
      "kl": 0.06343095749616623,
      "learning_rate": 4.370942976511651e-06,
      "loss": 0.0025,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1231
    },
    {
      "completion_length": 109.875,
      "epoch": 0.308,
      "grad_norm": 0.6433164477348328,
      "kl": 0.05788550525903702,
      "learning_rate": 4.36949522624633e-06,
      "loss": 0.0023,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1232
    },
    {
      "completion_length": 137.875,
      "epoch": 0.30825,
      "grad_norm": 0.6208747625350952,
      "kl": 0.04600555822253227,
      "learning_rate": 4.36804605227907e-06,
      "loss": 0.0018,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1233
    },
    {
      "completion_length": 134.125,
      "epoch": 0.3085,
      "grad_norm": 0.0351361520588398,
      "kl": 0.07358551025390625,
      "learning_rate": 4.366595455713479e-06,
      "loss": 0.0029,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1234
    },
    {
      "completion_length": 83.75,
      "epoch": 0.30875,
      "grad_norm": 1.0054473876953125,
      "kl": 0.03810626268386841,
      "learning_rate": 4.365143437654249e-06,
      "loss": 0.0015,
      "reward": 1.787500023841858,
      "reward_std": 0.39708760380744934,
      "rewards/_accuracy_reward": 0.7875000238418579,
      "rewards/_format_reward": 1.0,
      "step": 1235
    },
    {
      "completion_length": 203.75,
      "epoch": 0.309,
      "grad_norm": 0.4629731774330139,
      "kl": 0.044374044984579086,
      "learning_rate": 4.3636899992071555e-06,
      "loss": 0.0018,
      "reward": 1.65625,
      "reward_std": 0.7188470363616943,
      "rewards/_accuracy_reward": 0.78125,
      "rewards/_format_reward": 0.875,
      "step": 1236
    },
    {
      "completion_length": 159.375,
      "epoch": 0.30925,
      "grad_norm": 0.017106125131249428,
      "kl": 0.03975909203290939,
      "learning_rate": 4.362235141479055e-06,
      "loss": 0.0016,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1237
    },
    {
      "completion_length": 151.75,
      "epoch": 0.3095,
      "grad_norm": 0.4982658326625824,
      "kl": 0.056246038526296616,
      "learning_rate": 4.360778865577885e-06,
      "loss": 0.0022,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 1238
    },
    {
      "completion_length": 155.75,
      "epoch": 0.30975,
      "grad_norm": 0.7274753451347351,
      "kl": 0.05836237221956253,
      "learning_rate": 4.359321172612664e-06,
      "loss": 0.0023,
      "reward": 1.2874999046325684,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.2874999940395355,
      "rewards/_format_reward": 1.0,
      "step": 1239
    },
    {
      "completion_length": 119.375,
      "epoch": 0.31,
      "grad_norm": 0.7453700304031372,
      "kl": 0.05975281819701195,
      "learning_rate": 4.357862063693486e-06,
      "loss": 0.0024,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 1240
    },
    {
      "completion_length": 136.75,
      "epoch": 0.31025,
      "grad_norm": 0.6040889620780945,
      "kl": 0.06652972102165222,
      "learning_rate": 4.356401539931528e-06,
      "loss": 0.0027,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1241
    },
    {
      "completion_length": 173.25,
      "epoch": 0.3105,
      "grad_norm": 0.44152548909187317,
      "kl": 0.04805905371904373,
      "learning_rate": 4.354939602439041e-06,
      "loss": 0.0019,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 1242
    },
    {
      "completion_length": 158.5,
      "epoch": 0.31075,
      "grad_norm": 0.021656127646565437,
      "kl": 0.05573081597685814,
      "learning_rate": 4.353476252329356e-06,
      "loss": 0.0022,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1243
    },
    {
      "completion_length": 117.5,
      "epoch": 0.311,
      "grad_norm": 0.023949656635522842,
      "kl": 0.057754624634981155,
      "learning_rate": 4.352011490716875e-06,
      "loss": 0.0023,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1244
    },
    {
      "completion_length": 166.375,
      "epoch": 0.31125,
      "grad_norm": 0.7155207395553589,
      "kl": 0.045125432312488556,
      "learning_rate": 4.350545318717081e-06,
      "loss": 0.0018,
      "reward": 1.5125000476837158,
      "reward_std": 0.7467787861824036,
      "rewards/_accuracy_reward": 0.6375000476837158,
      "rewards/_format_reward": 0.875,
      "step": 1245
    },
    {
      "completion_length": 131.0,
      "epoch": 0.3115,
      "grad_norm": 0.5737600922584534,
      "kl": 0.035169921815395355,
      "learning_rate": 4.349077737446525e-06,
      "loss": 0.0014,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 0.875,
      "step": 1246
    },
    {
      "completion_length": 192.75,
      "epoch": 0.31175,
      "grad_norm": 0.5308739542961121,
      "kl": 0.04862486571073532,
      "learning_rate": 4.347608748022835e-06,
      "loss": 0.0019,
      "reward": 1.2774999141693115,
      "reward_std": 0.44627827405929565,
      "rewards/_accuracy_reward": 0.2774999737739563,
      "rewards/_format_reward": 1.0,
      "step": 1247
    },
    {
      "completion_length": 128.5,
      "epoch": 0.312,
      "grad_norm": 0.8783921003341675,
      "kl": 0.0623704232275486,
      "learning_rate": 4.346138351564711e-06,
      "loss": 0.0025,
      "reward": 1.401249885559082,
      "reward_std": 0.49599650502204895,
      "rewards/_accuracy_reward": 0.4012499749660492,
      "rewards/_format_reward": 1.0,
      "step": 1248
    },
    {
      "completion_length": 170.5,
      "epoch": 0.31225,
      "grad_norm": 0.6559812426567078,
      "kl": 0.05016009509563446,
      "learning_rate": 4.344666549191921e-06,
      "loss": 0.002,
      "reward": 1.7625000476837158,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.762499988079071,
      "rewards/_format_reward": 1.0,
      "step": 1249
    },
    {
      "completion_length": 194.25,
      "epoch": 0.3125,
      "grad_norm": 0.4926063120365143,
      "kl": 0.037470243871212006,
      "learning_rate": 4.34319334202531e-06,
      "loss": 0.0015,
      "reward": 1.256250023841858,
      "reward_std": 0.8845650553703308,
      "rewards/_accuracy_reward": 0.6312500238418579,
      "rewards/_format_reward": 0.625,
      "step": 1250
    },
    {
      "completion_length": 163.25,
      "epoch": 0.31275,
      "grad_norm": 0.6643059253692627,
      "kl": 0.0781041607260704,
      "learning_rate": 4.341718731186788e-06,
      "loss": 0.0031,
      "reward": 1.5187499523162842,
      "reward_std": 0.7323824167251587,
      "rewards/_accuracy_reward": 0.643750011920929,
      "rewards/_format_reward": 0.875,
      "step": 1251
    },
    {
      "completion_length": 168.625,
      "epoch": 0.313,
      "grad_norm": 0.5912598967552185,
      "kl": 0.0778733566403389,
      "learning_rate": 4.340242717799337e-06,
      "loss": 0.0031,
      "reward": 1.3875000476837158,
      "reward_std": 0.7371518611907959,
      "rewards/_accuracy_reward": 0.6375000476837158,
      "rewards/_format_reward": 0.75,
      "step": 1252
    },
    {
      "completion_length": 148.0,
      "epoch": 0.31325,
      "grad_norm": 0.022581512108445168,
      "kl": 0.06389284133911133,
      "learning_rate": 4.338765302987001e-06,
      "loss": 0.0026,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1253
    },
    {
      "completion_length": 123.625,
      "epoch": 0.3135,
      "grad_norm": 0.023221751675009727,
      "kl": 0.05139881372451782,
      "learning_rate": 4.3372864878749e-06,
      "loss": 0.0021,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1254
    },
    {
      "completion_length": 175.0,
      "epoch": 0.31375,
      "grad_norm": 0.5853912830352783,
      "kl": 0.05094706267118454,
      "learning_rate": 4.335806273589214e-06,
      "loss": 0.002,
      "reward": 1.5012500286102295,
      "reward_std": 0.9235093593597412,
      "rewards/_accuracy_reward": 0.7512500286102295,
      "rewards/_format_reward": 0.75,
      "step": 1255
    },
    {
      "completion_length": 187.0,
      "epoch": 0.314,
      "grad_norm": 0.4903429448604584,
      "kl": 0.05913626775145531,
      "learning_rate": 4.334324661257191e-06,
      "loss": 0.0024,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 1256
    },
    {
      "completion_length": 158.75,
      "epoch": 0.31425,
      "grad_norm": 0.5297297239303589,
      "kl": 0.03816875442862511,
      "learning_rate": 4.332841652007144e-06,
      "loss": 0.0015,
      "reward": 1.787500023841858,
      "reward_std": 0.39708763360977173,
      "rewards/_accuracy_reward": 0.7875000238418579,
      "rewards/_format_reward": 1.0,
      "step": 1257
    },
    {
      "completion_length": 121.125,
      "epoch": 0.3145,
      "grad_norm": 0.8008362650871277,
      "kl": 0.055129993706941605,
      "learning_rate": 4.331357246968447e-06,
      "loss": 0.0022,
      "reward": 1.7625000476837158,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.7625000476837158,
      "rewards/_format_reward": 1.0,
      "step": 1258
    },
    {
      "completion_length": 179.0,
      "epoch": 0.31475,
      "grad_norm": 0.020386753603816032,
      "kl": 0.04700789228081703,
      "learning_rate": 4.329871447271541e-06,
      "loss": 0.0019,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1259
    },
    {
      "completion_length": 122.875,
      "epoch": 0.315,
      "grad_norm": 0.7078530192375183,
      "kl": 0.03913933411240578,
      "learning_rate": 4.328384254047927e-06,
      "loss": 0.0016,
      "reward": 1.6687500476837158,
      "reward_std": 0.4613160789012909,
      "rewards/_accuracy_reward": 0.668749988079071,
      "rewards/_format_reward": 1.0,
      "step": 1260
    },
    {
      "completion_length": 102.625,
      "epoch": 0.31525,
      "grad_norm": 0.8336498141288757,
      "kl": 0.09925613552331924,
      "learning_rate": 4.326895668430166e-06,
      "loss": 0.004,
      "reward": 1.5012500286102295,
      "reward_std": 0.42089828848838806,
      "rewards/_accuracy_reward": 0.5012500286102295,
      "rewards/_format_reward": 1.0,
      "step": 1261
    },
    {
      "completion_length": 163.5,
      "epoch": 0.3155,
      "grad_norm": 0.6298437118530273,
      "kl": 0.06484002619981766,
      "learning_rate": 4.3254056915518815e-06,
      "loss": 0.0026,
      "reward": 1.631250023841858,
      "reward_std": 0.7382108569145203,
      "rewards/_accuracy_reward": 0.7562500238418579,
      "rewards/_format_reward": 0.875,
      "step": 1262
    },
    {
      "completion_length": 180.0,
      "epoch": 0.31575,
      "grad_norm": 0.6922435164451599,
      "kl": 0.06569919735193253,
      "learning_rate": 4.323914324547755e-06,
      "loss": 0.0026,
      "reward": 1.65625,
      "reward_std": 0.7188470363616943,
      "rewards/_accuracy_reward": 0.78125,
      "rewards/_format_reward": 0.875,
      "step": 1263
    },
    {
      "completion_length": 120.625,
      "epoch": 0.316,
      "grad_norm": 0.8579962253570557,
      "kl": 0.06102241203188896,
      "learning_rate": 4.322421568553529e-06,
      "loss": 0.0024,
      "reward": 1.6687500476837158,
      "reward_std": 0.4613160789012909,
      "rewards/_accuracy_reward": 0.6687500476837158,
      "rewards/_format_reward": 1.0,
      "step": 1264
    },
    {
      "completion_length": 148.25,
      "epoch": 0.31625,
      "grad_norm": 0.5821033120155334,
      "kl": 0.04418959096074104,
      "learning_rate": 4.320927424706001e-06,
      "loss": 0.0018,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1265
    },
    {
      "completion_length": 171.25,
      "epoch": 0.3165,
      "grad_norm": 0.6433318853378296,
      "kl": 0.05075891688466072,
      "learning_rate": 4.319431894143027e-06,
      "loss": 0.002,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1266
    },
    {
      "completion_length": 142.125,
      "epoch": 0.31675,
      "grad_norm": 0.5217633247375488,
      "kl": 0.03551534563302994,
      "learning_rate": 4.317934978003517e-06,
      "loss": 0.0014,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1267
    },
    {
      "completion_length": 146.25,
      "epoch": 0.317,
      "grad_norm": 0.6079625487327576,
      "kl": 0.03397079184651375,
      "learning_rate": 4.316436677427441e-06,
      "loss": 0.0014,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 1268
    },
    {
      "completion_length": 161.625,
      "epoch": 0.31725,
      "grad_norm": 0.6995141506195068,
      "kl": 0.031033797189593315,
      "learning_rate": 4.314936993555816e-06,
      "loss": 0.0012,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 1269
    },
    {
      "completion_length": 173.25,
      "epoch": 0.3175,
      "grad_norm": 0.593582808971405,
      "kl": 0.048646219074726105,
      "learning_rate": 4.313435927530719e-06,
      "loss": 0.0019,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 1270
    },
    {
      "completion_length": 154.125,
      "epoch": 0.31775,
      "grad_norm": 0.7062419056892395,
      "kl": 0.04136907681822777,
      "learning_rate": 4.311933480495278e-06,
      "loss": 0.0017,
      "reward": 1.7625000476837158,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.762499988079071,
      "rewards/_format_reward": 1.0,
      "step": 1271
    },
    {
      "completion_length": 159.75,
      "epoch": 0.318,
      "grad_norm": 0.4106045663356781,
      "kl": 0.057584941387176514,
      "learning_rate": 4.3104296535936695e-06,
      "loss": 0.0023,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 1272
    },
    {
      "completion_length": 132.5,
      "epoch": 0.31825,
      "grad_norm": 0.06259723007678986,
      "kl": 0.07464718818664551,
      "learning_rate": 4.308924447971123e-06,
      "loss": 0.003,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1273
    },
    {
      "completion_length": 143.125,
      "epoch": 0.3185,
      "grad_norm": 0.025278618559241295,
      "kl": 0.04770468547940254,
      "learning_rate": 4.3074178647739205e-06,
      "loss": 0.0019,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1274
    },
    {
      "completion_length": 153.375,
      "epoch": 0.31875,
      "grad_norm": 0.6714683771133423,
      "kl": 0.0832626223564148,
      "learning_rate": 4.305909905149389e-06,
      "loss": 0.0033,
      "reward": 1.40625,
      "reward_std": 0.49167174100875854,
      "rewards/_accuracy_reward": 0.4062499701976776,
      "rewards/_format_reward": 1.0,
      "step": 1275
    },
    {
      "completion_length": 152.0,
      "epoch": 0.319,
      "grad_norm": 0.03329375758767128,
      "kl": 0.06376402080059052,
      "learning_rate": 4.3044005702459055e-06,
      "loss": 0.0026,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1276
    },
    {
      "completion_length": 150.125,
      "epoch": 0.31925,
      "grad_norm": 0.0274689681828022,
      "kl": 0.0662902370095253,
      "learning_rate": 4.302889861212894e-06,
      "loss": 0.0027,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1277
    },
    {
      "completion_length": 151.0,
      "epoch": 0.3195,
      "grad_norm": 0.5757763981819153,
      "kl": 0.0469672717154026,
      "learning_rate": 4.301377779200826e-06,
      "loss": 0.0019,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 1278
    },
    {
      "completion_length": 106.25,
      "epoch": 0.31975,
      "grad_norm": 0.015396623872220516,
      "kl": 0.08767110854387283,
      "learning_rate": 4.299864325361217e-06,
      "loss": 0.0035,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1279
    },
    {
      "completion_length": 147.75,
      "epoch": 0.32,
      "grad_norm": 1.0080978870391846,
      "kl": 0.050190072506666183,
      "learning_rate": 4.2983495008466285e-06,
      "loss": 0.002,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 1280
    },
    {
      "completion_length": 139.625,
      "epoch": 0.32025,
      "grad_norm": 0.04891718551516533,
      "kl": 0.08530929684638977,
      "learning_rate": 4.2968333068106635e-06,
      "loss": 0.0034,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1281
    },
    {
      "completion_length": 175.25,
      "epoch": 0.3205,
      "grad_norm": 0.6860036253929138,
      "kl": 0.09078608453273773,
      "learning_rate": 4.295315744407972e-06,
      "loss": 0.0036,
      "reward": 1.8125,
      "reward_std": 0.3471825420856476,
      "rewards/_accuracy_reward": 0.8125,
      "rewards/_format_reward": 1.0,
      "step": 1282
    },
    {
      "completion_length": 172.75,
      "epoch": 0.32075,
      "grad_norm": 0.03762355074286461,
      "kl": 0.05991184711456299,
      "learning_rate": 4.293796814794243e-06,
      "loss": 0.0024,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1283
    },
    {
      "completion_length": 176.375,
      "epoch": 0.321,
      "grad_norm": 0.5721231698989868,
      "kl": 0.05818440765142441,
      "learning_rate": 4.2922765191262075e-06,
      "loss": 0.0023,
      "reward": 1.5,
      "reward_std": 0.9258201122283936,
      "rewards/_accuracy_reward": 0.75,
      "rewards/_format_reward": 0.75,
      "step": 1284
    },
    {
      "completion_length": 133.125,
      "epoch": 0.32125,
      "grad_norm": 0.7689949870109558,
      "kl": 0.0632908046245575,
      "learning_rate": 4.290754858561636e-06,
      "loss": 0.0025,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 0.875,
      "step": 1285
    },
    {
      "completion_length": 163.75,
      "epoch": 0.3215,
      "grad_norm": 0.44197624921798706,
      "kl": 0.06356453895568848,
      "learning_rate": 4.28923183425934e-06,
      "loss": 0.0025,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 1286
    },
    {
      "completion_length": 109.75,
      "epoch": 0.32175,
      "grad_norm": 0.8185544610023499,
      "kl": 0.07203707098960876,
      "learning_rate": 4.287707447379169e-06,
      "loss": 0.0029,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 1287
    },
    {
      "completion_length": 157.75,
      "epoch": 0.322,
      "grad_norm": 0.8443469405174255,
      "kl": 0.06975241750478745,
      "learning_rate": 4.286181699082008e-06,
      "loss": 0.0028,
      "reward": 1.337499976158142,
      "reward_std": 0.41811659932136536,
      "rewards/_accuracy_reward": 0.3374999761581421,
      "rewards/_format_reward": 1.0,
      "step": 1288
    },
    {
      "completion_length": 99.25,
      "epoch": 0.32225,
      "grad_norm": 0.017100084573030472,
      "kl": 0.061960458755493164,
      "learning_rate": 4.284654590529784e-06,
      "loss": 0.0025,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1289
    },
    {
      "completion_length": 148.5,
      "epoch": 0.3225,
      "grad_norm": 0.7848110198974609,
      "kl": 0.05555134639143944,
      "learning_rate": 4.283126122885455e-06,
      "loss": 0.0022,
      "reward": 1.524999976158142,
      "reward_std": 0.5077964067459106,
      "rewards/_accuracy_reward": 0.5249999761581421,
      "rewards/_format_reward": 1.0,
      "step": 1290
    },
    {
      "completion_length": 117.375,
      "epoch": 0.32275,
      "grad_norm": 0.7877644896507263,
      "kl": 0.09985921531915665,
      "learning_rate": 4.281596297313014e-06,
      "loss": 0.004,
      "reward": 1.71875,
      "reward_std": 0.38816189765930176,
      "rewards/_accuracy_reward": 0.71875,
      "rewards/_format_reward": 1.0,
      "step": 1291
    },
    {
      "completion_length": 154.25,
      "epoch": 0.323,
      "grad_norm": 0.030576931312680244,
      "kl": 0.05328349769115448,
      "learning_rate": 4.280065114977492e-06,
      "loss": 0.0021,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1292
    },
    {
      "completion_length": 120.5,
      "epoch": 0.32325,
      "grad_norm": 0.12656356394290924,
      "kl": 0.08763141185045242,
      "learning_rate": 4.278532577044949e-06,
      "loss": 0.0035,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1293
    },
    {
      "completion_length": 171.25,
      "epoch": 0.3235,
      "grad_norm": 0.6466588377952576,
      "kl": 0.06330376863479614,
      "learning_rate": 4.276998684682482e-06,
      "loss": 0.0025,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 1294
    },
    {
      "completion_length": 114.25,
      "epoch": 0.32375,
      "grad_norm": 0.03600083664059639,
      "kl": 0.07176019996404648,
      "learning_rate": 4.275463439058214e-06,
      "loss": 0.0029,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1295
    },
    {
      "completion_length": 181.5,
      "epoch": 0.324,
      "grad_norm": 0.6595420837402344,
      "kl": 0.0831797644495964,
      "learning_rate": 4.273926841341303e-06,
      "loss": 0.0033,
      "reward": 1.78125,
      "reward_std": 0.41052013635635376,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 0.875,
      "step": 1296
    },
    {
      "completion_length": 171.125,
      "epoch": 0.32425,
      "grad_norm": 0.037904031574726105,
      "kl": 0.06669317185878754,
      "learning_rate": 4.272388892701934e-06,
      "loss": 0.0027,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1297
    },
    {
      "completion_length": 173.0,
      "epoch": 0.3245,
      "grad_norm": 0.7312850952148438,
      "kl": 0.05984557047486305,
      "learning_rate": 4.270849594311323e-06,
      "loss": 0.0024,
      "reward": 1.75,
      "reward_std": 0.4629100561141968,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 0.75,
      "step": 1298
    },
    {
      "completion_length": 161.125,
      "epoch": 0.32475,
      "grad_norm": 0.6081017255783081,
      "kl": 0.04914931207895279,
      "learning_rate": 4.269308947341711e-06,
      "loss": 0.002,
      "reward": 1.7625000476837158,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.7625000476837158,
      "rewards/_format_reward": 1.0,
      "step": 1299
    },
    {
      "completion_length": 167.0,
      "epoch": 0.325,
      "grad_norm": 0.6635521650314331,
      "kl": 0.06111575663089752,
      "learning_rate": 4.267766952966369e-06,
      "loss": 0.0024,
      "reward": 1.65625,
      "reward_std": 0.7188470363616943,
      "rewards/_accuracy_reward": 0.78125,
      "rewards/_format_reward": 0.875,
      "step": 1300
    },
    {
      "completion_length": 176.5,
      "epoch": 0.32525,
      "grad_norm": 0.042982131242752075,
      "kl": 0.06564896553754807,
      "learning_rate": 4.266223612359593e-06,
      "loss": 0.0026,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1301
    },
    {
      "completion_length": 163.625,
      "epoch": 0.3255,
      "grad_norm": 0.638775110244751,
      "kl": 0.057519882917404175,
      "learning_rate": 4.264678926696703e-06,
      "loss": 0.0023,
      "reward": 1.7625000476837158,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.762499988079071,
      "rewards/_format_reward": 1.0,
      "step": 1302
    },
    {
      "completion_length": 137.5,
      "epoch": 0.32575,
      "grad_norm": 0.7242026329040527,
      "kl": 0.057923607528209686,
      "learning_rate": 4.263132897154044e-06,
      "loss": 0.0023,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 1303
    },
    {
      "completion_length": 119.0,
      "epoch": 0.326,
      "grad_norm": 0.5665600895881653,
      "kl": 0.052210718393325806,
      "learning_rate": 4.261585524908987e-06,
      "loss": 0.0021,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1304
    },
    {
      "completion_length": 184.0,
      "epoch": 0.32625,
      "grad_norm": 0.6595292091369629,
      "kl": 0.07032403349876404,
      "learning_rate": 4.260036811139922e-06,
      "loss": 0.0028,
      "reward": 1.787500023841858,
      "reward_std": 0.39708760380744934,
      "rewards/_accuracy_reward": 0.7875000238418579,
      "rewards/_format_reward": 1.0,
      "step": 1305
    },
    {
      "completion_length": 185.625,
      "epoch": 0.3265,
      "grad_norm": 0.031764958053827286,
      "kl": 0.05210375413298607,
      "learning_rate": 4.25848675702626e-06,
      "loss": 0.0021,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1306
    },
    {
      "completion_length": 198.5,
      "epoch": 0.32675,
      "grad_norm": 0.5040040016174316,
      "kl": 0.04720192775130272,
      "learning_rate": 4.256935363748437e-06,
      "loss": 0.0019,
      "reward": 1.53125,
      "reward_std": 0.7372426986694336,
      "rewards/_accuracy_reward": 0.78125,
      "rewards/_format_reward": 0.75,
      "step": 1307
    },
    {
      "completion_length": 216.25,
      "epoch": 0.327,
      "grad_norm": 0.43086105585098267,
      "kl": 0.04231351986527443,
      "learning_rate": 4.255382632487907e-06,
      "loss": 0.0017,
      "reward": 1.40625,
      "reward_std": 0.9057110548019409,
      "rewards/_accuracy_reward": 0.65625,
      "rewards/_format_reward": 0.75,
      "step": 1308
    },
    {
      "completion_length": 133.375,
      "epoch": 0.32725,
      "grad_norm": 0.6797394752502441,
      "kl": 0.04834214597940445,
      "learning_rate": 4.25382856442714e-06,
      "loss": 0.0019,
      "reward": 1.524999976158142,
      "reward_std": 0.5077964067459106,
      "rewards/_accuracy_reward": 0.5249999761581421,
      "rewards/_format_reward": 1.0,
      "step": 1309
    },
    {
      "completion_length": 132.375,
      "epoch": 0.3275,
      "grad_norm": 0.6795439720153809,
      "kl": 0.0568021684885025,
      "learning_rate": 4.2522731607496275e-06,
      "loss": 0.0023,
      "reward": 1.6437499523162842,
      "reward_std": 0.49167174100875854,
      "rewards/_accuracy_reward": 0.6437499523162842,
      "rewards/_format_reward": 1.0,
      "step": 1310
    },
    {
      "completion_length": 168.625,
      "epoch": 0.32775,
      "grad_norm": 0.6751994490623474,
      "kl": 0.0991804301738739,
      "learning_rate": 4.250716422639878e-06,
      "loss": 0.004,
      "reward": 1.212499976158142,
      "reward_std": 0.3324691653251648,
      "rewards/_accuracy_reward": 0.3374999761581421,
      "rewards/_format_reward": 0.875,
      "step": 1311
    },
    {
      "completion_length": 186.625,
      "epoch": 0.328,
      "grad_norm": 0.7776236534118652,
      "kl": 0.042616959661245346,
      "learning_rate": 4.249158351283414e-06,
      "loss": 0.0017,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 1312
    },
    {
      "completion_length": 133.25,
      "epoch": 0.32825,
      "grad_norm": 0.02199604921042919,
      "kl": 0.05136921629309654,
      "learning_rate": 4.247598947866775e-06,
      "loss": 0.0021,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1313
    },
    {
      "completion_length": 164.875,
      "epoch": 0.3285,
      "grad_norm": 0.5183839797973633,
      "kl": 0.06551958620548248,
      "learning_rate": 4.246038213577516e-06,
      "loss": 0.0026,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 0.875,
      "step": 1314
    },
    {
      "completion_length": 170.875,
      "epoch": 0.32875,
      "grad_norm": 0.5866003632545471,
      "kl": 0.05409818887710571,
      "learning_rate": 4.244476149604201e-06,
      "loss": 0.0022,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 1315
    },
    {
      "completion_length": 139.625,
      "epoch": 0.329,
      "grad_norm": 0.7940442562103271,
      "kl": 0.05304113030433655,
      "learning_rate": 4.242912757136412e-06,
      "loss": 0.0021,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 1316
    },
    {
      "completion_length": 205.0,
      "epoch": 0.32925,
      "grad_norm": 0.5274433493614197,
      "kl": 0.06083288788795471,
      "learning_rate": 4.24134803736474e-06,
      "loss": 0.0024,
      "reward": 1.2625000476837158,
      "reward_std": 0.8826704621315002,
      "rewards/_accuracy_reward": 0.512499988079071,
      "rewards/_format_reward": 0.75,
      "step": 1317
    },
    {
      "completion_length": 181.125,
      "epoch": 0.3295,
      "grad_norm": 0.5549687147140503,
      "kl": 0.06591016054153442,
      "learning_rate": 4.239781991480786e-06,
      "loss": 0.0026,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 1318
    },
    {
      "completion_length": 132.75,
      "epoch": 0.32975,
      "grad_norm": 0.5778529047966003,
      "kl": 0.06366316229104996,
      "learning_rate": 4.238214620677164e-06,
      "loss": 0.0025,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1319
    },
    {
      "completion_length": 136.375,
      "epoch": 0.33,
      "grad_norm": 0.024910366162657738,
      "kl": 0.04503370448946953,
      "learning_rate": 4.236645926147493e-06,
      "loss": 0.0018,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1320
    },
    {
      "completion_length": 173.625,
      "epoch": 0.33025,
      "grad_norm": 0.5607073307037354,
      "kl": 0.05769224464893341,
      "learning_rate": 4.235075909086405e-06,
      "loss": 0.0023,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 1321
    },
    {
      "completion_length": 100.625,
      "epoch": 0.3305,
      "grad_norm": 1.6146537065505981,
      "kl": 0.4625369906425476,
      "learning_rate": 4.233504570689533e-06,
      "loss": 0.0185,
      "reward": 1.693750023841858,
      "reward_std": 0.42714792490005493,
      "rewards/_accuracy_reward": 0.6937500238418579,
      "rewards/_format_reward": 1.0,
      "step": 1322
    },
    {
      "completion_length": 171.125,
      "epoch": 0.33075,
      "grad_norm": 0.632230818271637,
      "kl": 0.04798278212547302,
      "learning_rate": 4.231931912153521e-06,
      "loss": 0.0019,
      "reward": 1.5625,
      "reward_std": 0.7165144085884094,
      "rewards/_accuracy_reward": 0.6875,
      "rewards/_format_reward": 0.875,
      "step": 1323
    },
    {
      "completion_length": 138.125,
      "epoch": 0.331,
      "grad_norm": 0.022344160825014114,
      "kl": 0.04536424204707146,
      "learning_rate": 4.230357934676017e-06,
      "loss": 0.0018,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1324
    },
    {
      "completion_length": 169.875,
      "epoch": 0.33125,
      "grad_norm": 0.5961106419563293,
      "kl": 0.06459388136863708,
      "learning_rate": 4.228782639455674e-06,
      "loss": 0.0026,
      "reward": 1.65625,
      "reward_std": 0.7188470363616943,
      "rewards/_accuracy_reward": 0.78125,
      "rewards/_format_reward": 0.875,
      "step": 1325
    },
    {
      "completion_length": 145.875,
      "epoch": 0.3315,
      "grad_norm": 0.5319207906723022,
      "kl": 0.04201117902994156,
      "learning_rate": 4.227206027692146e-06,
      "loss": 0.0017,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1326
    },
    {
      "completion_length": 178.5,
      "epoch": 0.33175,
      "grad_norm": 0.607018768787384,
      "kl": 0.04852335527539253,
      "learning_rate": 4.225628100586093e-06,
      "loss": 0.0019,
      "reward": 1.8125,
      "reward_std": 0.3471825420856476,
      "rewards/_accuracy_reward": 0.8125,
      "rewards/_format_reward": 1.0,
      "step": 1327
    },
    {
      "completion_length": 133.125,
      "epoch": 0.332,
      "grad_norm": 0.019281940534710884,
      "kl": 0.0670793280005455,
      "learning_rate": 4.224048859339175e-06,
      "loss": 0.0027,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1328
    },
    {
      "completion_length": 133.625,
      "epoch": 0.33225,
      "grad_norm": 0.7307944297790527,
      "kl": 0.06218728423118591,
      "learning_rate": 4.222468305154052e-06,
      "loss": 0.0025,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 1329
    },
    {
      "completion_length": 157.625,
      "epoch": 0.3325,
      "grad_norm": 0.48206326365470886,
      "kl": 0.04004458710551262,
      "learning_rate": 4.220886439234385e-06,
      "loss": 0.0016,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 1330
    },
    {
      "completion_length": 160.75,
      "epoch": 0.33275,
      "grad_norm": 0.036685239523649216,
      "kl": 0.06175795570015907,
      "learning_rate": 4.219303262784834e-06,
      "loss": 0.0025,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1331
    },
    {
      "completion_length": 153.25,
      "epoch": 0.333,
      "grad_norm": 0.6564381718635559,
      "kl": 0.04746977239847183,
      "learning_rate": 4.217718777011058e-06,
      "loss": 0.0019,
      "reward": 1.787500023841858,
      "reward_std": 0.39708760380744934,
      "rewards/_accuracy_reward": 0.7875000238418579,
      "rewards/_format_reward": 1.0,
      "step": 1332
    },
    {
      "completion_length": 139.5,
      "epoch": 0.33325,
      "grad_norm": 0.5996315479278564,
      "kl": 0.04581526294350624,
      "learning_rate": 4.2161329831197095e-06,
      "loss": 0.0018,
      "reward": 1.40625,
      "reward_std": 0.49167174100875854,
      "rewards/_accuracy_reward": 0.4062499701976776,
      "rewards/_format_reward": 1.0,
      "step": 1333
    },
    {
      "completion_length": 170.25,
      "epoch": 0.3335,
      "grad_norm": 0.6188631057739258,
      "kl": 0.05417291074991226,
      "learning_rate": 4.2145458823184414e-06,
      "loss": 0.0022,
      "reward": 1.274999976158142,
      "reward_std": 0.6974443197250366,
      "rewards/_accuracy_reward": 0.3999999761581421,
      "rewards/_format_reward": 0.875,
      "step": 1334
    },
    {
      "completion_length": 148.0,
      "epoch": 0.33375,
      "grad_norm": 0.023063072934746742,
      "kl": 0.04357193037867546,
      "learning_rate": 4.212957475815898e-06,
      "loss": 0.0017,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1335
    },
    {
      "completion_length": 110.375,
      "epoch": 0.334,
      "grad_norm": 0.8400101661682129,
      "kl": 0.05062510818243027,
      "learning_rate": 4.211367764821722e-06,
      "loss": 0.002,
      "reward": 1.8125,
      "reward_std": 0.3471825420856476,
      "rewards/_accuracy_reward": 0.8125,
      "rewards/_format_reward": 1.0,
      "step": 1336
    },
    {
      "completion_length": 174.0,
      "epoch": 0.33425,
      "grad_norm": 0.6004985570907593,
      "kl": 0.03446627035737038,
      "learning_rate": 4.209776750546547e-06,
      "loss": 0.0014,
      "reward": 1.78125,
      "reward_std": 0.6187184453010559,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 0.875,
      "step": 1337
    },
    {
      "completion_length": 151.125,
      "epoch": 0.3345,
      "grad_norm": 0.5468786954879761,
      "kl": 0.06371209770441055,
      "learning_rate": 4.208184434201999e-06,
      "loss": 0.0025,
      "reward": 1.1687499284744263,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.16875000298023224,
      "rewards/_format_reward": 1.0,
      "step": 1338
    },
    {
      "completion_length": 172.375,
      "epoch": 0.33475,
      "grad_norm": 0.024628562852740288,
      "kl": 0.04282301664352417,
      "learning_rate": 4.206590817000695e-06,
      "loss": 0.0017,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1339
    },
    {
      "completion_length": 211.25,
      "epoch": 0.335,
      "grad_norm": 0.47119390964508057,
      "kl": 0.06950601935386658,
      "learning_rate": 4.204995900156247e-06,
      "loss": 0.0028,
      "reward": 1.6262500286102295,
      "reward_std": 0.7428312301635742,
      "rewards/_accuracy_reward": 0.7512500286102295,
      "rewards/_format_reward": 0.875,
      "step": 1340
    },
    {
      "completion_length": 150.25,
      "epoch": 0.33525,
      "grad_norm": 0.08035016059875488,
      "kl": 0.0573977455496788,
      "learning_rate": 4.20339968488325e-06,
      "loss": 0.0023,
      "reward": 1.0499999523162842,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 0.05000000074505806,
      "rewards/_format_reward": 1.0,
      "step": 1341
    },
    {
      "completion_length": 160.25,
      "epoch": 0.3355,
      "grad_norm": 0.7187206149101257,
      "kl": 0.07497703284025192,
      "learning_rate": 4.201802172397295e-06,
      "loss": 0.003,
      "reward": 1.1512500047683716,
      "reward_std": 0.6355074048042297,
      "rewards/_accuracy_reward": 0.2762500047683716,
      "rewards/_format_reward": 0.875,
      "step": 1342
    },
    {
      "completion_length": 173.75,
      "epoch": 0.33575,
      "grad_norm": 0.5304349660873413,
      "kl": 0.08109744638204575,
      "learning_rate": 4.2002033639149545e-06,
      "loss": 0.0032,
      "reward": 1.537500023841858,
      "reward_std": 0.7322909235954285,
      "rewards/_accuracy_reward": 0.6625000238418579,
      "rewards/_format_reward": 0.875,
      "step": 1343
    },
    {
      "completion_length": 176.875,
      "epoch": 0.336,
      "grad_norm": 0.6054671406745911,
      "kl": 0.05511131510138512,
      "learning_rate": 4.198603260653792e-06,
      "loss": 0.0022,
      "reward": 1.7625000476837158,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.762499988079071,
      "rewards/_format_reward": 1.0,
      "step": 1344
    },
    {
      "completion_length": 162.75,
      "epoch": 0.33625,
      "grad_norm": 0.025135153904557228,
      "kl": 0.05139942467212677,
      "learning_rate": 4.197001863832355e-06,
      "loss": 0.0021,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1345
    },
    {
      "completion_length": 137.625,
      "epoch": 0.3365,
      "grad_norm": 0.6007516980171204,
      "kl": 0.05004937946796417,
      "learning_rate": 4.195399174670177e-06,
      "loss": 0.002,
      "reward": 1.6437499523162842,
      "reward_std": 0.49167174100875854,
      "rewards/_accuracy_reward": 0.6437499523162842,
      "rewards/_format_reward": 1.0,
      "step": 1346
    },
    {
      "completion_length": 197.875,
      "epoch": 0.33675,
      "grad_norm": 0.5018278956413269,
      "kl": 0.05320580676198006,
      "learning_rate": 4.193795194387776e-06,
      "loss": 0.0021,
      "reward": 1.1437499523162842,
      "reward_std": 0.8317097425460815,
      "rewards/_accuracy_reward": 0.39375001192092896,
      "rewards/_format_reward": 0.75,
      "step": 1347
    },
    {
      "completion_length": 96.375,
      "epoch": 0.337,
      "grad_norm": 0.7763251662254333,
      "kl": 0.13074029982089996,
      "learning_rate": 4.192189924206652e-06,
      "loss": 0.0052,
      "reward": 1.5625,
      "reward_std": 0.7165144085884094,
      "rewards/_accuracy_reward": 0.6875,
      "rewards/_format_reward": 0.875,
      "step": 1348
    },
    {
      "completion_length": 173.75,
      "epoch": 0.33725,
      "grad_norm": 0.021658629179000854,
      "kl": 0.04604887589812279,
      "learning_rate": 4.190583365349289e-06,
      "loss": 0.0018,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1349
    },
    {
      "completion_length": 183.25,
      "epoch": 0.3375,
      "grad_norm": 0.5501531958580017,
      "kl": 0.05152320861816406,
      "learning_rate": 4.188975519039151e-06,
      "loss": 0.0021,
      "reward": 1.274999976158142,
      "reward_std": 0.6974443197250366,
      "rewards/_accuracy_reward": 0.3999999761581421,
      "rewards/_format_reward": 0.875,
      "step": 1350
    },
    {
      "completion_length": 216.5,
      "epoch": 0.33775,
      "grad_norm": 0.547321081161499,
      "kl": 0.05665482208132744,
      "learning_rate": 4.1873663865006835e-06,
      "loss": 0.0023,
      "reward": 1.65625,
      "reward_std": 0.7188470363616943,
      "rewards/_accuracy_reward": 0.78125,
      "rewards/_format_reward": 0.875,
      "step": 1351
    },
    {
      "completion_length": 162.75,
      "epoch": 0.338,
      "grad_norm": 0.6683735847473145,
      "kl": 0.043146222829818726,
      "learning_rate": 4.185755968959308e-06,
      "loss": 0.0017,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 1352
    },
    {
      "completion_length": 170.375,
      "epoch": 0.33825,
      "grad_norm": 0.6152597665786743,
      "kl": 0.05195571482181549,
      "learning_rate": 4.184144267641433e-06,
      "loss": 0.0021,
      "reward": 0.8124999403953552,
      "reward_std": 0.5062113404273987,
      "rewards/_accuracy_reward": 0.0625,
      "rewards/_format_reward": 0.75,
      "step": 1353
    },
    {
      "completion_length": 150.125,
      "epoch": 0.3385,
      "grad_norm": 0.7096376419067383,
      "kl": 0.054735492914915085,
      "learning_rate": 4.182531283774434e-06,
      "loss": 0.0022,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1354
    },
    {
      "completion_length": 138.0,
      "epoch": 0.33875,
      "grad_norm": 0.024319298565387726,
      "kl": 0.051283035427331924,
      "learning_rate": 4.18091701858667e-06,
      "loss": 0.0021,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1355
    },
    {
      "completion_length": 108.25,
      "epoch": 0.339,
      "grad_norm": 0.8185098171234131,
      "kl": 0.06744442135095596,
      "learning_rate": 4.179301473307476e-06,
      "loss": 0.0027,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1356
    },
    {
      "completion_length": 154.25,
      "epoch": 0.33925,
      "grad_norm": 0.5948598384857178,
      "kl": 0.059390176087617874,
      "learning_rate": 4.177684649167158e-06,
      "loss": 0.0024,
      "reward": 1.7574999332427979,
      "reward_std": 0.4491499960422516,
      "rewards/_accuracy_reward": 0.7574999928474426,
      "rewards/_format_reward": 1.0,
      "step": 1357
    },
    {
      "completion_length": 178.125,
      "epoch": 0.3395,
      "grad_norm": 0.023550184443593025,
      "kl": 0.04499709606170654,
      "learning_rate": 4.176066547396998e-06,
      "loss": 0.0018,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1358
    },
    {
      "completion_length": 153.375,
      "epoch": 0.33975,
      "grad_norm": 0.027199365198612213,
      "kl": 0.05625481531023979,
      "learning_rate": 4.174447169229252e-06,
      "loss": 0.0023,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1359
    },
    {
      "completion_length": 137.875,
      "epoch": 0.34,
      "grad_norm": 0.019031843170523643,
      "kl": 0.051029808819293976,
      "learning_rate": 4.172826515897146e-06,
      "loss": 0.002,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1360
    },
    {
      "completion_length": 158.75,
      "epoch": 0.34025,
      "grad_norm": 0.03614223375916481,
      "kl": 0.06285353004932404,
      "learning_rate": 4.171204588634878e-06,
      "loss": 0.0025,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1361
    },
    {
      "completion_length": 122.625,
      "epoch": 0.3405,
      "grad_norm": 0.5458539128303528,
      "kl": 0.06035559996962547,
      "learning_rate": 4.169581388677617e-06,
      "loss": 0.0024,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1362
    },
    {
      "completion_length": 120.125,
      "epoch": 0.34075,
      "grad_norm": 0.029562877491116524,
      "kl": 0.0810147076845169,
      "learning_rate": 4.1679569172614994e-06,
      "loss": 0.0032,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1363
    },
    {
      "completion_length": 188.125,
      "epoch": 0.341,
      "grad_norm": 0.6008427143096924,
      "kl": 0.06007464975118637,
      "learning_rate": 4.166331175623631e-06,
      "loss": 0.0024,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1364
    },
    {
      "completion_length": 129.875,
      "epoch": 0.34125,
      "grad_norm": 0.7642394304275513,
      "kl": 0.07598597556352615,
      "learning_rate": 4.164704165002086e-06,
      "loss": 0.003,
      "reward": 1.4075000286102295,
      "reward_std": 0.3749571442604065,
      "rewards/_accuracy_reward": 0.4074999988079071,
      "rewards/_format_reward": 1.0,
      "step": 1365
    },
    {
      "completion_length": 156.5,
      "epoch": 0.3415,
      "grad_norm": 0.024682415649294853,
      "kl": 0.049706555902957916,
      "learning_rate": 4.163075886635902e-06,
      "loss": 0.002,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1366
    },
    {
      "completion_length": 106.875,
      "epoch": 0.34175,
      "grad_norm": 0.024045802652835846,
      "kl": 0.04866664111614227,
      "learning_rate": 4.161446341765085e-06,
      "loss": 0.0019,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1367
    },
    {
      "completion_length": 156.25,
      "epoch": 0.342,
      "grad_norm": 0.6025788187980652,
      "kl": 0.051358725875616074,
      "learning_rate": 4.159815531630604e-06,
      "loss": 0.0021,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 1368
    },
    {
      "completion_length": 155.625,
      "epoch": 0.34225,
      "grad_norm": 0.035298582166433334,
      "kl": 0.05683750659227371,
      "learning_rate": 4.158183457474392e-06,
      "loss": 0.0023,
      "reward": 1.0499999523162842,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 0.05000000074505806,
      "rewards/_format_reward": 1.0,
      "step": 1369
    },
    {
      "completion_length": 145.5,
      "epoch": 0.3425,
      "grad_norm": 0.6779209971427917,
      "kl": 0.08619740605354309,
      "learning_rate": 4.1565501205393445e-06,
      "loss": 0.0034,
      "reward": 1.8125,
      "reward_std": 0.3471825420856476,
      "rewards/_accuracy_reward": 0.8125,
      "rewards/_format_reward": 1.0,
      "step": 1370
    },
    {
      "completion_length": 147.25,
      "epoch": 0.34275,
      "grad_norm": 0.055118631571531296,
      "kl": 0.07643330842256546,
      "learning_rate": 4.154915522069318e-06,
      "loss": 0.0031,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1371
    },
    {
      "completion_length": 158.0,
      "epoch": 0.343,
      "grad_norm": 0.03090520389378071,
      "kl": 0.042203597724437714,
      "learning_rate": 4.15327966330913e-06,
      "loss": 0.0017,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1372
    },
    {
      "completion_length": 151.125,
      "epoch": 0.34325,
      "grad_norm": 0.02153955027461052,
      "kl": 0.04990649223327637,
      "learning_rate": 4.15164254550456e-06,
      "loss": 0.002,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1373
    },
    {
      "completion_length": 172.25,
      "epoch": 0.3435,
      "grad_norm": 0.7357903718948364,
      "kl": 0.07494698464870453,
      "learning_rate": 4.150004169902343e-06,
      "loss": 0.003,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1374
    },
    {
      "completion_length": 138.75,
      "epoch": 0.34375,
      "grad_norm": 0.6570234894752502,
      "kl": 0.11442865431308746,
      "learning_rate": 4.1483645377501726e-06,
      "loss": 0.0046,
      "reward": 1.78125,
      "reward_std": 0.41052013635635376,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 0.875,
      "step": 1375
    },
    {
      "completion_length": 145.75,
      "epoch": 0.344,
      "grad_norm": 0.03160668909549713,
      "kl": 0.057240959256887436,
      "learning_rate": 4.146723650296701e-06,
      "loss": 0.0023,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1376
    },
    {
      "completion_length": 139.5,
      "epoch": 0.34425,
      "grad_norm": 0.6059741973876953,
      "kl": 0.05288849398493767,
      "learning_rate": 4.145081508791536e-06,
      "loss": 0.0021,
      "reward": 1.7575000524520874,
      "reward_std": 0.449150025844574,
      "rewards/_accuracy_reward": 0.7575000524520874,
      "rewards/_format_reward": 1.0,
      "step": 1377
    },
    {
      "completion_length": 166.0,
      "epoch": 0.3445,
      "grad_norm": 0.6067208647727966,
      "kl": 0.056651707738637924,
      "learning_rate": 4.14343811448524e-06,
      "loss": 0.0023,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 1378
    },
    {
      "completion_length": 162.0,
      "epoch": 0.34475,
      "grad_norm": 0.5100969672203064,
      "kl": 0.06123419851064682,
      "learning_rate": 4.141793468629327e-06,
      "loss": 0.0024,
      "reward": 1.181249976158142,
      "reward_std": 0.6335486769676208,
      "rewards/_accuracy_reward": 0.3062499761581421,
      "rewards/_format_reward": 0.875,
      "step": 1379
    },
    {
      "completion_length": 117.125,
      "epoch": 0.345,
      "grad_norm": 0.5899714231491089,
      "kl": 0.07519141584634781,
      "learning_rate": 4.140147572476269e-06,
      "loss": 0.003,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1380
    },
    {
      "completion_length": 179.625,
      "epoch": 0.34525,
      "grad_norm": 0.471913605928421,
      "kl": 0.04343201965093613,
      "learning_rate": 4.138500427279485e-06,
      "loss": 0.0017,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 1381
    },
    {
      "completion_length": 120.875,
      "epoch": 0.3455,
      "grad_norm": 0.021074136719107628,
      "kl": 0.058206070214509964,
      "learning_rate": 4.136852034293349e-06,
      "loss": 0.0023,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1382
    },
    {
      "completion_length": 163.0,
      "epoch": 0.34575,
      "grad_norm": 0.5675240159034729,
      "kl": 0.05850347504019737,
      "learning_rate": 4.135202394773186e-06,
      "loss": 0.0023,
      "reward": 1.0374999046325684,
      "reward_std": 0.5350233912467957,
      "rewards/_accuracy_reward": 0.16249999403953552,
      "rewards/_format_reward": 0.875,
      "step": 1383
    },
    {
      "completion_length": 139.25,
      "epoch": 0.346,
      "grad_norm": 0.5779051184654236,
      "kl": 0.029702937230467796,
      "learning_rate": 4.133551509975264e-06,
      "loss": 0.0012,
      "reward": 1.7825000286102295,
      "reward_std": 0.40780770778656006,
      "rewards/_accuracy_reward": 0.7825000286102295,
      "rewards/_format_reward": 1.0,
      "step": 1384
    },
    {
      "completion_length": 109.125,
      "epoch": 0.34625,
      "grad_norm": 0.026169802993535995,
      "kl": 0.051198095083236694,
      "learning_rate": 4.1318993811568065e-06,
      "loss": 0.002,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1385
    },
    {
      "completion_length": 98.5,
      "epoch": 0.3465,
      "grad_norm": 0.02033095993101597,
      "kl": 0.06018479913473129,
      "learning_rate": 4.130246009575981e-06,
      "loss": 0.0024,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1386
    },
    {
      "completion_length": 134.75,
      "epoch": 0.34675,
      "grad_norm": 0.7308709025382996,
      "kl": 0.06635252386331558,
      "learning_rate": 4.128591396491901e-06,
      "loss": 0.0027,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1387
    },
    {
      "completion_length": 181.875,
      "epoch": 0.347,
      "grad_norm": 0.5132285356521606,
      "kl": 0.03996492922306061,
      "learning_rate": 4.126935543164628e-06,
      "loss": 0.0016,
      "reward": 1.1437499523162842,
      "reward_std": 0.8317097425460815,
      "rewards/_accuracy_reward": 0.39374998211860657,
      "rewards/_format_reward": 0.75,
      "step": 1388
    },
    {
      "completion_length": 199.75,
      "epoch": 0.34725,
      "grad_norm": 0.6100365519523621,
      "kl": 0.058336708694696426,
      "learning_rate": 4.125278450855165e-06,
      "loss": 0.0023,
      "reward": 1.6262500286102295,
      "reward_std": 0.7428312301635742,
      "rewards/_accuracy_reward": 0.7512500286102295,
      "rewards/_format_reward": 0.875,
      "step": 1389
    },
    {
      "completion_length": 157.0,
      "epoch": 0.3475,
      "grad_norm": 0.668353259563446,
      "kl": 0.056433651596307755,
      "learning_rate": 4.123620120825459e-06,
      "loss": 0.0023,
      "reward": 1.6637499332427979,
      "reward_std": 0.4691310524940491,
      "rewards/_accuracy_reward": 0.6637500524520874,
      "rewards/_format_reward": 1.0,
      "step": 1390
    },
    {
      "completion_length": 138.75,
      "epoch": 0.34775,
      "grad_norm": 0.022827059030532837,
      "kl": 0.043130144476890564,
      "learning_rate": 4.1219605543384036e-06,
      "loss": 0.0017,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1391
    },
    {
      "completion_length": 169.625,
      "epoch": 0.348,
      "grad_norm": 0.615968644618988,
      "kl": 0.045771509408950806,
      "learning_rate": 4.120299752657828e-06,
      "loss": 0.0018,
      "reward": 1.7625000476837158,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.7625000476837158,
      "rewards/_format_reward": 1.0,
      "step": 1392
    },
    {
      "completion_length": 185.75,
      "epoch": 0.34825,
      "grad_norm": 0.035993240773677826,
      "kl": 0.0693710520863533,
      "learning_rate": 4.1186377170485055e-06,
      "loss": 0.0028,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1393
    },
    {
      "completion_length": 187.0,
      "epoch": 0.3485,
      "grad_norm": 0.5210174918174744,
      "kl": 0.05211419612169266,
      "learning_rate": 4.11697444877615e-06,
      "loss": 0.0021,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 1394
    },
    {
      "completion_length": 156.875,
      "epoch": 0.34875,
      "grad_norm": 0.7188504934310913,
      "kl": 0.061935752630233765,
      "learning_rate": 4.11530994910741e-06,
      "loss": 0.0025,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 1395
    },
    {
      "completion_length": 125.5,
      "epoch": 0.349,
      "grad_norm": 0.8065851330757141,
      "kl": 0.08348346501588821,
      "learning_rate": 4.113644219309877e-06,
      "loss": 0.0033,
      "reward": 1.600000023841858,
      "reward_std": 0.43260011076927185,
      "rewards/_accuracy_reward": 0.6000000238418579,
      "rewards/_format_reward": 1.0,
      "step": 1396
    },
    {
      "completion_length": 168.875,
      "epoch": 0.34925,
      "grad_norm": 0.6905811429023743,
      "kl": 0.05310038477182388,
      "learning_rate": 4.1119772606520755e-06,
      "loss": 0.0021,
      "reward": 1.6437499523162842,
      "reward_std": 0.49167174100875854,
      "rewards/_accuracy_reward": 0.6437499523162842,
      "rewards/_format_reward": 1.0,
      "step": 1397
    },
    {
      "completion_length": 166.875,
      "epoch": 0.3495,
      "grad_norm": 0.5804812908172607,
      "kl": 0.05809628963470459,
      "learning_rate": 4.110309074403467e-06,
      "loss": 0.0023,
      "reward": 1.71875,
      "reward_std": 0.38816189765930176,
      "rewards/_accuracy_reward": 0.71875,
      "rewards/_format_reward": 1.0,
      "step": 1398
    },
    {
      "completion_length": 125.75,
      "epoch": 0.34975,
      "grad_norm": 0.813575029373169,
      "kl": 0.034708425402641296,
      "learning_rate": 4.1086396618344474e-06,
      "loss": 0.0014,
      "reward": 1.7625000476837158,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.7625000476837158,
      "rewards/_format_reward": 1.0,
      "step": 1399
    },
    {
      "completion_length": 102.125,
      "epoch": 0.35,
      "grad_norm": 0.6382107734680176,
      "kl": 0.07151403278112411,
      "learning_rate": 4.106969024216348e-06,
      "loss": 0.0029,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1400
    },
    {
      "completion_length": 183.875,
      "epoch": 0.35025,
      "grad_norm": 0.5745235681533813,
      "kl": 0.06930546462535858,
      "learning_rate": 4.105297162821433e-06,
      "loss": 0.0028,
      "reward": 1.7825000286102295,
      "reward_std": 0.40780770778656006,
      "rewards/_accuracy_reward": 0.7825000286102295,
      "rewards/_format_reward": 1.0,
      "step": 1401
    },
    {
      "completion_length": 124.0,
      "epoch": 0.3505,
      "grad_norm": 0.7871240377426147,
      "kl": 0.05033106729388237,
      "learning_rate": 4.103624078922895e-06,
      "loss": 0.002,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1402
    },
    {
      "completion_length": 108.25,
      "epoch": 0.35075,
      "grad_norm": 0.8062891364097595,
      "kl": 0.0857778936624527,
      "learning_rate": 4.101949773794862e-06,
      "loss": 0.0034,
      "reward": 1.78125,
      "reward_std": 0.6187184453010559,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 0.875,
      "step": 1403
    },
    {
      "completion_length": 213.875,
      "epoch": 0.351,
      "grad_norm": 0.6212908029556274,
      "kl": 0.06841997802257538,
      "learning_rate": 4.1002742487123896e-06,
      "loss": 0.0027,
      "reward": 1.25,
      "reward_std": 1.0350983142852783,
      "rewards/_accuracy_reward": 0.625,
      "rewards/_format_reward": 0.625,
      "step": 1404
    },
    {
      "completion_length": 161.5,
      "epoch": 0.35125,
      "grad_norm": 0.7645436525344849,
      "kl": 0.07526696473360062,
      "learning_rate": 4.098597504951462e-06,
      "loss": 0.003,
      "reward": 1.6437499523162842,
      "reward_std": 0.49167174100875854,
      "rewards/_accuracy_reward": 0.6437499523162842,
      "rewards/_format_reward": 1.0,
      "step": 1405
    },
    {
      "completion_length": 195.75,
      "epoch": 0.3515,
      "grad_norm": 0.8574343323707581,
      "kl": 0.08652313798666,
      "learning_rate": 4.096919543788995e-06,
      "loss": 0.0035,
      "reward": 1.8762500286102295,
      "reward_std": 0.35001784563064575,
      "rewards/_accuracy_reward": 0.8762500286102295,
      "rewards/_format_reward": 1.0,
      "step": 1406
    },
    {
      "completion_length": 135.375,
      "epoch": 0.35175,
      "grad_norm": 0.03515785187482834,
      "kl": 0.06902702897787094,
      "learning_rate": 4.095240366502827e-06,
      "loss": 0.0028,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1407
    },
    {
      "completion_length": 163.5,
      "epoch": 0.352,
      "grad_norm": 0.5809192061424255,
      "kl": 0.039451714605093,
      "learning_rate": 4.093559974371725e-06,
      "loss": 0.0016,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 1408
    },
    {
      "completion_length": 131.25,
      "epoch": 0.35225,
      "grad_norm": 1.0675450563430786,
      "kl": 0.037023499608039856,
      "learning_rate": 4.09187836867538e-06,
      "loss": 0.0015,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 1409
    },
    {
      "completion_length": 126.5,
      "epoch": 0.3525,
      "grad_norm": 0.03956000879406929,
      "kl": 0.05268242955207825,
      "learning_rate": 4.09019555069441e-06,
      "loss": 0.0021,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1410
    },
    {
      "completion_length": 158.5,
      "epoch": 0.35275,
      "grad_norm": 1.107899785041809,
      "kl": 0.06893620640039444,
      "learning_rate": 4.088511521710353e-06,
      "loss": 0.0028,
      "reward": 1.7625000476837158,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.7625000476837158,
      "rewards/_format_reward": 1.0,
      "step": 1411
    },
    {
      "completion_length": 83.625,
      "epoch": 0.353,
      "grad_norm": 0.020886188372969627,
      "kl": 0.08969815075397491,
      "learning_rate": 4.086826283005669e-06,
      "loss": 0.0036,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1412
    },
    {
      "completion_length": 149.125,
      "epoch": 0.35325,
      "grad_norm": 0.8237113952636719,
      "kl": 0.060487691313028336,
      "learning_rate": 4.085139835863743e-06,
      "loss": 0.0024,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 0.875,
      "step": 1413
    },
    {
      "completion_length": 172.375,
      "epoch": 0.3535,
      "grad_norm": 0.7035109996795654,
      "kl": 0.058261074125766754,
      "learning_rate": 4.083452181568876e-06,
      "loss": 0.0023,
      "reward": 1.3125,
      "reward_std": 0.4299086928367615,
      "rewards/_accuracy_reward": 0.3125,
      "rewards/_format_reward": 1.0,
      "step": 1414
    },
    {
      "completion_length": 164.5,
      "epoch": 0.35375,
      "grad_norm": 0.5613075494766235,
      "kl": 0.08956658095121384,
      "learning_rate": 4.081763321406291e-06,
      "loss": 0.0036,
      "reward": 1.2687499523162842,
      "reward_std": 0.699968159198761,
      "rewards/_accuracy_reward": 0.5187499523162842,
      "rewards/_format_reward": 0.75,
      "step": 1415
    },
    {
      "completion_length": 180.25,
      "epoch": 0.354,
      "grad_norm": 1.1197295188903809,
      "kl": 0.09375526010990143,
      "learning_rate": 4.080073256662128e-06,
      "loss": 0.0038,
      "reward": 1.65625,
      "reward_std": 0.7188470363616943,
      "rewards/_accuracy_reward": 0.78125,
      "rewards/_format_reward": 0.875,
      "step": 1416
    },
    {
      "completion_length": 128.875,
      "epoch": 0.35425,
      "grad_norm": 0.031155169010162354,
      "kl": 0.0490286611020565,
      "learning_rate": 4.078381988623445e-06,
      "loss": 0.002,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1417
    },
    {
      "completion_length": 174.625,
      "epoch": 0.3545,
      "grad_norm": 0.612561047077179,
      "kl": 0.06778530031442642,
      "learning_rate": 4.076689518578217e-06,
      "loss": 0.0027,
      "reward": 1.5125000476837158,
      "reward_std": 0.7467787861824036,
      "rewards/_accuracy_reward": 0.6375000476837158,
      "rewards/_format_reward": 0.875,
      "step": 1418
    },
    {
      "completion_length": 87.25,
      "epoch": 0.35475,
      "grad_norm": 0.05403704568743706,
      "kl": 0.04753972589969635,
      "learning_rate": 4.074995847815331e-06,
      "loss": 0.0019,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1419
    },
    {
      "completion_length": 144.375,
      "epoch": 0.355,
      "grad_norm": 0.03159556910395622,
      "kl": 0.05760689452290535,
      "learning_rate": 4.073300977624594e-06,
      "loss": 0.0023,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1420
    },
    {
      "completion_length": 162.625,
      "epoch": 0.35525,
      "grad_norm": 0.7645871043205261,
      "kl": 0.0827740728855133,
      "learning_rate": 4.0716049092967224e-06,
      "loss": 0.0033,
      "reward": 1.3125,
      "reward_std": 0.4299086630344391,
      "rewards/_accuracy_reward": 0.3124999701976776,
      "rewards/_format_reward": 1.0,
      "step": 1421
    },
    {
      "completion_length": 120.75,
      "epoch": 0.3555,
      "grad_norm": 0.05223441123962402,
      "kl": 0.05872947722673416,
      "learning_rate": 4.069907644123346e-06,
      "loss": 0.0023,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1422
    },
    {
      "completion_length": 133.625,
      "epoch": 0.35575,
      "grad_norm": 0.7665608525276184,
      "kl": 0.04824737831950188,
      "learning_rate": 4.068209183397005e-06,
      "loss": 0.0019,
      "reward": 1.2874999046325684,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.2874999940395355,
      "rewards/_format_reward": 1.0,
      "step": 1423
    },
    {
      "completion_length": 93.625,
      "epoch": 0.356,
      "grad_norm": 0.898429274559021,
      "kl": 0.10655061900615692,
      "learning_rate": 4.066509528411151e-06,
      "loss": 0.0043,
      "reward": 1.8125,
      "reward_std": 0.3471825420856476,
      "rewards/_accuracy_reward": 0.8125,
      "rewards/_format_reward": 1.0,
      "step": 1424
    },
    {
      "completion_length": 179.625,
      "epoch": 0.35625,
      "grad_norm": 0.7845519781112671,
      "kl": 0.0487191379070282,
      "learning_rate": 4.064808680460149e-06,
      "loss": 0.0019,
      "reward": 1.4562499523162842,
      "reward_std": 0.45781898498535156,
      "rewards/_accuracy_reward": 0.45624998211860657,
      "rewards/_format_reward": 1.0,
      "step": 1425
    },
    {
      "completion_length": 171.625,
      "epoch": 0.3565,
      "grad_norm": 0.8606228828430176,
      "kl": 0.05676417797803879,
      "learning_rate": 4.063106640839264e-06,
      "loss": 0.0023,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 1426
    },
    {
      "completion_length": 164.25,
      "epoch": 0.35675,
      "grad_norm": 0.6395389437675476,
      "kl": 0.07135939598083496,
      "learning_rate": 4.061403410844674e-06,
      "loss": 0.0029,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1427
    },
    {
      "completion_length": 193.0,
      "epoch": 0.357,
      "grad_norm": 0.5392956137657166,
      "kl": 0.048543695360422134,
      "learning_rate": 4.059698991773466e-06,
      "loss": 0.0019,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 1428
    },
    {
      "completion_length": 176.625,
      "epoch": 0.35725,
      "grad_norm": 0.7690248489379883,
      "kl": 0.0833929181098938,
      "learning_rate": 4.057993384923626e-06,
      "loss": 0.0033,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 1429
    },
    {
      "completion_length": 133.75,
      "epoch": 0.3575,
      "grad_norm": 0.643065869808197,
      "kl": 0.059519246220588684,
      "learning_rate": 4.056286591594049e-06,
      "loss": 0.0024,
      "reward": 1.8762500286102295,
      "reward_std": 0.35001784563064575,
      "rewards/_accuracy_reward": 0.8762500286102295,
      "rewards/_format_reward": 1.0,
      "step": 1430
    },
    {
      "completion_length": 118.875,
      "epoch": 0.35775,
      "grad_norm": 0.72835773229599,
      "kl": 0.03510938957333565,
      "learning_rate": 4.0545786130845325e-06,
      "loss": 0.0014,
      "reward": 1.8762500286102295,
      "reward_std": 0.35001784563064575,
      "rewards/_accuracy_reward": 0.8762500286102295,
      "rewards/_format_reward": 1.0,
      "step": 1431
    },
    {
      "completion_length": 85.375,
      "epoch": 0.358,
      "grad_norm": 0.031654562801122665,
      "kl": 0.03833214193582535,
      "learning_rate": 4.052869450695776e-06,
      "loss": 0.0015,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1432
    },
    {
      "completion_length": 117.0,
      "epoch": 0.35825,
      "grad_norm": 0.052805446088314056,
      "kl": 0.07381996512413025,
      "learning_rate": 4.051159105729382e-06,
      "loss": 0.003,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1433
    },
    {
      "completion_length": 143.875,
      "epoch": 0.3585,
      "grad_norm": 0.6013376116752625,
      "kl": 0.05232910066843033,
      "learning_rate": 4.049447579487851e-06,
      "loss": 0.0021,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1434
    },
    {
      "completion_length": 176.5,
      "epoch": 0.35875,
      "grad_norm": 0.03941601887345314,
      "kl": 0.06202106177806854,
      "learning_rate": 4.047734873274586e-06,
      "loss": 0.0025,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1435
    },
    {
      "completion_length": 221.125,
      "epoch": 0.359,
      "grad_norm": 0.7312876582145691,
      "kl": 0.07595561444759369,
      "learning_rate": 4.046020988393886e-06,
      "loss": 0.003,
      "reward": 1.15625,
      "reward_std": 0.6343936920166016,
      "rewards/_accuracy_reward": 0.2812499701976776,
      "rewards/_format_reward": 0.875,
      "step": 1436
    },
    {
      "completion_length": 173.5,
      "epoch": 0.35925,
      "grad_norm": 0.7492666840553284,
      "kl": 0.0508357509970665,
      "learning_rate": 4.04430592615095e-06,
      "loss": 0.002,
      "reward": 1.5,
      "reward_std": 0.9258201122283936,
      "rewards/_accuracy_reward": 0.75,
      "rewards/_format_reward": 0.75,
      "step": 1437
    },
    {
      "completion_length": 89.875,
      "epoch": 0.3595,
      "grad_norm": 1.046403169631958,
      "kl": 0.052254389971494675,
      "learning_rate": 4.0425896878518725e-06,
      "loss": 0.0021,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1438
    },
    {
      "completion_length": 149.375,
      "epoch": 0.35975,
      "grad_norm": 0.6857521533966064,
      "kl": 0.06438186764717102,
      "learning_rate": 4.0408722748036426e-06,
      "loss": 0.0026,
      "reward": 1.631250023841858,
      "reward_std": 0.7382108569145203,
      "rewards/_accuracy_reward": 0.7562500238418579,
      "rewards/_format_reward": 0.875,
      "step": 1439
    },
    {
      "completion_length": 160.25,
      "epoch": 0.36,
      "grad_norm": 0.8094133138656616,
      "kl": 0.07312402129173279,
      "learning_rate": 4.039153688314146e-06,
      "loss": 0.0029,
      "reward": 1.65625,
      "reward_std": 0.7188470363616943,
      "rewards/_accuracy_reward": 0.78125,
      "rewards/_format_reward": 0.875,
      "step": 1440
    },
    {
      "completion_length": 129.625,
      "epoch": 0.36025,
      "grad_norm": 0.045799799263477325,
      "kl": 0.053429555147886276,
      "learning_rate": 4.037433929692161e-06,
      "loss": 0.0021,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1441
    },
    {
      "completion_length": 164.875,
      "epoch": 0.3605,
      "grad_norm": 0.8309241533279419,
      "kl": 0.08402340859174728,
      "learning_rate": 4.035713000247358e-06,
      "loss": 0.0034,
      "reward": 1.756250023841858,
      "reward_std": 0.45153507590293884,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 0.875,
      "step": 1442
    },
    {
      "completion_length": 129.625,
      "epoch": 0.36075,
      "grad_norm": 0.04994899779558182,
      "kl": 0.08733442425727844,
      "learning_rate": 4.033990901290301e-06,
      "loss": 0.0035,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1443
    },
    {
      "completion_length": 160.0,
      "epoch": 0.361,
      "grad_norm": 0.78934246301651,
      "kl": 0.07535295933485031,
      "learning_rate": 4.032267634132442e-06,
      "loss": 0.003,
      "reward": 1.631250023841858,
      "reward_std": 0.7382108569145203,
      "rewards/_accuracy_reward": 0.7562500238418579,
      "rewards/_format_reward": 0.875,
      "step": 1444
    },
    {
      "completion_length": 167.625,
      "epoch": 0.36125,
      "grad_norm": 0.8826912045478821,
      "kl": 0.05429309234023094,
      "learning_rate": 4.0305432000861236e-06,
      "loss": 0.0022,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 0.875,
      "step": 1445
    },
    {
      "completion_length": 174.25,
      "epoch": 0.3615,
      "grad_norm": 1.0357098579406738,
      "kl": 0.0778610110282898,
      "learning_rate": 4.028817600464579e-06,
      "loss": 0.0031,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 1446
    },
    {
      "completion_length": 117.25,
      "epoch": 0.36175,
      "grad_norm": 0.7004038691520691,
      "kl": 0.046138960868120193,
      "learning_rate": 4.027090836581925e-06,
      "loss": 0.0018,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1447
    },
    {
      "completion_length": 145.125,
      "epoch": 0.362,
      "grad_norm": 0.6335418224334717,
      "kl": 0.05013753101229668,
      "learning_rate": 4.02536290975317e-06,
      "loss": 0.002,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1448
    },
    {
      "completion_length": 169.5,
      "epoch": 0.36225,
      "grad_norm": 1.1653978824615479,
      "kl": 0.04540247470140457,
      "learning_rate": 4.023633821294203e-06,
      "loss": 0.0018,
      "reward": 1.2874999046325684,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.28749996423721313,
      "rewards/_format_reward": 1.0,
      "step": 1449
    },
    {
      "completion_length": 132.375,
      "epoch": 0.3625,
      "grad_norm": 0.023695236071944237,
      "kl": 0.04884612187743187,
      "learning_rate": 4.021903572521802e-06,
      "loss": 0.002,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1450
    },
    {
      "completion_length": 147.5,
      "epoch": 0.36275,
      "grad_norm": 2.0923967361450195,
      "kl": 0.08431154489517212,
      "learning_rate": 4.020172164753626e-06,
      "loss": 0.0034,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1451
    },
    {
      "completion_length": 191.375,
      "epoch": 0.363,
      "grad_norm": 0.975801408290863,
      "kl": 0.09080733358860016,
      "learning_rate": 4.018439599308217e-06,
      "loss": 0.0036,
      "reward": 1.524999976158142,
      "reward_std": 0.5077964067459106,
      "rewards/_accuracy_reward": 0.5249999761581421,
      "rewards/_format_reward": 1.0,
      "step": 1452
    },
    {
      "completion_length": 124.5,
      "epoch": 0.36325,
      "grad_norm": 0.7811964154243469,
      "kl": 0.06944286823272705,
      "learning_rate": 4.016705877504999e-06,
      "loss": 0.0028,
      "reward": 1.7625000476837158,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.762499988079071,
      "rewards/_format_reward": 1.0,
      "step": 1453
    },
    {
      "completion_length": 187.375,
      "epoch": 0.3635,
      "grad_norm": 0.9031335711479187,
      "kl": 0.07759063690900803,
      "learning_rate": 4.0149710006642775e-06,
      "loss": 0.0031,
      "reward": 1.2625000476837158,
      "reward_std": 0.8826704621315002,
      "rewards/_accuracy_reward": 0.512499988079071,
      "rewards/_format_reward": 0.75,
      "step": 1454
    },
    {
      "completion_length": 128.375,
      "epoch": 0.36375,
      "grad_norm": 1.2263360023498535,
      "kl": 0.0753258615732193,
      "learning_rate": 4.013234970107236e-06,
      "loss": 0.003,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 1455
    },
    {
      "completion_length": 106.0,
      "epoch": 0.364,
      "grad_norm": 0.08058945089578629,
      "kl": 0.07110590487718582,
      "learning_rate": 4.011497787155938e-06,
      "loss": 0.0028,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1456
    },
    {
      "completion_length": 172.875,
      "epoch": 0.36425,
      "grad_norm": 0.7150065898895264,
      "kl": 0.09918969124555588,
      "learning_rate": 4.009759453133322e-06,
      "loss": 0.004,
      "reward": 1.5125000476837158,
      "reward_std": 0.7467787861824036,
      "rewards/_accuracy_reward": 0.637499988079071,
      "rewards/_format_reward": 0.875,
      "step": 1457
    },
    {
      "completion_length": 172.5,
      "epoch": 0.3645,
      "grad_norm": 1.6500592231750488,
      "kl": 0.11502061039209366,
      "learning_rate": 4.008019969363206e-06,
      "loss": 0.0046,
      "reward": 1.3937499523162842,
      "reward_std": 0.7336004972457886,
      "rewards/_accuracy_reward": 0.5187499523162842,
      "rewards/_format_reward": 0.875,
      "step": 1458
    },
    {
      "completion_length": 185.625,
      "epoch": 0.36475,
      "grad_norm": 0.7705068588256836,
      "kl": 0.10530376434326172,
      "learning_rate": 4.006279337170283e-06,
      "loss": 0.0042,
      "reward": 1.5325000286102295,
      "reward_std": 0.7362210750579834,
      "rewards/_accuracy_reward": 0.6575000286102295,
      "rewards/_format_reward": 0.875,
      "step": 1459
    },
    {
      "completion_length": 140.0,
      "epoch": 0.365,
      "grad_norm": 2.920241117477417,
      "kl": 0.1508193165063858,
      "learning_rate": 4.0045375578801216e-06,
      "loss": 0.006,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 0.875,
      "step": 1460
    },
    {
      "completion_length": 148.25,
      "epoch": 0.36525,
      "grad_norm": 2.5213630199432373,
      "kl": 0.07739417254924774,
      "learning_rate": 4.002794632819159e-06,
      "loss": 0.0031,
      "reward": 1.274999976158142,
      "reward_std": 0.6974443197250366,
      "rewards/_accuracy_reward": 0.3999999761581421,
      "rewards/_format_reward": 0.875,
      "step": 1461
    },
    {
      "completion_length": 155.0,
      "epoch": 0.3655,
      "grad_norm": 2.9162180423736572,
      "kl": 0.13509155809879303,
      "learning_rate": 4.001050563314711e-06,
      "loss": 0.0054,
      "reward": 1.7825000286102295,
      "reward_std": 0.40780770778656006,
      "rewards/_accuracy_reward": 0.7825000286102295,
      "rewards/_format_reward": 1.0,
      "step": 1462
    },
    {
      "completion_length": 136.25,
      "epoch": 0.36575,
      "grad_norm": 0.4022398591041565,
      "kl": 0.10202545672655106,
      "learning_rate": 3.999305350694961e-06,
      "loss": 0.0041,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1463
    },
    {
      "completion_length": 137.75,
      "epoch": 0.366,
      "grad_norm": 0.6191596388816833,
      "kl": 0.11961022019386292,
      "learning_rate": 3.997558996288965e-06,
      "loss": 0.0048,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1464
    },
    {
      "completion_length": 188.375,
      "epoch": 0.36625,
      "grad_norm": 0.6211814284324646,
      "kl": 0.09365051239728928,
      "learning_rate": 3.995811501426648e-06,
      "loss": 0.0037,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 1465
    },
    {
      "completion_length": 181.5,
      "epoch": 0.3665,
      "grad_norm": 0.8067208528518677,
      "kl": 0.11959419399499893,
      "learning_rate": 3.994062867438803e-06,
      "loss": 0.0048,
      "reward": 1.662500023841858,
      "reward_std": 0.6604922413825989,
      "rewards/_accuracy_reward": 0.7875000238418579,
      "rewards/_format_reward": 0.875,
      "step": 1466
    },
    {
      "completion_length": 181.5,
      "epoch": 0.36675,
      "grad_norm": 0.5875232219696045,
      "kl": 0.07762034982442856,
      "learning_rate": 3.992313095657091e-06,
      "loss": 0.0031,
      "reward": 1.65625,
      "reward_std": 0.7188470363616943,
      "rewards/_accuracy_reward": 0.78125,
      "rewards/_format_reward": 0.875,
      "step": 1467
    },
    {
      "completion_length": 160.25,
      "epoch": 0.367,
      "grad_norm": 0.6259009838104248,
      "kl": 0.08514675498008728,
      "learning_rate": 3.9905621874140396e-06,
      "loss": 0.0034,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1468
    },
    {
      "completion_length": 92.875,
      "epoch": 0.36725,
      "grad_norm": 0.023967457935214043,
      "kl": 0.02864246629178524,
      "learning_rate": 3.988810144043041e-06,
      "loss": 0.0011,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1469
    },
    {
      "completion_length": 175.875,
      "epoch": 0.3675,
      "grad_norm": 0.8310546278953552,
      "kl": 0.0942971259355545,
      "learning_rate": 3.987056966878354e-06,
      "loss": 0.0038,
      "reward": 1.6387500762939453,
      "reward_std": 0.49872517585754395,
      "rewards/_accuracy_reward": 0.6387499570846558,
      "rewards/_format_reward": 1.0,
      "step": 1470
    },
    {
      "completion_length": 161.75,
      "epoch": 0.36775,
      "grad_norm": 0.03448256105184555,
      "kl": 0.05922067165374756,
      "learning_rate": 3.985302657255097e-06,
      "loss": 0.0024,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1471
    },
    {
      "completion_length": 141.75,
      "epoch": 0.368,
      "grad_norm": 0.02368452027440071,
      "kl": 0.055194176733493805,
      "learning_rate": 3.983547216509254e-06,
      "loss": 0.0022,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1472
    },
    {
      "completion_length": 120.625,
      "epoch": 0.36825,
      "grad_norm": 0.04141707718372345,
      "kl": 0.04475046694278717,
      "learning_rate": 3.98179064597767e-06,
      "loss": 0.0018,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1473
    },
    {
      "completion_length": 155.5,
      "epoch": 0.3685,
      "grad_norm": 0.587161123752594,
      "kl": 0.056352969259023666,
      "learning_rate": 3.9800329469980495e-06,
      "loss": 0.0023,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 1474
    },
    {
      "completion_length": 162.125,
      "epoch": 0.36875,
      "grad_norm": 0.6867335438728333,
      "kl": 0.06760282069444656,
      "learning_rate": 3.978274120908957e-06,
      "loss": 0.0027,
      "reward": 1.40625,
      "reward_std": 0.49167174100875854,
      "rewards/_accuracy_reward": 0.4062499701976776,
      "rewards/_format_reward": 1.0,
      "step": 1475
    },
    {
      "completion_length": 119.375,
      "epoch": 0.369,
      "grad_norm": 0.8442899584770203,
      "kl": 0.07957350462675095,
      "learning_rate": 3.976514169049814e-06,
      "loss": 0.0032,
      "reward": 1.658750057220459,
      "reward_std": 0.47675803303718567,
      "rewards/_accuracy_reward": 0.6587499976158142,
      "rewards/_format_reward": 1.0,
      "step": 1476
    },
    {
      "completion_length": 120.875,
      "epoch": 0.36925,
      "grad_norm": 0.03868165612220764,
      "kl": 0.05161227658390999,
      "learning_rate": 3.974753092760901e-06,
      "loss": 0.0021,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1477
    },
    {
      "completion_length": 141.375,
      "epoch": 0.3695,
      "grad_norm": 0.7526807188987732,
      "kl": 0.058717839419841766,
      "learning_rate": 3.972990893383356e-06,
      "loss": 0.0023,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 1478
    },
    {
      "completion_length": 106.875,
      "epoch": 0.36975,
      "grad_norm": 0.7434094548225403,
      "kl": 0.12921760976314545,
      "learning_rate": 3.971227572259167e-06,
      "loss": 0.0052,
      "reward": 1.8125,
      "reward_std": 0.3471825420856476,
      "rewards/_accuracy_reward": 0.8125,
      "rewards/_format_reward": 1.0,
      "step": 1479
    },
    {
      "completion_length": 175.25,
      "epoch": 0.37,
      "grad_norm": 0.6596071124076843,
      "kl": 0.08641275018453598,
      "learning_rate": 3.969463130731183e-06,
      "loss": 0.0035,
      "reward": 1.15625,
      "reward_std": 0.6343936920166016,
      "rewards/_accuracy_reward": 0.28125,
      "rewards/_format_reward": 0.875,
      "step": 1480
    },
    {
      "completion_length": 208.0,
      "epoch": 0.37025,
      "grad_norm": 0.03975485637784004,
      "kl": 0.06477142870426178,
      "learning_rate": 3.9676975701431016e-06,
      "loss": 0.0026,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1481
    },
    {
      "completion_length": 132.25,
      "epoch": 0.3705,
      "grad_norm": 0.6661024689674377,
      "kl": 0.058449484407901764,
      "learning_rate": 3.965930891839473e-06,
      "loss": 0.0023,
      "reward": 1.787500023841858,
      "reward_std": 0.39708763360977173,
      "rewards/_accuracy_reward": 0.7875000238418579,
      "rewards/_format_reward": 1.0,
      "step": 1482
    },
    {
      "completion_length": 135.875,
      "epoch": 0.37075,
      "grad_norm": 0.8266745805740356,
      "kl": 0.0733661875128746,
      "learning_rate": 3.964163097165702e-06,
      "loss": 0.0029,
      "reward": 1.0999999046325684,
      "reward_std": 0.09258202463388443,
      "rewards/_accuracy_reward": 0.10000000149011612,
      "rewards/_format_reward": 1.0,
      "step": 1483
    },
    {
      "completion_length": 114.125,
      "epoch": 0.371,
      "grad_norm": 0.01836472377181053,
      "kl": 0.08049993216991425,
      "learning_rate": 3.96239418746804e-06,
      "loss": 0.0032,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1484
    },
    {
      "completion_length": 162.5,
      "epoch": 0.37125,
      "grad_norm": 0.5880891680717468,
      "kl": 0.0393814891576767,
      "learning_rate": 3.960624164093587e-06,
      "loss": 0.0016,
      "reward": 1.787500023841858,
      "reward_std": 0.39708763360977173,
      "rewards/_accuracy_reward": 0.7875000238418579,
      "rewards/_format_reward": 1.0,
      "step": 1485
    },
    {
      "completion_length": 148.75,
      "epoch": 0.3715,
      "grad_norm": 0.5472244024276733,
      "kl": 0.039617154747247696,
      "learning_rate": 3.958853028390294e-06,
      "loss": 0.0016,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 0.875,
      "step": 1486
    },
    {
      "completion_length": 150.875,
      "epoch": 0.37175,
      "grad_norm": 1.396892786026001,
      "kl": 0.06323693692684174,
      "learning_rate": 3.957080781706959e-06,
      "loss": 0.0025,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1487
    },
    {
      "completion_length": 188.875,
      "epoch": 0.372,
      "grad_norm": 0.034602127969264984,
      "kl": 0.06623050570487976,
      "learning_rate": 3.955307425393224e-06,
      "loss": 0.0026,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1488
    },
    {
      "completion_length": 111.25,
      "epoch": 0.37225,
      "grad_norm": 0.021022455766797066,
      "kl": 0.08140836656093597,
      "learning_rate": 3.953532960799577e-06,
      "loss": 0.0033,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1489
    },
    {
      "completion_length": 174.5,
      "epoch": 0.3725,
      "grad_norm": 0.3498646914958954,
      "kl": 0.04529913514852524,
      "learning_rate": 3.951757389277349e-06,
      "loss": 0.0018,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 1490
    },
    {
      "completion_length": 172.25,
      "epoch": 0.37275,
      "grad_norm": 0.4678153991699219,
      "kl": 0.04285871610045433,
      "learning_rate": 3.949980712178718e-06,
      "loss": 0.0017,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1491
    },
    {
      "completion_length": 112.125,
      "epoch": 0.373,
      "grad_norm": 0.8213009834289551,
      "kl": 0.0340723879635334,
      "learning_rate": 3.948202930856697e-06,
      "loss": 0.0014,
      "reward": 1.756250023841858,
      "reward_std": 0.6894291639328003,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 0.875,
      "step": 1492
    },
    {
      "completion_length": 178.75,
      "epoch": 0.37325,
      "grad_norm": 0.7336386442184448,
      "kl": 0.05348341166973114,
      "learning_rate": 3.946424046665147e-06,
      "loss": 0.0021,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1493
    },
    {
      "completion_length": 123.625,
      "epoch": 0.3735,
      "grad_norm": 0.9568604230880737,
      "kl": 0.06122196465730667,
      "learning_rate": 3.944644060958764e-06,
      "loss": 0.0024,
      "reward": 1.5625,
      "reward_std": 0.7165144085884094,
      "rewards/_accuracy_reward": 0.6875,
      "rewards/_format_reward": 0.875,
      "step": 1494
    },
    {
      "completion_length": 191.25,
      "epoch": 0.37375,
      "grad_norm": 0.7187319993972778,
      "kl": 0.03870750963687897,
      "learning_rate": 3.942862975093085e-06,
      "loss": 0.0015,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1495
    },
    {
      "completion_length": 116.5,
      "epoch": 0.374,
      "grad_norm": 0.014674518257379532,
      "kl": 0.07812533527612686,
      "learning_rate": 3.941080790424483e-06,
      "loss": 0.0031,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1496
    },
    {
      "completion_length": 140.625,
      "epoch": 0.37425,
      "grad_norm": 0.6387913823127747,
      "kl": 0.03343196585774422,
      "learning_rate": 3.939297508310172e-06,
      "loss": 0.0013,
      "reward": 1.524999976158142,
      "reward_std": 0.5077964067459106,
      "rewards/_accuracy_reward": 0.5249999761581421,
      "rewards/_format_reward": 1.0,
      "step": 1497
    },
    {
      "completion_length": 182.125,
      "epoch": 0.3745,
      "grad_norm": 0.4836607277393341,
      "kl": 0.03932333365082741,
      "learning_rate": 3.9375131301081974e-06,
      "loss": 0.0016,
      "reward": 1.65625,
      "reward_std": 0.7188470363616943,
      "rewards/_accuracy_reward": 0.78125,
      "rewards/_format_reward": 0.875,
      "step": 1498
    },
    {
      "completion_length": 160.75,
      "epoch": 0.37475,
      "grad_norm": 0.6728492379188538,
      "kl": 0.043070126324892044,
      "learning_rate": 3.935727657177439e-06,
      "loss": 0.0017,
      "reward": 1.5125000476837158,
      "reward_std": 0.7467787861824036,
      "rewards/_accuracy_reward": 0.6375000476837158,
      "rewards/_format_reward": 0.875,
      "step": 1499
    },
    {
      "completion_length": 191.75,
      "epoch": 0.375,
      "grad_norm": 0.5258508920669556,
      "kl": 0.03584269806742668,
      "learning_rate": 3.933941090877615e-06,
      "loss": 0.0014,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1500
    },
    {
      "completion_length": 94.25,
      "epoch": 0.37525,
      "grad_norm": 0.016977330669760704,
      "kl": 0.021302910521626472,
      "learning_rate": 3.932153432569273e-06,
      "loss": 0.0009,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1501
    },
    {
      "completion_length": 82.375,
      "epoch": 0.3755,
      "grad_norm": 0.9392129778862,
      "kl": 0.0853070318698883,
      "learning_rate": 3.930364683613791e-06,
      "loss": 0.0034,
      "reward": 1.8125,
      "reward_std": 0.3471825420856476,
      "rewards/_accuracy_reward": 0.8125,
      "rewards/_format_reward": 1.0,
      "step": 1502
    },
    {
      "completion_length": 150.75,
      "epoch": 0.37575,
      "grad_norm": 0.03836243599653244,
      "kl": 0.0422300361096859,
      "learning_rate": 3.92857484537338e-06,
      "loss": 0.0017,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1503
    },
    {
      "completion_length": 190.0,
      "epoch": 0.376,
      "grad_norm": 0.571064829826355,
      "kl": 0.048360809683799744,
      "learning_rate": 3.92678391921108e-06,
      "loss": 0.0019,
      "reward": 1.5187499523162842,
      "reward_std": 0.5147382020950317,
      "rewards/_accuracy_reward": 0.6437499523162842,
      "rewards/_format_reward": 0.875,
      "step": 1504
    },
    {
      "completion_length": 112.375,
      "epoch": 0.37625,
      "grad_norm": 0.7876760363578796,
      "kl": 0.04685162380337715,
      "learning_rate": 3.924991906490758e-06,
      "loss": 0.0019,
      "reward": 1.6437499523162842,
      "reward_std": 0.49167174100875854,
      "rewards/_accuracy_reward": 0.643750011920929,
      "rewards/_format_reward": 1.0,
      "step": 1505
    },
    {
      "completion_length": 185.25,
      "epoch": 0.3765,
      "grad_norm": 0.451773077249527,
      "kl": 0.034047823399305344,
      "learning_rate": 3.923198808577111e-06,
      "loss": 0.0014,
      "reward": 1.537500023841858,
      "reward_std": 0.7322909235954285,
      "rewards/_accuracy_reward": 0.6625000238418579,
      "rewards/_format_reward": 0.875,
      "step": 1506
    },
    {
      "completion_length": 115.625,
      "epoch": 0.37675,
      "grad_norm": 0.6053922176361084,
      "kl": 0.058970190584659576,
      "learning_rate": 3.921404626835661e-06,
      "loss": 0.0024,
      "reward": 1.787500023841858,
      "reward_std": 0.39708760380744934,
      "rewards/_accuracy_reward": 0.7875000238418579,
      "rewards/_format_reward": 1.0,
      "step": 1507
    },
    {
      "completion_length": 195.625,
      "epoch": 0.377,
      "grad_norm": 0.6031469702720642,
      "kl": 0.041082918643951416,
      "learning_rate": 3.9196093626327535e-06,
      "loss": 0.0016,
      "reward": 1.0187499523162842,
      "reward_std": 0.9184371829032898,
      "rewards/_accuracy_reward": 0.39374998211860657,
      "rewards/_format_reward": 0.625,
      "step": 1508
    },
    {
      "completion_length": 165.5,
      "epoch": 0.37725,
      "grad_norm": 0.4825488328933716,
      "kl": 0.02711324580013752,
      "learning_rate": 3.917813017335562e-06,
      "loss": 0.0011,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 1509
    },
    {
      "completion_length": 189.75,
      "epoch": 0.3775,
      "grad_norm": 0.6947501301765442,
      "kl": 0.04373620077967644,
      "learning_rate": 3.916015592312083e-06,
      "loss": 0.0017,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 1510
    },
    {
      "completion_length": 156.5,
      "epoch": 0.37775,
      "grad_norm": 0.613882303237915,
      "kl": 0.045684535056352615,
      "learning_rate": 3.9142170889311305e-06,
      "loss": 0.0018,
      "reward": 1.693750023841858,
      "reward_std": 0.42714792490005493,
      "rewards/_accuracy_reward": 0.6937500238418579,
      "rewards/_format_reward": 1.0,
      "step": 1511
    },
    {
      "completion_length": 177.375,
      "epoch": 0.378,
      "grad_norm": 0.01667964830994606,
      "kl": 0.03237161785364151,
      "learning_rate": 3.912417508562345e-06,
      "loss": 0.0013,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1512
    },
    {
      "completion_length": 198.5,
      "epoch": 0.37825,
      "grad_norm": 0.6279807686805725,
      "kl": 0.05605170503258705,
      "learning_rate": 3.910616852576186e-06,
      "loss": 0.0022,
      "reward": 1.21875,
      "reward_std": 0.8284828662872314,
      "rewards/_accuracy_reward": 0.46875,
      "rewards/_format_reward": 0.75,
      "step": 1513
    },
    {
      "completion_length": 101.625,
      "epoch": 0.3785,
      "grad_norm": 0.06471621990203857,
      "kl": 0.05444112420082092,
      "learning_rate": 3.908815122343929e-06,
      "loss": 0.0022,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1514
    },
    {
      "completion_length": 142.25,
      "epoch": 0.37875,
      "grad_norm": 0.6215490698814392,
      "kl": 0.04951619729399681,
      "learning_rate": 3.907012319237672e-06,
      "loss": 0.002,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 1515
    },
    {
      "completion_length": 179.875,
      "epoch": 0.379,
      "grad_norm": 0.561939001083374,
      "kl": 0.0519590750336647,
      "learning_rate": 3.905208444630326e-06,
      "loss": 0.0021,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 1516
    },
    {
      "completion_length": 126.125,
      "epoch": 0.37925,
      "grad_norm": 0.022524600848555565,
      "kl": 0.04927676171064377,
      "learning_rate": 3.903403499895624e-06,
      "loss": 0.002,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1517
    },
    {
      "completion_length": 147.875,
      "epoch": 0.3795,
      "grad_norm": 0.5980425477027893,
      "kl": 0.03771920129656792,
      "learning_rate": 3.901597486408105e-06,
      "loss": 0.0015,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 0.875,
      "step": 1518
    },
    {
      "completion_length": 130.625,
      "epoch": 0.37975,
      "grad_norm": 0.9228925704956055,
      "kl": 0.04406380653381348,
      "learning_rate": 3.899790405543129e-06,
      "loss": 0.0018,
      "reward": 1.40625,
      "reward_std": 0.49167174100875854,
      "rewards/_accuracy_reward": 0.4062499701976776,
      "rewards/_format_reward": 1.0,
      "step": 1519
    },
    {
      "completion_length": 128.625,
      "epoch": 0.38,
      "grad_norm": 0.02237652614712715,
      "kl": 0.05214867368340492,
      "learning_rate": 3.897982258676867e-06,
      "loss": 0.0021,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1520
    },
    {
      "completion_length": 152.375,
      "epoch": 0.38025,
      "grad_norm": 0.6844654679298401,
      "kl": 0.05311375483870506,
      "learning_rate": 3.896173047186302e-06,
      "loss": 0.0021,
      "reward": 1.2874999046325684,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.2874999940395355,
      "rewards/_format_reward": 1.0,
      "step": 1521
    },
    {
      "completion_length": 188.75,
      "epoch": 0.3805,
      "grad_norm": 0.5941595435142517,
      "kl": 0.06788572669029236,
      "learning_rate": 3.894362772449226e-06,
      "loss": 0.0027,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 1522
    },
    {
      "completion_length": 142.875,
      "epoch": 0.38075,
      "grad_norm": 0.7482618689537048,
      "kl": 0.05281698703765869,
      "learning_rate": 3.892551435844242e-06,
      "loss": 0.0021,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1523
    },
    {
      "completion_length": 122.625,
      "epoch": 0.381,
      "grad_norm": 0.6537103652954102,
      "kl": 0.03658046945929527,
      "learning_rate": 3.890739038750763e-06,
      "loss": 0.0015,
      "reward": 1.5199999809265137,
      "reward_std": 0.513308584690094,
      "rewards/_accuracy_reward": 0.5199999809265137,
      "rewards/_format_reward": 1.0,
      "step": 1524
    },
    {
      "completion_length": 94.625,
      "epoch": 0.38125,
      "grad_norm": 0.024736473336815834,
      "kl": 0.029560457915067673,
      "learning_rate": 3.888925582549006e-06,
      "loss": 0.0012,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1525
    },
    {
      "completion_length": 164.75,
      "epoch": 0.3815,
      "grad_norm": 0.03351657837629318,
      "kl": 0.06395187973976135,
      "learning_rate": 3.887111068619999e-06,
      "loss": 0.0026,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1526
    },
    {
      "completion_length": 129.5,
      "epoch": 0.38175,
      "grad_norm": 0.6471255421638489,
      "kl": 0.08158797770738602,
      "learning_rate": 3.885295498345572e-06,
      "loss": 0.0033,
      "reward": 1.8125,
      "reward_std": 0.3471825420856476,
      "rewards/_accuracy_reward": 0.8125,
      "rewards/_format_reward": 1.0,
      "step": 1527
    },
    {
      "completion_length": 178.25,
      "epoch": 0.382,
      "grad_norm": 0.6274938583374023,
      "kl": 0.04700816795229912,
      "learning_rate": 3.88347887310836e-06,
      "loss": 0.0019,
      "reward": 1.7625000476837158,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.762499988079071,
      "rewards/_format_reward": 1.0,
      "step": 1528
    },
    {
      "completion_length": 132.125,
      "epoch": 0.38225,
      "grad_norm": 0.7165562510490417,
      "kl": 0.058674897998571396,
      "learning_rate": 3.881661194291805e-06,
      "loss": 0.0023,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 1529
    },
    {
      "completion_length": 162.25,
      "epoch": 0.3825,
      "grad_norm": 0.027459675446152687,
      "kl": 0.06130118668079376,
      "learning_rate": 3.879842463280146e-06,
      "loss": 0.0025,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1530
    },
    {
      "completion_length": 150.375,
      "epoch": 0.38275,
      "grad_norm": 0.031655825674533844,
      "kl": 0.05282329395413399,
      "learning_rate": 3.8780226814584265e-06,
      "loss": 0.0021,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1531
    },
    {
      "completion_length": 187.75,
      "epoch": 0.383,
      "grad_norm": 0.5729331374168396,
      "kl": 0.06790616363286972,
      "learning_rate": 3.876201850212489e-06,
      "loss": 0.0027,
      "reward": 1.6437499523162842,
      "reward_std": 0.49167174100875854,
      "rewards/_accuracy_reward": 0.6437499523162842,
      "rewards/_format_reward": 1.0,
      "step": 1532
    },
    {
      "completion_length": 165.125,
      "epoch": 0.38325,
      "grad_norm": 0.02087417244911194,
      "kl": 0.038140442222356796,
      "learning_rate": 3.874379970928977e-06,
      "loss": 0.0015,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1533
    },
    {
      "completion_length": 182.5,
      "epoch": 0.3835,
      "grad_norm": 0.5951360464096069,
      "kl": 0.048477813601493835,
      "learning_rate": 3.87255704499533e-06,
      "loss": 0.0019,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 1534
    },
    {
      "completion_length": 123.5,
      "epoch": 0.38375,
      "grad_norm": 0.7089921832084656,
      "kl": 0.04717721790075302,
      "learning_rate": 3.870733073799785e-06,
      "loss": 0.0019,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1535
    },
    {
      "completion_length": 182.75,
      "epoch": 0.384,
      "grad_norm": 0.029666420072317123,
      "kl": 0.06745561957359314,
      "learning_rate": 3.868908058731376e-06,
      "loss": 0.0027,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1536
    },
    {
      "completion_length": 172.25,
      "epoch": 0.38425,
      "grad_norm": 0.719944953918457,
      "kl": 0.05279861390590668,
      "learning_rate": 3.867082001179932e-06,
      "loss": 0.0021,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1537
    },
    {
      "completion_length": 162.25,
      "epoch": 0.3845,
      "grad_norm": 0.023668771609663963,
      "kl": 0.047101955860853195,
      "learning_rate": 3.865254902536073e-06,
      "loss": 0.0019,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1538
    },
    {
      "completion_length": 154.125,
      "epoch": 0.38475,
      "grad_norm": 0.5054484009742737,
      "kl": 0.05012737214565277,
      "learning_rate": 3.863426764191216e-06,
      "loss": 0.002,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 1539
    },
    {
      "completion_length": 187.5,
      "epoch": 0.385,
      "grad_norm": 0.5208625793457031,
      "kl": 0.04712379723787308,
      "learning_rate": 3.861597587537568e-06,
      "loss": 0.0019,
      "reward": 1.2687499523162842,
      "reward_std": 0.6999680995941162,
      "rewards/_accuracy_reward": 0.5187499523162842,
      "rewards/_format_reward": 0.75,
      "step": 1540
    },
    {
      "completion_length": 117.5,
      "epoch": 0.38525,
      "grad_norm": 0.6336519718170166,
      "kl": 0.07700920104980469,
      "learning_rate": 3.8597673739681265e-06,
      "loss": 0.0031,
      "reward": 1.8125,
      "reward_std": 0.3471825420856476,
      "rewards/_accuracy_reward": 0.8125,
      "rewards/_format_reward": 1.0,
      "step": 1541
    },
    {
      "completion_length": 190.375,
      "epoch": 0.3855,
      "grad_norm": 0.5653288960456848,
      "kl": 0.05022215470671654,
      "learning_rate": 3.857936124876677e-06,
      "loss": 0.002,
      "reward": 1.3937499523162842,
      "reward_std": 0.7336004972457886,
      "rewards/_accuracy_reward": 0.5187499523162842,
      "rewards/_format_reward": 0.875,
      "step": 1542
    },
    {
      "completion_length": 174.25,
      "epoch": 0.38575,
      "grad_norm": 0.7070077061653137,
      "kl": 0.056165359914302826,
      "learning_rate": 3.856103841657797e-06,
      "loss": 0.0022,
      "reward": 1.756250023841858,
      "reward_std": 0.45153507590293884,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 0.875,
      "step": 1543
    },
    {
      "completion_length": 190.625,
      "epoch": 0.386,
      "grad_norm": 0.03828784078359604,
      "kl": 0.0686645433306694,
      "learning_rate": 3.85427052570685e-06,
      "loss": 0.0027,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1544
    },
    {
      "completion_length": 167.0,
      "epoch": 0.38625,
      "grad_norm": 0.5596043467521667,
      "kl": 0.052377849817276,
      "learning_rate": 3.8524361784199855e-06,
      "loss": 0.0021,
      "reward": 1.6262500286102295,
      "reward_std": 0.7428312301635742,
      "rewards/_accuracy_reward": 0.7512500286102295,
      "rewards/_format_reward": 0.875,
      "step": 1545
    },
    {
      "completion_length": 158.0,
      "epoch": 0.3865,
      "grad_norm": 0.03330124169588089,
      "kl": 0.03650851547718048,
      "learning_rate": 3.850600801194138e-06,
      "loss": 0.0015,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1546
    },
    {
      "completion_length": 128.5,
      "epoch": 0.38675,
      "grad_norm": 0.5438423752784729,
      "kl": 0.03633885830640793,
      "learning_rate": 3.8487643954270274e-06,
      "loss": 0.0015,
      "reward": 1.8762500286102295,
      "reward_std": 0.35001784563064575,
      "rewards/_accuracy_reward": 0.8762500286102295,
      "rewards/_format_reward": 1.0,
      "step": 1547
    },
    {
      "completion_length": 149.75,
      "epoch": 0.387,
      "grad_norm": 0.6018542647361755,
      "kl": 0.05037950351834297,
      "learning_rate": 3.846926962517158e-06,
      "loss": 0.002,
      "reward": 1.6437499523162842,
      "reward_std": 0.49167174100875854,
      "rewards/_accuracy_reward": 0.6437499523162842,
      "rewards/_format_reward": 1.0,
      "step": 1548
    },
    {
      "completion_length": 130.875,
      "epoch": 0.38725,
      "grad_norm": 0.7819284796714783,
      "kl": 0.059603843837976456,
      "learning_rate": 3.845088503863813e-06,
      "loss": 0.0024,
      "reward": 1.40625,
      "reward_std": 0.49167174100875854,
      "rewards/_accuracy_reward": 0.4062499701976776,
      "rewards/_format_reward": 1.0,
      "step": 1549
    },
    {
      "completion_length": 175.125,
      "epoch": 0.3875,
      "grad_norm": 0.5813125371932983,
      "kl": 0.06442350149154663,
      "learning_rate": 3.8432490208670605e-06,
      "loss": 0.0026,
      "reward": 1.0374999046325684,
      "reward_std": 0.5350233912467957,
      "rewards/_accuracy_reward": 0.16249999403953552,
      "rewards/_format_reward": 0.875,
      "step": 1550
    },
    {
      "completion_length": 182.25,
      "epoch": 0.38775,
      "grad_norm": 0.6130213737487793,
      "kl": 0.06105250120162964,
      "learning_rate": 3.8414085149277445e-06,
      "loss": 0.0024,
      "reward": 1.40625,
      "reward_std": 0.9057110548019409,
      "rewards/_accuracy_reward": 0.65625,
      "rewards/_format_reward": 0.75,
      "step": 1551
    },
    {
      "completion_length": 138.875,
      "epoch": 0.388,
      "grad_norm": 0.0351678803563118,
      "kl": 0.05961094796657562,
      "learning_rate": 3.839566987447492e-06,
      "loss": 0.0024,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1552
    },
    {
      "completion_length": 178.0,
      "epoch": 0.38825,
      "grad_norm": 0.5075997114181519,
      "kl": 0.05547872185707092,
      "learning_rate": 3.8377244398287065e-06,
      "loss": 0.0022,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 1553
    },
    {
      "completion_length": 123.625,
      "epoch": 0.3885,
      "grad_norm": 0.6791297793388367,
      "kl": 0.0307548139244318,
      "learning_rate": 3.835880873474567e-06,
      "loss": 0.0012,
      "reward": 1.7625000476837158,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.762499988079071,
      "rewards/_format_reward": 1.0,
      "step": 1554
    },
    {
      "completion_length": 159.5,
      "epoch": 0.38875,
      "grad_norm": 0.021484725177288055,
      "kl": 0.04366430640220642,
      "learning_rate": 3.83403628978903e-06,
      "loss": 0.0017,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1555
    },
    {
      "completion_length": 148.875,
      "epoch": 0.389,
      "grad_norm": 0.501158595085144,
      "kl": 0.06199439615011215,
      "learning_rate": 3.832190690176825e-06,
      "loss": 0.0025,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 1556
    },
    {
      "completion_length": 142.75,
      "epoch": 0.38925,
      "grad_norm": 0.5822856426239014,
      "kl": 0.04813998565077782,
      "learning_rate": 3.830344076043459e-06,
      "loss": 0.0019,
      "reward": 1.7574999332427979,
      "reward_std": 0.4491499960422516,
      "rewards/_accuracy_reward": 0.7575000524520874,
      "rewards/_format_reward": 1.0,
      "step": 1557
    },
    {
      "completion_length": 178.0,
      "epoch": 0.3895,
      "grad_norm": 0.517787516117096,
      "kl": 0.07786907255649567,
      "learning_rate": 3.828496448795208e-06,
      "loss": 0.0031,
      "reward": 1.65625,
      "reward_std": 0.7188470363616943,
      "rewards/_accuracy_reward": 0.78125,
      "rewards/_format_reward": 0.875,
      "step": 1558
    },
    {
      "completion_length": 167.375,
      "epoch": 0.38975,
      "grad_norm": 0.5909892320632935,
      "kl": 0.05643405765295029,
      "learning_rate": 3.826647809839119e-06,
      "loss": 0.0023,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1559
    },
    {
      "completion_length": 133.125,
      "epoch": 0.39,
      "grad_norm": 0.6651085019111633,
      "kl": 0.05972522869706154,
      "learning_rate": 3.824798160583012e-06,
      "loss": 0.0024,
      "reward": 1.40625,
      "reward_std": 0.49167174100875854,
      "rewards/_accuracy_reward": 0.4062499701976776,
      "rewards/_format_reward": 1.0,
      "step": 1560
    },
    {
      "completion_length": 102.75,
      "epoch": 0.39025,
      "grad_norm": 0.022245794534683228,
      "kl": 0.039669353514909744,
      "learning_rate": 3.822947502435477e-06,
      "loss": 0.0016,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1561
    },
    {
      "completion_length": 186.75,
      "epoch": 0.3905,
      "grad_norm": 0.6299328207969666,
      "kl": 0.07042766362428665,
      "learning_rate": 3.821095836805868e-06,
      "loss": 0.0028,
      "reward": 1.5125000476837158,
      "reward_std": 0.7467787861824036,
      "rewards/_accuracy_reward": 0.637499988079071,
      "rewards/_format_reward": 0.875,
      "step": 1562
    },
    {
      "completion_length": 171.5,
      "epoch": 0.39075,
      "grad_norm": 0.026600031182169914,
      "kl": 0.05926269665360451,
      "learning_rate": 3.819243165104311e-06,
      "loss": 0.0024,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1563
    },
    {
      "completion_length": 126.625,
      "epoch": 0.391,
      "grad_norm": 0.6196228861808777,
      "kl": 0.04901750385761261,
      "learning_rate": 3.817389488741694e-06,
      "loss": 0.002,
      "reward": 1.631250023841858,
      "reward_std": 0.738210916519165,
      "rewards/_accuracy_reward": 0.7562500238418579,
      "rewards/_format_reward": 0.875,
      "step": 1564
    },
    {
      "completion_length": 133.25,
      "epoch": 0.39125,
      "grad_norm": 0.6434496641159058,
      "kl": 0.0704207792878151,
      "learning_rate": 3.815534809129674e-06,
      "loss": 0.0028,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 1565
    },
    {
      "completion_length": 95.375,
      "epoch": 0.3915,
      "grad_norm": 0.6863855719566345,
      "kl": 0.07160824537277222,
      "learning_rate": 3.8136791276806695e-06,
      "loss": 0.0029,
      "reward": 1.568750023841858,
      "reward_std": 0.4689939618110657,
      "rewards/_accuracy_reward": 0.6937500238418579,
      "rewards/_format_reward": 0.875,
      "step": 1566
    },
    {
      "completion_length": 97.5,
      "epoch": 0.39175,
      "grad_norm": 0.8386607766151428,
      "kl": 0.050130948424339294,
      "learning_rate": 3.8118224458078633e-06,
      "loss": 0.002,
      "reward": 1.71875,
      "reward_std": 0.38816189765930176,
      "rewards/_accuracy_reward": 0.71875,
      "rewards/_format_reward": 1.0,
      "step": 1567
    },
    {
      "completion_length": 185.625,
      "epoch": 0.392,
      "grad_norm": 0.7192432284355164,
      "kl": 0.07506588846445084,
      "learning_rate": 3.8099647649251984e-06,
      "loss": 0.003,
      "reward": 1.381250023841858,
      "reward_std": 0.9133679866790771,
      "rewards/_accuracy_reward": 0.6312500238418579,
      "rewards/_format_reward": 0.75,
      "step": 1568
    },
    {
      "completion_length": 197.25,
      "epoch": 0.39225,
      "grad_norm": 0.5353832244873047,
      "kl": 0.0634760856628418,
      "learning_rate": 3.8081060864473794e-06,
      "loss": 0.0025,
      "reward": 1.1387499570846558,
      "reward_std": 0.8324737548828125,
      "rewards/_accuracy_reward": 0.38874998688697815,
      "rewards/_format_reward": 0.75,
      "step": 1569
    },
    {
      "completion_length": 117.125,
      "epoch": 0.3925,
      "grad_norm": 0.019449777901172638,
      "kl": 0.057256847620010376,
      "learning_rate": 3.806246411789872e-06,
      "loss": 0.0023,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1570
    },
    {
      "completion_length": 195.25,
      "epoch": 0.39275,
      "grad_norm": 0.6402668356895447,
      "kl": 0.0625515803694725,
      "learning_rate": 3.8043857423688995e-06,
      "loss": 0.0025,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/_accuracy_reward": 0.875,
      "rewards/_format_reward": 0.875,
      "step": 1571
    },
    {
      "completion_length": 119.75,
      "epoch": 0.393,
      "grad_norm": 0.6904266476631165,
      "kl": 0.04785230755805969,
      "learning_rate": 3.802524079601442e-06,
      "loss": 0.0019,
      "reward": 1.693750023841858,
      "reward_std": 0.4271479547023773,
      "rewards/_accuracy_reward": 0.6937500238418579,
      "rewards/_format_reward": 1.0,
      "step": 1572
    },
    {
      "completion_length": 130.75,
      "epoch": 0.39325,
      "grad_norm": 0.5492718815803528,
      "kl": 0.039260704070329666,
      "learning_rate": 3.8006614249052353e-06,
      "loss": 0.0016,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 1573
    },
    {
      "completion_length": 161.25,
      "epoch": 0.3935,
      "grad_norm": 0.030837608501315117,
      "kl": 0.07404318451881409,
      "learning_rate": 3.798797779698774e-06,
      "loss": 0.003,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1574
    },
    {
      "completion_length": 123.625,
      "epoch": 0.39375,
      "grad_norm": 0.02218150906264782,
      "kl": 0.07550845295190811,
      "learning_rate": 3.796933145401304e-06,
      "loss": 0.003,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1575
    },
    {
      "completion_length": 94.0,
      "epoch": 0.394,
      "grad_norm": 0.9086791276931763,
      "kl": 0.055962108075618744,
      "learning_rate": 3.795067523432826e-06,
      "loss": 0.0022,
      "reward": 1.7625000476837158,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.762499988079071,
      "rewards/_format_reward": 1.0,
      "step": 1576
    },
    {
      "completion_length": 158.125,
      "epoch": 0.39425,
      "grad_norm": 0.7055941224098206,
      "kl": 0.05105192959308624,
      "learning_rate": 3.7932009152140926e-06,
      "loss": 0.002,
      "reward": 1.5,
      "reward_std": 0.9258201122283936,
      "rewards/_accuracy_reward": 0.75,
      "rewards/_format_reward": 0.75,
      "step": 1577
    },
    {
      "completion_length": 153.875,
      "epoch": 0.3945,
      "grad_norm": 0.6992962956428528,
      "kl": 0.06621918827295303,
      "learning_rate": 3.791333322166605e-06,
      "loss": 0.0026,
      "reward": 1.5125000476837158,
      "reward_std": 0.7467787861824036,
      "rewards/_accuracy_reward": 0.6375000476837158,
      "rewards/_format_reward": 0.875,
      "step": 1578
    },
    {
      "completion_length": 111.875,
      "epoch": 0.39475,
      "grad_norm": 0.025215838104486465,
      "kl": 0.04421816021203995,
      "learning_rate": 3.7894647457126188e-06,
      "loss": 0.0018,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1579
    },
    {
      "completion_length": 139.0,
      "epoch": 0.395,
      "grad_norm": 0.020408930256962776,
      "kl": 0.04933981969952583,
      "learning_rate": 3.787595187275136e-06,
      "loss": 0.002,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1580
    },
    {
      "completion_length": 165.5,
      "epoch": 0.39525,
      "grad_norm": 0.030607668682932854,
      "kl": 0.060726772993803024,
      "learning_rate": 3.7857246482779052e-06,
      "loss": 0.0024,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1581
    },
    {
      "completion_length": 150.875,
      "epoch": 0.3955,
      "grad_norm": 0.6549018621444702,
      "kl": 0.0552009716629982,
      "learning_rate": 3.7838531301454257e-06,
      "loss": 0.0022,
      "reward": 1.7625000476837158,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.762499988079071,
      "rewards/_format_reward": 1.0,
      "step": 1582
    },
    {
      "completion_length": 168.625,
      "epoch": 0.39575,
      "grad_norm": 0.7822985649108887,
      "kl": 0.07485631853342056,
      "learning_rate": 3.7819806343029373e-06,
      "loss": 0.003,
      "reward": 1.881250023841858,
      "reward_std": 0.3358757197856903,
      "rewards/_accuracy_reward": 0.8812500238418579,
      "rewards/_format_reward": 1.0,
      "step": 1583
    },
    {
      "completion_length": 128.0,
      "epoch": 0.396,
      "grad_norm": 0.709174633026123,
      "kl": 0.04844846948981285,
      "learning_rate": 3.780107162176429e-06,
      "loss": 0.0019,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1584
    },
    {
      "completion_length": 137.75,
      "epoch": 0.39625,
      "grad_norm": 0.696996808052063,
      "kl": 0.04638068005442619,
      "learning_rate": 3.77823271519263e-06,
      "loss": 0.0019,
      "reward": 1.6387500762939453,
      "reward_std": 0.49872517585754395,
      "rewards/_accuracy_reward": 0.6387499570846558,
      "rewards/_format_reward": 1.0,
      "step": 1585
    },
    {
      "completion_length": 124.5,
      "epoch": 0.3965,
      "grad_norm": 0.02669079601764679,
      "kl": 0.05704856663942337,
      "learning_rate": 3.776357294779015e-06,
      "loss": 0.0023,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1586
    },
    {
      "completion_length": 163.375,
      "epoch": 0.39675,
      "grad_norm": 0.6654564738273621,
      "kl": 0.0693705603480339,
      "learning_rate": 3.774480902363795e-06,
      "loss": 0.0028,
      "reward": 1.4187500476837158,
      "reward_std": 0.7235515117645264,
      "rewards/_accuracy_reward": 0.5437500476837158,
      "rewards/_format_reward": 0.875,
      "step": 1587
    },
    {
      "completion_length": 143.5,
      "epoch": 0.397,
      "grad_norm": 0.5335232615470886,
      "kl": 0.04081644117832184,
      "learning_rate": 3.772603539375929e-06,
      "loss": 0.0016,
      "reward": 1.6375000476837158,
      "reward_std": 0.5005354285240173,
      "rewards/_accuracy_reward": 0.762499988079071,
      "rewards/_format_reward": 0.875,
      "step": 1588
    },
    {
      "completion_length": 113.625,
      "epoch": 0.39725,
      "grad_norm": 0.7147615551948547,
      "kl": 0.04324035719037056,
      "learning_rate": 3.770725207245106e-06,
      "loss": 0.0017,
      "reward": 1.90625,
      "reward_std": 0.2651650309562683,
      "rewards/_accuracy_reward": 0.90625,
      "rewards/_format_reward": 1.0,
      "step": 1589
    },
    {
      "completion_length": 154.0,
      "epoch": 0.3975,
      "grad_norm": 0.6111875772476196,
      "kl": 0.0737532302737236,
      "learning_rate": 3.768845907401761e-06,
      "loss": 0.003,
      "reward": 1.2874999046325684,
      "reward_std": 0.4397645592689514,
      "rewards/_accuracy_reward": 0.28749996423721313,
      "rewards/_format_reward": 1.0,
      "step": 1590
    },
    {
      "completion_length": 143.875,
      "epoch": 0.39775,
      "grad_norm": 0.6925716996192932,
      "kl": 0.0703587755560875,
      "learning_rate": 3.7669656412770605e-06,
      "loss": 0.0028,
      "reward": 1.0587499141693115,
      "reward_std": 0.5271334052085876,
      "rewards/_accuracy_reward": 0.1837500035762787,
      "rewards/_format_reward": 0.875,
      "step": 1591
    },
    {
      "completion_length": 157.875,
      "epoch": 0.398,
      "grad_norm": 0.5909250974655151,
      "kl": 0.04481671750545502,
      "learning_rate": 3.7650844103029093e-06,
      "loss": 0.0018,
      "reward": 1.5199999809265137,
      "reward_std": 0.5133086442947388,
      "rewards/_accuracy_reward": 0.5199999809265137,
      "rewards/_format_reward": 1.0,
      "step": 1592
    },
    {
      "completion_length": 173.75,
      "epoch": 0.39825,
      "grad_norm": 0.041420962661504745,
      "kl": 0.07704256474971771,
      "learning_rate": 3.763202215911948e-06,
      "loss": 0.0031,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1593
    },
    {
      "completion_length": 123.0,
      "epoch": 0.3985,
      "grad_norm": 0.033740244805812836,
      "kl": 0.046596985310316086,
      "learning_rate": 3.7613190595375484e-06,
      "loss": 0.0019,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1594
    },
    {
      "completion_length": 173.5,
      "epoch": 0.39875,
      "grad_norm": 0.6274866461753845,
      "kl": 0.06995417177677155,
      "learning_rate": 3.759434942613816e-06,
      "loss": 0.0028,
      "reward": 1.524999976158142,
      "reward_std": 0.5077964067459106,
      "rewards/_accuracy_reward": 0.5249999761581421,
      "rewards/_format_reward": 1.0,
      "step": 1595
    },
    {
      "completion_length": 133.25,
      "epoch": 0.399,
      "grad_norm": 0.02433399297297001,
      "kl": 0.06196637451648712,
      "learning_rate": 3.7575498665755884e-06,
      "loss": 0.0025,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 1.0,
      "step": 1596
    },
    {
      "completion_length": 171.75,
      "epoch": 0.39925,
      "grad_norm": 0.5644596815109253,
      "kl": 0.07158312946557999,
      "learning_rate": 3.7556638328584314e-06,
      "loss": 0.0029,
      "reward": 1.5,
      "reward_std": 0.9258201122283936,
      "rewards/_accuracy_reward": 0.75,
      "rewards/_format_reward": 0.75,
      "step": 1597
    },
    {
      "completion_length": 140.75,
      "epoch": 0.3995,
      "grad_norm": 0.6017252802848816,
      "kl": 0.058312345296144485,
      "learning_rate": 3.753776842898644e-06,
      "loss": 0.0023,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/_accuracy_reward": 1.0,
      "rewards/_format_reward": 0.875,
      "step": 1598
    },
    {
      "completion_length": 162.125,
      "epoch": 0.39975,
      "grad_norm": 0.6574504375457764,
      "kl": 0.06590811908245087,
      "learning_rate": 3.751888898133249e-06,
      "loss": 0.0026,
      "reward": 1.3125,
      "reward_std": 0.4299086630344391,
      "rewards/_accuracy_reward": 0.3124999701976776,
      "rewards/_format_reward": 1.0,
      "step": 1599
    },
    {
      "completion_length": 179.0,
      "epoch": 0.4,
      "grad_norm": 0.533219575881958,
      "kl": 0.07962776720523834,
      "learning_rate": 3.7500000000000005e-06,
      "loss": 0.0032,
      "reward": 1.506250023841858,
      "reward_std": 0.7513975501060486,
      "rewards/_accuracy_reward": 0.7562500238418579,
      "rewards/_format_reward": 0.75,
      "step": 1600
    }
  ],
  "logging_steps": 1,
  "max_steps": 4000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 100,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}