{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.08333333333333333,
  "eval_steps": 500,
  "global_step": 1000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "completion_length": 250.0,
      "epoch": 8.333333333333333e-05,
      "grad_norm": 5370.26904296875,
      "kl": 1680.79296875,
      "learning_rate": 5.0000000000000004e-08,
      "loss": 67.2317,
      "reward": 0.4166666865348816,
      "reward_std": 0.49601587653160095,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.0416666679084301,
      "step": 1
    },
    {
      "completion_length": 250.0,
      "epoch": 0.00016666666666666666,
      "grad_norm": 2.1227879524230957,
      "kl": 0.3190357983112335,
      "learning_rate": 1.0000000000000001e-07,
      "loss": 0.0128,
      "reward": 0.0416666679084301,
      "reward_std": 0.1178511381149292,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0416666679084301,
      "step": 2
    },
    {
      "completion_length": 250.0,
      "epoch": 0.00025,
      "grad_norm": 1779814.75,
      "kl": 204788.625,
      "learning_rate": 1.5000000000000002e-07,
      "loss": 8191.5454,
      "reward": 0.1666666716337204,
      "reward_std": 0.35634833574295044,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.0416666679084301,
      "step": 3
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0003333333333333333,
      "grad_norm": 3.283656358718872,
      "kl": 1.0824432373046875,
      "learning_rate": 2.0000000000000002e-07,
      "loss": 0.0433,
      "reward": 0.0416666679084301,
      "reward_std": 0.1178511381149292,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0416666679084301,
      "step": 4
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0004166666666666667,
      "grad_norm": 2.5271332263946533,
      "kl": 0.6556969881057739,
      "learning_rate": 2.5000000000000004e-07,
      "loss": 0.0262,
      "reward": 0.0416666679084301,
      "reward_std": 0.1178511381149292,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0416666679084301,
      "step": 5
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0005,
      "grad_norm": 1.6124398708343506,
      "kl": 0.33115604519844055,
      "learning_rate": 3.0000000000000004e-07,
      "loss": 0.0132,
      "reward": 0.0833333358168602,
      "reward_std": 0.15430335700511932,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0833333358168602,
      "step": 6
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0005833333333333334,
      "grad_norm": 1.7685329914093018,
      "kl": 0.4470013380050659,
      "learning_rate": 3.5000000000000004e-07,
      "loss": 0.0179,
      "reward": 0.2916666865348816,
      "reward_std": 0.4520675837993622,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.2916666865348816,
      "step": 7
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0006666666666666666,
      "grad_norm": 0.2993689179420471,
      "kl": 0.24829219281673431,
      "learning_rate": 4.0000000000000003e-07,
      "loss": 0.0099,
      "reward": 0.0833333358168602,
      "reward_std": 0.2357022762298584,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0833333358168602,
      "step": 8
    },
    {
      "completion_length": 250.0,
      "epoch": 0.00075,
      "grad_norm": 995.0140991210938,
      "kl": 280.3321533203125,
      "learning_rate": 4.5000000000000003e-07,
      "loss": 11.2133,
      "reward": 0.25,
      "reward_std": 0.7071067690849304,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.125,
      "step": 9
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0008333333333333334,
      "grad_norm": 0.5820446014404297,
      "kl": 0.38791656494140625,
      "learning_rate": 5.000000000000001e-07,
      "loss": 0.0155,
      "reward": 0.125,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.0,
      "step": 10
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0009166666666666666,
      "grad_norm": 2.4436404705047607,
      "kl": 0.6116478443145752,
      "learning_rate": 5.5e-07,
      "loss": 0.0245,
      "reward": 0.0833333358168602,
      "reward_std": 0.2357022762298584,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0833333358168602,
      "step": 11
    },
    {
      "completion_length": 250.0,
      "epoch": 0.001,
      "grad_norm": 5655916544.0,
      "kl": 771800640.0,
      "learning_rate": 6.000000000000001e-07,
      "loss": 30872024.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0,
      "step": 12
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0010833333333333333,
      "grad_norm": 15.001657485961914,
      "kl": 3.9553842544555664,
      "learning_rate": 6.5e-07,
      "loss": 0.1582,
      "reward": 0.0416666679084301,
      "reward_std": 0.1178511381149292,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0416666679084301,
      "step": 13
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0011666666666666668,
      "grad_norm": 24.87034034729004,
      "kl": 6.287238121032715,
      "learning_rate": 7.000000000000001e-07,
      "loss": 0.2515,
      "reward": 0.0416666679084301,
      "reward_std": 0.1178511381149292,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0416666679084301,
      "step": 14
    },
    {
      "completion_length": 250.0,
      "epoch": 0.00125,
      "grad_norm": 0.8860446214675903,
      "kl": 0.7432097792625427,
      "learning_rate": 7.5e-07,
      "loss": 0.0297,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0,
      "step": 15
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0013333333333333333,
      "grad_norm": 16639295488.0,
      "kl": 2705503488.0,
      "learning_rate": 8.000000000000001e-07,
      "loss": 108220136.0,
      "reward": 0.1666666716337204,
      "reward_std": 0.35634833574295044,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.0416666679084301,
      "step": 16
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0014166666666666668,
      "grad_norm": 0.05391894653439522,
      "kl": 0.284786581993103,
      "learning_rate": 8.500000000000001e-07,
      "loss": 0.0114,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0,
      "step": 17
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0015,
      "grad_norm": 1350.6583251953125,
      "kl": 165.6782989501953,
      "learning_rate": 9.000000000000001e-07,
      "loss": 6.6271,
      "reward": 0.0416666679084301,
      "reward_std": 0.1178511381149292,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0416666679084301,
      "step": 18
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0015833333333333333,
      "grad_norm": 26.208847045898438,
      "kl": 4.027891635894775,
      "learning_rate": 9.500000000000001e-07,
      "loss": 0.1611,
      "reward": 0.25,
      "reward_std": 0.4629100561141968,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.25,
      "step": 19
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0016666666666666668,
      "grad_norm": 1.4429972171783447,
      "kl": 0.31500595808029175,
      "learning_rate": 1.0000000000000002e-06,
      "loss": 0.0126,
      "reward": 0.1666666716337204,
      "reward_std": 0.30860671401023865,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.1666666716337204,
      "step": 20
    },
    {
      "completion_length": 250.0,
      "epoch": 0.00175,
      "grad_norm": 0.10234619677066803,
      "kl": 0.3105039894580841,
      "learning_rate": 1.0500000000000001e-06,
      "loss": 0.0124,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0,
      "step": 21
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0018333333333333333,
      "grad_norm": 0.3241354525089264,
      "kl": 0.26765021681785583,
      "learning_rate": 1.1e-06,
      "loss": 0.0107,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0,
      "step": 22
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0019166666666666666,
      "grad_norm": 1.2852263450622559,
      "kl": 0.31648027896881104,
      "learning_rate": 1.1500000000000002e-06,
      "loss": 0.0127,
      "reward": 0.25,
      "reward_std": 0.4629100561141968,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.0,
      "step": 23
    },
    {
      "completion_length": 250.0,
      "epoch": 0.002,
      "grad_norm": 2.508118152618408,
      "kl": 0.2790696918964386,
      "learning_rate": 1.2000000000000002e-06,
      "loss": 0.0112,
      "reward": 0.0416666679084301,
      "reward_std": 0.1178511381149292,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0416666679084301,
      "step": 24
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0020833333333333333,
      "grad_norm": 254.1594696044922,
      "kl": 28.16029930114746,
      "learning_rate": 1.25e-06,
      "loss": 1.1264,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0,
      "step": 25
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0021666666666666666,
      "grad_norm": 47.175018310546875,
      "kl": 3.506722927093506,
      "learning_rate": 1.3e-06,
      "loss": 0.1403,
      "reward": 0.0416666679084301,
      "reward_std": 0.1178511381149292,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0416666679084301,
      "step": 26
    },
    {
      "completion_length": 250.0,
      "epoch": 0.00225,
      "grad_norm": 514.6583862304688,
      "kl": 64.28365325927734,
      "learning_rate": 1.3500000000000002e-06,
      "loss": 2.5713,
      "reward": 0.0416666679084301,
      "reward_std": 0.1178511381149292,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0416666679084301,
      "step": 27
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0023333333333333335,
      "grad_norm": 0.4107680916786194,
      "kl": 0.31204113364219666,
      "learning_rate": 1.4000000000000001e-06,
      "loss": 0.0125,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0,
      "step": 28
    },
    {
      "completion_length": 250.0,
      "epoch": 0.002416666666666667,
      "grad_norm": 242400784.0,
      "kl": 28910430.0,
      "learning_rate": 1.45e-06,
      "loss": 1156417.25,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0,
      "step": 29
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0025,
      "grad_norm": 0.3205853998661041,
      "kl": 0.24721822142601013,
      "learning_rate": 1.5e-06,
      "loss": 0.0099,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0,
      "step": 30
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0025833333333333333,
      "grad_norm": 4.041526794433594,
      "kl": 1.1066405773162842,
      "learning_rate": 1.5500000000000002e-06,
      "loss": 0.0443,
      "reward": 0.0833333358168602,
      "reward_std": 0.15430335700511932,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0833333358168602,
      "step": 31
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0026666666666666666,
      "grad_norm": 160318.890625,
      "kl": 8970.6455078125,
      "learning_rate": 1.6000000000000001e-06,
      "loss": 358.8259,
      "reward": 0.375,
      "reward_std": 0.4520675837993622,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.375,
      "step": 32
    },
    {
      "completion_length": 250.0,
      "epoch": 0.00275,
      "grad_norm": 0.11564349383115768,
      "kl": 0.3156932294368744,
      "learning_rate": 1.6500000000000003e-06,
      "loss": 0.0126,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0,
      "step": 33
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0028333333333333335,
      "grad_norm": 11.49873161315918,
      "kl": 3.654203176498413,
      "learning_rate": 1.7000000000000002e-06,
      "loss": 0.1462,
      "reward": 0.1666666716337204,
      "reward_std": 0.35634833574295044,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.0416666679084301,
      "step": 34
    },
    {
      "completion_length": 250.0,
      "epoch": 0.002916666666666667,
      "grad_norm": 3.487309455871582,
      "kl": 0.47985804080963135,
      "learning_rate": 1.75e-06,
      "loss": 0.0192,
      "reward": 0.0416666679084301,
      "reward_std": 0.1178511381149292,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0416666679084301,
      "step": 35
    },
    {
      "completion_length": 250.0,
      "epoch": 0.003,
      "grad_norm": 1.3627883195877075,
      "kl": 0.7914985418319702,
      "learning_rate": 1.8000000000000001e-06,
      "loss": 0.0317,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0,
      "step": 36
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0030833333333333333,
      "grad_norm": 0.7565972208976746,
      "kl": 0.2916364371776581,
      "learning_rate": 1.85e-06,
      "loss": 0.0117,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0,
      "step": 37
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0031666666666666666,
      "grad_norm": 230.62786865234375,
      "kl": 28.600061416625977,
      "learning_rate": 1.9000000000000002e-06,
      "loss": 1.144,
      "reward": 0.0416666679084301,
      "reward_std": 0.1178511381149292,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0416666679084301,
      "step": 38
    },
    {
      "completion_length": 250.0,
      "epoch": 0.00325,
      "grad_norm": 14.349813461303711,
      "kl": 2.471902847290039,
      "learning_rate": 1.9500000000000004e-06,
      "loss": 0.0989,
      "reward": 0.125,
      "reward_std": 0.24800793826580048,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.125,
      "step": 39
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0033333333333333335,
      "grad_norm": 0.34092557430267334,
      "kl": 0.2546476423740387,
      "learning_rate": 2.0000000000000003e-06,
      "loss": 0.0102,
      "reward": 0.0833333358168602,
      "reward_std": 0.15430335700511932,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0833333358168602,
      "step": 40
    },
    {
      "completion_length": 250.0,
      "epoch": 0.003416666666666667,
      "grad_norm": 2.506922483444214,
      "kl": 0.2611209452152252,
      "learning_rate": 2.05e-06,
      "loss": 0.0104,
      "reward": 0.375,
      "reward_std": 0.7440237998962402,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.25,
      "step": 41
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0035,
      "grad_norm": 2.241769790649414,
      "kl": 0.6660223603248596,
      "learning_rate": 2.1000000000000002e-06,
      "loss": 0.0266,
      "reward": 0.125,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.125,
      "step": 42
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0035833333333333333,
      "grad_norm": 0.8412100076675415,
      "kl": 0.35636767745018005,
      "learning_rate": 2.15e-06,
      "loss": 0.0143,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0,
      "step": 43
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0036666666666666666,
      "grad_norm": 3.74702525138855,
      "kl": 1.0497126579284668,
      "learning_rate": 2.2e-06,
      "loss": 0.042,
      "reward": 0.0833333358168602,
      "reward_std": 0.15430335700511932,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0833333358168602,
      "step": 44
    },
    {
      "completion_length": 250.0,
      "epoch": 0.00375,
      "grad_norm": 0.1603858321905136,
      "kl": 0.2380465269088745,
      "learning_rate": 2.25e-06,
      "loss": 0.0095,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0,
      "step": 45
    },
    {
      "completion_length": 250.0,
      "epoch": 0.003833333333333333,
      "grad_norm": 3.948719024658203,
      "kl": 0.958899974822998,
      "learning_rate": 2.3000000000000004e-06,
      "loss": 0.0384,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0,
      "step": 46
    },
    {
      "completion_length": 250.0,
      "epoch": 0.003916666666666666,
      "grad_norm": 0.3620174825191498,
      "kl": 0.24766167998313904,
      "learning_rate": 2.35e-06,
      "loss": 0.0099,
      "reward": 0.125,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.125,
      "step": 47
    },
    {
      "completion_length": 250.0,
      "epoch": 0.004,
      "grad_norm": 0.1155853196978569,
      "kl": 0.26840996742248535,
      "learning_rate": 2.4000000000000003e-06,
      "loss": 0.0107,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0,
      "step": 48
    },
    {
      "completion_length": 250.0,
      "epoch": 0.004083333333333333,
      "grad_norm": 19.22943878173828,
      "kl": 2.2793242931365967,
      "learning_rate": 2.4500000000000003e-06,
      "loss": 0.0912,
      "reward": 0.0416666679084301,
      "reward_std": 0.1178511381149292,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0416666679084301,
      "step": 49
    },
    {
      "completion_length": 250.0,
      "epoch": 0.004166666666666667,
      "grad_norm": 2.660940647125244,
      "kl": 0.9060783386230469,
      "learning_rate": 2.5e-06,
      "loss": 0.0362,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0,
      "step": 50
    },
    {
      "completion_length": 250.0,
      "epoch": 0.00425,
      "grad_norm": 2.71610426902771,
      "kl": 0.7481005191802979,
      "learning_rate": 2.55e-06,
      "loss": 0.0299,
      "reward": 0.0833333358168602,
      "reward_std": 0.2357022762298584,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0833333358168602,
      "step": 51
    },
    {
      "completion_length": 250.0,
      "epoch": 0.004333333333333333,
      "grad_norm": 4604.9912109375,
      "kl": 107.24817657470703,
      "learning_rate": 2.6e-06,
      "loss": 4.2899,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0,
      "step": 52
    },
    {
      "completion_length": 250.0,
      "epoch": 0.004416666666666667,
      "grad_norm": 0.5669422745704651,
      "kl": 0.31511324644088745,
      "learning_rate": 2.6500000000000005e-06,
      "loss": 0.0126,
      "reward": 0.0416666679084301,
      "reward_std": 0.1178511381149292,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0416666679084301,
      "step": 53
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0045,
      "grad_norm": 669.4596557617188,
      "kl": 16.526533126831055,
      "learning_rate": 2.7000000000000004e-06,
      "loss": 0.6611,
      "reward": 0.2083333432674408,
      "reward_std": 0.39591166377067566,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.2083333432674408,
      "step": 54
    },
    {
      "completion_length": 250.0,
      "epoch": 0.004583333333333333,
      "grad_norm": 1.862663745880127,
      "kl": 0.26984715461730957,
      "learning_rate": 2.7500000000000004e-06,
      "loss": 0.0108,
      "reward": 0.0416666679084301,
      "reward_std": 0.1178511381149292,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0416666679084301,
      "step": 55
    },
    {
      "completion_length": 250.0,
      "epoch": 0.004666666666666667,
      "grad_norm": 0.026774972677230835,
      "kl": 0.22219908237457275,
      "learning_rate": 2.8000000000000003e-06,
      "loss": 0.0089,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0,
      "step": 56
    },
    {
      "completion_length": 250.0,
      "epoch": 0.00475,
      "grad_norm": 0.03144953399896622,
      "kl": 0.2409312129020691,
      "learning_rate": 2.85e-06,
      "loss": 0.0096,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0,
      "step": 57
    },
    {
      "completion_length": 250.0,
      "epoch": 0.004833333333333334,
      "grad_norm": 1.8306984901428223,
      "kl": 0.3393392562866211,
      "learning_rate": 2.9e-06,
      "loss": 0.0136,
      "reward": 0.2083333432674408,
      "reward_std": 0.589255690574646,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.0833333358168602,
      "step": 58
    },
    {
      "completion_length": 250.0,
      "epoch": 0.004916666666666666,
      "grad_norm": 185.6766815185547,
      "kl": 31.755769729614258,
      "learning_rate": 2.95e-06,
      "loss": 1.2702,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0,
      "step": 59
    },
    {
      "completion_length": 250.0,
      "epoch": 0.005,
      "grad_norm": 4095.82421875,
      "kl": 48.20116424560547,
      "learning_rate": 3e-06,
      "loss": 1.928,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0,
      "step": 60
    },
    {
      "completion_length": 250.0,
      "epoch": 0.005083333333333333,
      "grad_norm": 85.37049102783203,
      "kl": 12.757698059082031,
      "learning_rate": 3.05e-06,
      "loss": 0.5103,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0,
      "step": 61
    },
    {
      "completion_length": 250.0,
      "epoch": 0.005166666666666667,
      "grad_norm": 0.6013548374176025,
      "kl": 0.2426263988018036,
      "learning_rate": 3.1000000000000004e-06,
      "loss": 0.0097,
      "reward": 0.125,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.0,
      "step": 62
    },
    {
      "completion_length": 250.0,
      "epoch": 0.00525,
      "grad_norm": 3.4427809715270996,
      "kl": 0.9819362163543701,
      "learning_rate": 3.1500000000000003e-06,
      "loss": 0.0393,
      "reward": 0.125,
      "reward_std": 0.24800795316696167,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.125,
      "step": 63
    },
    {
      "completion_length": 250.0,
      "epoch": 0.005333333333333333,
      "grad_norm": 0.37425747513771057,
      "kl": 0.3634275197982788,
      "learning_rate": 3.2000000000000003e-06,
      "loss": 0.0145,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0,
      "step": 64
    },
    {
      "completion_length": 250.0,
      "epoch": 0.005416666666666667,
      "grad_norm": 2.08392596244812,
      "kl": 0.30326148867607117,
      "learning_rate": 3.2500000000000002e-06,
      "loss": 0.0121,
      "reward": 0.125,
      "reward_std": 0.24800793826580048,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.125,
      "step": 65
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0055,
      "grad_norm": 12975.3134765625,
      "kl": 1615.21484375,
      "learning_rate": 3.3000000000000006e-06,
      "loss": 64.6086,
      "reward": 0.0416666679084301,
      "reward_std": 0.1178511381149292,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0416666679084301,
      "step": 66
    },
    {
      "completion_length": 250.0,
      "epoch": 0.005583333333333333,
      "grad_norm": 0.7209013104438782,
      "kl": 0.3030403256416321,
      "learning_rate": 3.3500000000000005e-06,
      "loss": 0.0121,
      "reward": 0.125,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.125,
      "step": 67
    },
    {
      "completion_length": 250.0,
      "epoch": 0.005666666666666667,
      "grad_norm": 2.0693342685699463,
      "kl": 0.3132570683956146,
      "learning_rate": 3.4000000000000005e-06,
      "loss": 0.0125,
      "reward": 0.0416666679084301,
      "reward_std": 0.1178511381149292,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0416666679084301,
      "step": 68
    },
    {
      "completion_length": 250.0,
      "epoch": 0.00575,
      "grad_norm": 148.04296875,
      "kl": 8.410460472106934,
      "learning_rate": 3.45e-06,
      "loss": 0.3364,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0,
      "step": 69
    },
    {
      "completion_length": 250.0,
      "epoch": 0.005833333333333334,
      "grad_norm": 2913710.75,
      "kl": 355526.25,
      "learning_rate": 3.5e-06,
      "loss": 14221.0527,
      "reward": 0.0416666679084301,
      "reward_std": 0.1178511381149292,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0416666679084301,
      "step": 70
    },
    {
      "completion_length": 250.0,
      "epoch": 0.005916666666666666,
      "grad_norm": 1.4818073511123657,
      "kl": 0.28156542778015137,
      "learning_rate": 3.5500000000000003e-06,
      "loss": 0.0113,
      "reward": 0.1666666716337204,
      "reward_std": 0.35634827613830566,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.1666666716337204,
      "step": 71
    },
    {
      "completion_length": 250.0,
      "epoch": 0.006,
      "grad_norm": 1.2178808450698853,
      "kl": 0.42147043347358704,
      "learning_rate": 3.6000000000000003e-06,
      "loss": 0.0169,
      "reward": 0.125,
      "reward_std": 0.24800793826580048,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.125,
      "step": 72
    },
    {
      "completion_length": 250.0,
      "epoch": 0.006083333333333333,
      "grad_norm": 9.053384780883789,
      "kl": 2.088000535964966,
      "learning_rate": 3.65e-06,
      "loss": 0.0835,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0,
      "step": 73
    },
    {
      "completion_length": 250.0,
      "epoch": 0.006166666666666667,
      "grad_norm": 16.30586814880371,
      "kl": 2.418818712234497,
      "learning_rate": 3.7e-06,
      "loss": 0.0968,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0,
      "step": 74
    },
    {
      "completion_length": 250.0,
      "epoch": 0.00625,
      "grad_norm": 0.9915629625320435,
      "kl": 0.4261716902256012,
      "learning_rate": 3.7500000000000005e-06,
      "loss": 0.017,
      "reward": 0.2916666865348816,
      "reward_std": 0.5473601818084717,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.1666666716337204,
      "step": 75
    },
    {
      "completion_length": 250.0,
      "epoch": 0.006333333333333333,
      "grad_norm": 35.2829704284668,
      "kl": 4.973476409912109,
      "learning_rate": 3.8000000000000005e-06,
      "loss": 0.1989,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0,
      "step": 76
    },
    {
      "completion_length": 250.0,
      "epoch": 0.006416666666666667,
      "grad_norm": 0.44628340005874634,
      "kl": 0.3691655397415161,
      "learning_rate": 3.85e-06,
      "loss": 0.0148,
      "reward": 0.125,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.0,
      "step": 77
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0065,
      "grad_norm": 1.1199471950531006,
      "kl": 0.40812310576438904,
      "learning_rate": 3.900000000000001e-06,
      "loss": 0.0163,
      "reward": 0.5,
      "reward_std": 0.9258201122283936,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.25,
      "step": 78
    },
    {
      "completion_length": 250.0,
      "epoch": 0.006583333333333333,
      "grad_norm": 3.701707363128662,
      "kl": 0.302755743265152,
      "learning_rate": 3.95e-06,
      "loss": 0.0121,
      "reward": 0.0416666679084301,
      "reward_std": 0.1178511381149292,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0416666679084301,
      "step": 79
    },
    {
      "completion_length": 250.0,
      "epoch": 0.006666666666666667,
      "grad_norm": 173.58099365234375,
      "kl": 35.22575378417969,
      "learning_rate": 4.000000000000001e-06,
      "loss": 1.409,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0,
      "step": 80
    },
    {
      "completion_length": 250.0,
      "epoch": 0.00675,
      "grad_norm": 0.9575639367103577,
      "kl": 0.45123860239982605,
      "learning_rate": 4.05e-06,
      "loss": 0.018,
      "reward": 0.0416666679084301,
      "reward_std": 0.1178511381149292,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0416666679084301,
      "step": 81
    },
    {
      "completion_length": 250.0,
      "epoch": 0.006833333333333334,
      "grad_norm": 0.15877264738082886,
      "kl": 0.3092237710952759,
      "learning_rate": 4.1e-06,
      "loss": 0.0124,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0,
      "step": 82
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0069166666666666664,
      "grad_norm": 4.570583820343018,
      "kl": 0.6996808648109436,
      "learning_rate": 4.15e-06,
      "loss": 0.028,
      "reward": 0.0833333358168602,
      "reward_std": 0.2357022762298584,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0833333358168602,
      "step": 83
    },
    {
      "completion_length": 250.0,
      "epoch": 0.007,
      "grad_norm": 1.1855798959732056,
      "kl": 0.2818334698677063,
      "learning_rate": 4.2000000000000004e-06,
      "loss": 0.0113,
      "reward": 0.125,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.125,
      "step": 84
    },
    {
      "completion_length": 250.0,
      "epoch": 0.007083333333333333,
      "grad_norm": 0.5873503088951111,
      "kl": 0.47469863295555115,
      "learning_rate": 4.25e-06,
      "loss": 0.019,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0,
      "step": 85
    },
    {
      "completion_length": 250.0,
      "epoch": 0.007166666666666667,
      "grad_norm": 0.5640818476676941,
      "kl": 0.4295016825199127,
      "learning_rate": 4.3e-06,
      "loss": 0.0172,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0,
      "step": 86
    },
    {
      "completion_length": 250.0,
      "epoch": 0.00725,
      "grad_norm": 115.95929718017578,
      "kl": 21.73447036743164,
      "learning_rate": 4.350000000000001e-06,
      "loss": 0.8694,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0,
      "step": 87
    },
    {
      "completion_length": 250.0,
      "epoch": 0.007333333333333333,
      "grad_norm": 47534.85546875,
      "kl": 5644.39404296875,
      "learning_rate": 4.4e-06,
      "loss": 225.7758,
      "reward": 0.25,
      "reward_std": 0.4629100561141968,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.0,
      "step": 88
    },
    {
      "completion_length": 250.0,
      "epoch": 0.007416666666666667,
      "grad_norm": 0.42040178179740906,
      "kl": 0.3909342885017395,
      "learning_rate": 4.450000000000001e-06,
      "loss": 0.0156,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0,
      "step": 89
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0075,
      "grad_norm": 14.471317291259766,
      "kl": 3.260627031326294,
      "learning_rate": 4.5e-06,
      "loss": 0.1304,
      "reward": 0.0416666679084301,
      "reward_std": 0.1178511381149292,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0416666679084301,
      "step": 90
    },
    {
      "completion_length": 250.0,
      "epoch": 0.007583333333333333,
      "grad_norm": 0.6545644998550415,
      "kl": 0.31067171692848206,
      "learning_rate": 4.5500000000000005e-06,
      "loss": 0.0124,
      "reward": 0.1666666716337204,
      "reward_std": 0.35634833574295044,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.1666666716337204,
      "step": 91
    },
    {
      "completion_length": 250.0,
      "epoch": 0.007666666666666666,
      "grad_norm": 2.0157968997955322,
      "kl": 0.8457777500152588,
      "learning_rate": 4.600000000000001e-06,
      "loss": 0.0338,
      "reward": 0.0416666679084301,
      "reward_std": 0.1178511381149292,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0416666679084301,
      "step": 92
    },
    {
      "completion_length": 250.0,
      "epoch": 0.00775,
      "grad_norm": 0.27556928992271423,
      "kl": 0.21060839295387268,
      "learning_rate": 4.65e-06,
      "loss": 0.0084,
      "reward": 0.0833333358168602,
      "reward_std": 0.2357022762298584,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0833333358168602,
      "step": 93
    },
    {
      "completion_length": 250.0,
      "epoch": 0.007833333333333333,
      "grad_norm": 1.8622896671295166,
      "kl": 0.38421598076820374,
      "learning_rate": 4.7e-06,
      "loss": 0.0154,
      "reward": 0.125,
      "reward_std": 0.24800795316696167,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.125,
      "step": 94
    },
    {
      "completion_length": 250.0,
      "epoch": 0.007916666666666667,
      "grad_norm": 1.3327813148498535,
      "kl": 0.26667675375938416,
      "learning_rate": 4.75e-06,
      "loss": 0.0107,
      "reward": 0.0416666679084301,
      "reward_std": 0.1178511381149292,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0416666679084301,
      "step": 95
    },
    {
      "completion_length": 250.0,
      "epoch": 0.008,
      "grad_norm": 0.4855498969554901,
      "kl": 0.2688427269458771,
      "learning_rate": 4.800000000000001e-06,
      "loss": 0.0108,
      "reward": 0.125,
      "reward_std": 0.24800795316696167,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.125,
      "step": 96
    },
    {
      "completion_length": 250.0,
      "epoch": 0.008083333333333333,
      "grad_norm": 0.4623148739337921,
      "kl": 0.26257768273353577,
      "learning_rate": 4.85e-06,
      "loss": 0.0105,
      "reward": 0.1666666716337204,
      "reward_std": 0.35634833574295044,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.1666666716337204,
      "step": 97
    },
    {
      "completion_length": 250.0,
      "epoch": 0.008166666666666666,
      "grad_norm": 0.6498294472694397,
      "kl": 0.3181808292865753,
      "learning_rate": 4.9000000000000005e-06,
      "loss": 0.0127,
      "reward": 0.2083333432674408,
      "reward_std": 0.39591166377067566,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.2083333432674408,
      "step": 98
    },
    {
      "completion_length": 250.0,
      "epoch": 0.00825,
      "grad_norm": 0.8791100382804871,
      "kl": 0.5302932262420654,
      "learning_rate": 4.95e-06,
      "loss": 0.0212,
      "reward": 0.4583333134651184,
      "reward_std": 0.46929532289505005,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.3333333432674408,
      "step": 99
    },
    {
      "completion_length": 250.0,
      "epoch": 0.008333333333333333,
      "grad_norm": 78.05960845947266,
      "kl": 18.444576263427734,
      "learning_rate": 5e-06,
      "loss": 0.7378,
      "reward": 0.125,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.0,
      "step": 100
    },
    {
      "completion_length": 250.0,
      "epoch": 0.008416666666666666,
      "grad_norm": 0.6424371004104614,
      "kl": 0.3804784119129181,
      "learning_rate": 4.999984769144476e-06,
      "loss": 0.0152,
      "reward": 0.3333333432674408,
      "reward_std": 0.6900655627250671,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.2083333432674408,
      "step": 101
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0085,
      "grad_norm": 115.73678588867188,
      "kl": 4.351790904998779,
      "learning_rate": 4.999939076763487e-06,
      "loss": 0.1741,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0,
      "step": 102
    },
    {
      "completion_length": 250.0,
      "epoch": 0.008583333333333333,
      "grad_norm": 0.12965546548366547,
      "kl": 0.2807658612728119,
      "learning_rate": 4.999862923413781e-06,
      "loss": 0.0112,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0,
      "step": 103
    },
    {
      "completion_length": 250.0,
      "epoch": 0.008666666666666666,
      "grad_norm": 2.4104604721069336,
      "kl": 0.5225258469581604,
      "learning_rate": 4.999756310023261e-06,
      "loss": 0.0209,
      "reward": 0.0416666679084301,
      "reward_std": 0.1178511381149292,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0416666679084301,
      "step": 104
    },
    {
      "completion_length": 250.0,
      "epoch": 0.00875,
      "grad_norm": 0.3326241075992584,
      "kl": 0.29482659697532654,
      "learning_rate": 4.9996192378909785e-06,
      "loss": 0.0118,
      "reward": 0.2916666567325592,
      "reward_std": 0.7000566720962524,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.1666666716337204,
      "step": 105
    },
    {
      "completion_length": 250.0,
      "epoch": 0.008833333333333334,
      "grad_norm": 1.436844825744629,
      "kl": 0.40061473846435547,
      "learning_rate": 4.999451708687114e-06,
      "loss": 0.016,
      "reward": 0.4583333134651184,
      "reward_std": 0.7113032937049866,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.2083333432674408,
      "step": 106
    },
    {
      "completion_length": 250.0,
      "epoch": 0.008916666666666666,
      "grad_norm": 95.7150650024414,
      "kl": 2.640369176864624,
      "learning_rate": 4.9992537244529585e-06,
      "loss": 0.1056,
      "reward": 0.0833333358168602,
      "reward_std": 0.2357022762298584,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0833333358168602,
      "step": 107
    },
    {
      "completion_length": 250.0,
      "epoch": 0.009,
      "grad_norm": 108.41773223876953,
      "kl": 6.058004856109619,
      "learning_rate": 4.999025287600886e-06,
      "loss": 0.2423,
      "reward": 0.125,
      "reward_std": 0.24800795316696167,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.125,
      "step": 108
    },
    {
      "completion_length": 250.0,
      "epoch": 0.009083333333333334,
      "grad_norm": 25.03618049621582,
      "kl": 3.463536262512207,
      "learning_rate": 4.998766400914329e-06,
      "loss": 0.1385,
      "reward": 0.0416666679084301,
      "reward_std": 0.1178511381149292,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0416666679084301,
      "step": 109
    },
    {
      "completion_length": 250.0,
      "epoch": 0.009166666666666667,
      "grad_norm": 0.5373579263687134,
      "kl": 0.3192852735519409,
      "learning_rate": 4.99847706754774e-06,
      "loss": 0.0128,
      "reward": 0.125,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.125,
      "step": 110
    },
    {
      "completion_length": 250.0,
      "epoch": 0.00925,
      "grad_norm": 0.2514178454875946,
      "kl": 0.4298870861530304,
      "learning_rate": 4.998157291026553e-06,
      "loss": 0.0172,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0,
      "step": 111
    },
    {
      "completion_length": 250.0,
      "epoch": 0.009333333333333334,
      "grad_norm": 49.19013214111328,
      "kl": 8.058541297912598,
      "learning_rate": 4.997807075247147e-06,
      "loss": 0.3223,
      "reward": 0.125,
      "reward_std": 0.17251639068126678,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.125,
      "step": 112
    },
    {
      "completion_length": 250.0,
      "epoch": 0.009416666666666667,
      "grad_norm": 1.157423973083496,
      "kl": 0.41131162643432617,
      "learning_rate": 4.997426424476787e-06,
      "loss": 0.0165,
      "reward": 0.0416666679084301,
      "reward_std": 0.1178511381149292,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0416666679084301,
      "step": 113
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0095,
      "grad_norm": 122.4400863647461,
      "kl": 6.790146350860596,
      "learning_rate": 4.9970153433535855e-06,
      "loss": 0.2716,
      "reward": 0.0416666679084301,
      "reward_std": 0.1178511381149292,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0416666679084301,
      "step": 114
    },
    {
      "completion_length": 250.0,
      "epoch": 0.009583333333333333,
      "grad_norm": 0.07149865478277206,
      "kl": 0.3394841253757477,
      "learning_rate": 4.9965738368864345e-06,
      "loss": 0.0136,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0,
      "step": 115
    },
    {
      "completion_length": 250.0,
      "epoch": 0.009666666666666667,
      "grad_norm": 1.3715343475341797,
      "kl": 0.4577629864215851,
      "learning_rate": 4.996101910454953e-06,
      "loss": 0.0183,
      "reward": 0.0833333358168602,
      "reward_std": 0.2357022762298584,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0833333358168602,
      "step": 116
    },
    {
      "completion_length": 250.0,
      "epoch": 0.00975,
      "grad_norm": 0.551726222038269,
      "kl": 0.3871065080165863,
      "learning_rate": 4.995599569809414e-06,
      "loss": 0.0155,
      "reward": 0.125,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.0,
      "step": 117
    },
    {
      "completion_length": 250.0,
      "epoch": 0.009833333333333333,
      "grad_norm": 2.083500623703003,
      "kl": 0.7725878357887268,
      "learning_rate": 4.9950668210706795e-06,
      "loss": 0.0309,
      "reward": 0.3333333432674408,
      "reward_std": 0.5345224738121033,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.2083333432674408,
      "step": 118
    },
    {
      "completion_length": 250.0,
      "epoch": 0.009916666666666667,
      "grad_norm": 1.0463969707489014,
      "kl": 0.4617312550544739,
      "learning_rate": 4.994503670730126e-06,
      "loss": 0.0185,
      "reward": 0.1666666716337204,
      "reward_std": 0.30860671401023865,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.1666666716337204,
      "step": 119
    },
    {
      "completion_length": 250.0,
      "epoch": 0.01,
      "grad_norm": 0.4884531795978546,
      "kl": 0.3635513186454773,
      "learning_rate": 4.993910125649561e-06,
      "loss": 0.0145,
      "reward": 0.25,
      "reward_std": 0.4629100561141968,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.25,
      "step": 120
    },
    {
      "completion_length": 250.0,
      "epoch": 0.010083333333333333,
      "grad_norm": 0.30621615052223206,
      "kl": 0.37473881244659424,
      "learning_rate": 4.993286193061145e-06,
      "loss": 0.015,
      "reward": 0.125,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.125,
      "step": 121
    },
    {
      "completion_length": 250.0,
      "epoch": 0.010166666666666666,
      "grad_norm": 88.8227767944336,
      "kl": 24.4356689453125,
      "learning_rate": 4.992631880567301e-06,
      "loss": 0.9774,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0,
      "step": 122
    },
    {
      "completion_length": 250.0,
      "epoch": 0.01025,
      "grad_norm": 0.6021216511726379,
      "kl": 0.4579870402812958,
      "learning_rate": 4.991947196140619e-06,
      "loss": 0.0183,
      "reward": 0.25,
      "reward_std": 0.38832157850265503,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.125,
      "step": 123
    },
    {
      "completion_length": 250.0,
      "epoch": 0.010333333333333333,
      "grad_norm": 1.0776395797729492,
      "kl": 0.3739393353462219,
      "learning_rate": 4.9912321481237616e-06,
      "loss": 0.015,
      "reward": 0.1666666716337204,
      "reward_std": 0.35634833574295044,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.1666666716337204,
      "step": 124
    },
    {
      "completion_length": 250.0,
      "epoch": 0.010416666666666666,
      "grad_norm": 0.704728364944458,
      "kl": 0.33970534801483154,
      "learning_rate": 4.990486745229364e-06,
      "loss": 0.0136,
      "reward": 0.0416666679084301,
      "reward_std": 0.1178511381149292,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0416666679084301,
      "step": 125
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0105,
      "grad_norm": 0.4066079556941986,
      "kl": 0.34832248091697693,
      "learning_rate": 4.989710996539926e-06,
      "loss": 0.0139,
      "reward": 0.375,
      "reward_std": 0.7440237998962402,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.25,
      "step": 126
    },
    {
      "completion_length": 250.0,
      "epoch": 0.010583333333333333,
      "grad_norm": 20332.4453125,
      "kl": 2519.667236328125,
      "learning_rate": 4.9889049115077e-06,
      "loss": 100.7867,
      "reward": 0.125,
      "reward_std": 0.17251639068126678,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.125,
      "step": 127
    },
    {
      "completion_length": 250.0,
      "epoch": 0.010666666666666666,
      "grad_norm": 1014.6124877929688,
      "kl": 151.2786102294922,
      "learning_rate": 4.988068499954578e-06,
      "loss": 6.0511,
      "reward": 0.0833333358168602,
      "reward_std": 0.2357022762298584,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0833333358168602,
      "step": 128
    },
    {
      "completion_length": 250.0,
      "epoch": 0.01075,
      "grad_norm": 2.2194466590881348,
      "kl": 0.45352834463119507,
      "learning_rate": 4.987201772071971e-06,
      "loss": 0.0181,
      "reward": 0.125,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.125,
      "step": 129
    },
    {
      "completion_length": 250.0,
      "epoch": 0.010833333333333334,
      "grad_norm": 0.8629388213157654,
      "kl": 0.4860643446445465,
      "learning_rate": 4.986304738420684e-06,
      "loss": 0.0194,
      "reward": 0.2083333432674408,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.2083333432674408,
      "step": 130
    },
    {
      "completion_length": 250.0,
      "epoch": 0.010916666666666667,
      "grad_norm": 3.691181182861328,
      "kl": 0.396503210067749,
      "learning_rate": 4.985377409930789e-06,
      "loss": 0.0159,
      "reward": 0.0833333358168602,
      "reward_std": 0.15430335700511932,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0833333358168602,
      "step": 131
    },
    {
      "completion_length": 250.0,
      "epoch": 0.011,
      "grad_norm": 20.175403594970703,
      "kl": 3.6169893741607666,
      "learning_rate": 4.984419797901491e-06,
      "loss": 0.1447,
      "reward": 0.2083333432674408,
      "reward_std": 0.3535533547401428,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.2083333432674408,
      "step": 132
    },
    {
      "completion_length": 250.0,
      "epoch": 0.011083333333333334,
      "grad_norm": 0.6853134632110596,
      "kl": 0.3578898012638092,
      "learning_rate": 4.983431914000991e-06,
      "loss": 0.0143,
      "reward": 0.3333333432674408,
      "reward_std": 0.4714045226573944,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.3333333432674408,
      "step": 133
    },
    {
      "completion_length": 250.0,
      "epoch": 0.011166666666666667,
      "grad_norm": 2.199497699737549,
      "kl": 1.075109839439392,
      "learning_rate": 4.9824137702663424e-06,
      "loss": 0.043,
      "reward": 0.125,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.125,
      "step": 134
    },
    {
      "completion_length": 250.0,
      "epoch": 0.01125,
      "grad_norm": 0.43966594338417053,
      "kl": 0.38842320442199707,
      "learning_rate": 4.981365379103306e-06,
      "loss": 0.0155,
      "reward": 0.0833333358168602,
      "reward_std": 0.15430335700511932,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0833333358168602,
      "step": 135
    },
    {
      "completion_length": 250.0,
      "epoch": 0.011333333333333334,
      "grad_norm": 0.5732003450393677,
      "kl": 0.3031355142593384,
      "learning_rate": 4.980286753286196e-06,
      "loss": 0.0121,
      "reward": 0.2083333432674408,
      "reward_std": 0.39591166377067566,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.2083333432674408,
      "step": 136
    },
    {
      "completion_length": 250.0,
      "epoch": 0.011416666666666667,
      "grad_norm": 1.1415404081344604,
      "kl": 0.47937247157096863,
      "learning_rate": 4.979177905957726e-06,
      "loss": 0.0192,
      "reward": 0.2083333432674408,
      "reward_std": 0.3053751289844513,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.2083333432674408,
      "step": 137
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0115,
      "grad_norm": 5.704109191894531,
      "kl": 0.6407493352890015,
      "learning_rate": 4.978038850628855e-06,
      "loss": 0.0256,
      "reward": 0.0416666679084301,
      "reward_std": 0.1178511381149292,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0416666679084301,
      "step": 138
    },
    {
      "completion_length": 250.0,
      "epoch": 0.011583333333333333,
      "grad_norm": 1.1015725135803223,
      "kl": 0.40485408902168274,
      "learning_rate": 4.9768696011786095e-06,
      "loss": 0.0162,
      "reward": 0.0833333358168602,
      "reward_std": 0.15430335700511932,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0833333358168602,
      "step": 139
    },
    {
      "completion_length": 250.0,
      "epoch": 0.011666666666666667,
      "grad_norm": 0.06077095866203308,
      "kl": 0.2962065041065216,
      "learning_rate": 4.975670171853926e-06,
      "loss": 0.0118,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0,
      "step": 140
    },
    {
      "completion_length": 250.0,
      "epoch": 0.01175,
      "grad_norm": 0.030355358496308327,
      "kl": 0.25768283009529114,
      "learning_rate": 4.974440577269473e-06,
      "loss": 0.0103,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0,
      "step": 141
    },
    {
      "completion_length": 250.0,
      "epoch": 0.011833333333333333,
      "grad_norm": 0.22492274641990662,
      "kl": 0.4085735082626343,
      "learning_rate": 4.973180832407471e-06,
      "loss": 0.0163,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0,
      "step": 142
    },
    {
      "completion_length": 250.0,
      "epoch": 0.011916666666666667,
      "grad_norm": 9.671571731567383,
      "kl": 1.6705416440963745,
      "learning_rate": 4.971890952617515e-06,
      "loss": 0.0668,
      "reward": 0.1666666716337204,
      "reward_std": 0.4714045524597168,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.0416666679084301,
      "step": 143
    },
    {
      "completion_length": 250.0,
      "epoch": 0.012,
      "grad_norm": 0.4590764343738556,
      "kl": 0.40203264355659485,
      "learning_rate": 4.970570953616383e-06,
      "loss": 0.0161,
      "reward": 0.5,
      "reward_std": 0.7126966714859009,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.375,
      "step": 144
    },
    {
      "completion_length": 250.0,
      "epoch": 0.012083333333333333,
      "grad_norm": 0.6464155912399292,
      "kl": 0.4423307478427887,
      "learning_rate": 4.9692208514878445e-06,
      "loss": 0.0177,
      "reward": 0.1666666716337204,
      "reward_std": 0.35634833574295044,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.1666666716337204,
      "step": 145
    },
    {
      "completion_length": 250.0,
      "epoch": 0.012166666666666666,
      "grad_norm": 0.4339180886745453,
      "kl": 0.3777730166912079,
      "learning_rate": 4.96784066268247e-06,
      "loss": 0.0151,
      "reward": 0.2916666567325592,
      "reward_std": 0.7000566720962524,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.1666666716337204,
      "step": 146
    },
    {
      "completion_length": 250.0,
      "epoch": 0.01225,
      "grad_norm": 1.3693031072616577,
      "kl": 0.4329844117164612,
      "learning_rate": 4.966430404017424e-06,
      "loss": 0.0173,
      "reward": 0.125,
      "reward_std": 0.17251640558242798,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.125,
      "step": 147
    },
    {
      "completion_length": 250.0,
      "epoch": 0.012333333333333333,
      "grad_norm": 0.5217644572257996,
      "kl": 0.3636080324649811,
      "learning_rate": 4.964990092676263e-06,
      "loss": 0.0145,
      "reward": 0.2916666865348816,
      "reward_std": 0.37533053755760193,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.2916666567325592,
      "step": 148
    },
    {
      "completion_length": 250.0,
      "epoch": 0.012416666666666666,
      "grad_norm": 19.131145477294922,
      "kl": 4.095874786376953,
      "learning_rate": 4.963519746208726e-06,
      "loss": 0.1638,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0,
      "step": 149
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0125,
      "grad_norm": 1.2726384401321411,
      "kl": 0.4131162762641907,
      "learning_rate": 4.962019382530521e-06,
      "loss": 0.0165,
      "reward": 0.2916666865348816,
      "reward_std": 0.41547447443008423,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.1666666716337204,
      "step": 150
    },
    {
      "completion_length": 250.0,
      "epoch": 0.012583333333333334,
      "grad_norm": 0.28327932953834534,
      "kl": 0.32023757696151733,
      "learning_rate": 4.960489019923105e-06,
      "loss": 0.0128,
      "reward": 0.125,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.125,
      "step": 151
    },
    {
      "completion_length": 250.0,
      "epoch": 0.012666666666666666,
      "grad_norm": 0.3637878894805908,
      "kl": 0.36896905303001404,
      "learning_rate": 4.958928677033465e-06,
      "loss": 0.0148,
      "reward": 0.0833333358168602,
      "reward_std": 0.15430335700511932,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0833333358168602,
      "step": 152
    },
    {
      "completion_length": 250.0,
      "epoch": 0.01275,
      "grad_norm": 0.3663618862628937,
      "kl": 0.3021296560764313,
      "learning_rate": 4.957338372873886e-06,
      "loss": 0.0121,
      "reward": 0.0833333358168602,
      "reward_std": 0.15430335700511932,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0833333358168602,
      "step": 153
    },
    {
      "completion_length": 250.0,
      "epoch": 0.012833333333333334,
      "grad_norm": 1.0241296291351318,
      "kl": 0.3188839554786682,
      "learning_rate": 4.9557181268217225e-06,
      "loss": 0.0128,
      "reward": 0.25,
      "reward_std": 0.7071067690849304,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.125,
      "step": 154
    },
    {
      "completion_length": 250.0,
      "epoch": 0.012916666666666667,
      "grad_norm": 2.020049810409546,
      "kl": 0.40295442938804626,
      "learning_rate": 4.9540679586191605e-06,
      "loss": 0.0161,
      "reward": 0.2916666865348816,
      "reward_std": 0.2781743109226227,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.2916666865348816,
      "step": 155
    },
    {
      "completion_length": 250.0,
      "epoch": 0.013,
      "grad_norm": 0.6685758829116821,
      "kl": 0.41572338342666626,
      "learning_rate": 4.9523878883729794e-06,
      "loss": 0.0166,
      "reward": 0.4583333432674408,
      "reward_std": 0.6886264681816101,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.3333333432674408,
      "step": 156
    },
    {
      "completion_length": 250.0,
      "epoch": 0.013083333333333334,
      "grad_norm": 0.4234911799430847,
      "kl": 0.3872148096561432,
      "learning_rate": 4.9506779365543054e-06,
      "loss": 0.0155,
      "reward": 0.2083333432674408,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.2083333432674408,
      "step": 157
    },
    {
      "completion_length": 250.0,
      "epoch": 0.013166666666666667,
      "grad_norm": 0.6146082878112793,
      "kl": 0.3194940388202667,
      "learning_rate": 4.94893812399836e-06,
      "loss": 0.0128,
      "reward": 0.1666666716337204,
      "reward_std": 0.35634833574295044,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.1666666716337204,
      "step": 158
    },
    {
      "completion_length": 250.0,
      "epoch": 0.01325,
      "grad_norm": 6.197954177856445,
      "kl": 0.9764306545257568,
      "learning_rate": 4.947168471904213e-06,
      "loss": 0.0391,
      "reward": 0.1666666716337204,
      "reward_std": 0.2519763112068176,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.1666666716337204,
      "step": 159
    },
    {
      "completion_length": 250.0,
      "epoch": 0.013333333333333334,
      "grad_norm": 0.5794118046760559,
      "kl": 0.42038655281066895,
      "learning_rate": 4.9453690018345144e-06,
      "loss": 0.0168,
      "reward": 0.75,
      "reward_std": 1.0350983142852783,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.375,
      "step": 160
    },
    {
      "completion_length": 250.0,
      "epoch": 0.013416666666666667,
      "grad_norm": 23.13763999938965,
      "kl": 2.790783405303955,
      "learning_rate": 4.9435397357152406e-06,
      "loss": 0.1116,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0,
      "step": 161
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0135,
      "grad_norm": 0.9066824913024902,
      "kl": 0.4245196580886841,
      "learning_rate": 4.9416806958354206e-06,
      "loss": 0.017,
      "reward": 0.2083333432674408,
      "reward_std": 0.39591163396835327,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.2083333432674408,
      "step": 162
    },
    {
      "completion_length": 250.0,
      "epoch": 0.013583333333333333,
      "grad_norm": 0.6648077964782715,
      "kl": 0.5795211791992188,
      "learning_rate": 4.939791904846869e-06,
      "loss": 0.0232,
      "reward": 0.2916666865348816,
      "reward_std": 0.4154745042324066,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.2916666865348816,
      "step": 163
    },
    {
      "completion_length": 250.0,
      "epoch": 0.013666666666666667,
      "grad_norm": 0.5751465559005737,
      "kl": 0.3582766056060791,
      "learning_rate": 4.937873385763909e-06,
      "loss": 0.0143,
      "reward": 0.2916666865348816,
      "reward_std": 0.4154745042324066,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.2916666865348816,
      "step": 164
    },
    {
      "completion_length": 250.0,
      "epoch": 0.01375,
      "grad_norm": 0.407955139875412,
      "kl": 0.31000596284866333,
      "learning_rate": 4.935925161963089e-06,
      "loss": 0.0124,
      "reward": 0.2083333432674408,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.2083333432674408,
      "step": 165
    },
    {
      "completion_length": 250.0,
      "epoch": 0.013833333333333333,
      "grad_norm": 1.1364095211029053,
      "kl": 0.3804260492324829,
      "learning_rate": 4.933947257182901e-06,
      "loss": 0.0152,
      "reward": 0.2083333432674408,
      "reward_std": 0.39591163396835327,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.2083333432674408,
      "step": 166
    },
    {
      "completion_length": 250.0,
      "epoch": 0.013916666666666667,
      "grad_norm": 5.946568489074707,
      "kl": 0.4389808773994446,
      "learning_rate": 4.9319396955234925e-06,
      "loss": 0.0176,
      "reward": 0.4166666865348816,
      "reward_std": 0.7292091846466064,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.2916666567325592,
      "step": 167
    },
    {
      "completion_length": 250.0,
      "epoch": 0.014,
      "grad_norm": 0.48689746856689453,
      "kl": 0.4137730002403259,
      "learning_rate": 4.9299025014463665e-06,
      "loss": 0.0166,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0,
      "step": 168
    },
    {
      "completion_length": 250.0,
      "epoch": 0.014083333333333333,
      "grad_norm": 0.30347901582717896,
      "kl": 0.2522311210632324,
      "learning_rate": 4.92783569977409e-06,
      "loss": 0.0101,
      "reward": 0.1666666716337204,
      "reward_std": 0.2519763112068176,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.1666666716337204,
      "step": 169
    },
    {
      "completion_length": 250.0,
      "epoch": 0.014166666666666666,
      "grad_norm": 0.7049718499183655,
      "kl": 0.5534805655479431,
      "learning_rate": 4.925739315689991e-06,
      "loss": 0.0221,
      "reward": 0.25,
      "reward_std": 0.3450327515602112,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.125,
      "step": 170
    },
    {
      "completion_length": 250.0,
      "epoch": 0.01425,
      "grad_norm": 3.0675125122070312,
      "kl": 0.2963431477546692,
      "learning_rate": 4.923613374737848e-06,
      "loss": 0.0119,
      "reward": 0.1666666716337204,
      "reward_std": 0.35634833574295044,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.1666666716337204,
      "step": 171
    },
    {
      "completion_length": 250.0,
      "epoch": 0.014333333333333333,
      "grad_norm": 0.5279906392097473,
      "kl": 0.276735782623291,
      "learning_rate": 4.921457902821578e-06,
      "loss": 0.0111,
      "reward": 0.1666666716337204,
      "reward_std": 0.35634833574295044,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.1666666716337204,
      "step": 172
    },
    {
      "completion_length": 250.0,
      "epoch": 0.014416666666666666,
      "grad_norm": 0.3988935947418213,
      "kl": 0.34347009658813477,
      "learning_rate": 4.9192729262049285e-06,
      "loss": 0.0137,
      "reward": 0.5,
      "reward_std": 0.5345224738121033,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.5,
      "step": 173
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0145,
      "grad_norm": 1.7523726224899292,
      "kl": 0.44115620851516724,
      "learning_rate": 4.917058471511149e-06,
      "loss": 0.0176,
      "reward": 0.1666666716337204,
      "reward_std": 0.2519763112068176,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.1666666716337204,
      "step": 174
    },
    {
      "completion_length": 250.0,
      "epoch": 0.014583333333333334,
      "grad_norm": 0.5499840378761292,
      "kl": 0.37359291315078735,
      "learning_rate": 4.914814565722671e-06,
      "loss": 0.0149,
      "reward": 0.0833333358168602,
      "reward_std": 0.2357022762298584,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0833333358168602,
      "step": 175
    },
    {
      "completion_length": 250.0,
      "epoch": 0.014666666666666666,
      "grad_norm": 1.1000566482543945,
      "kl": 0.5037091374397278,
      "learning_rate": 4.912541236180779e-06,
      "loss": 0.0201,
      "reward": 0.2916666567325592,
      "reward_std": 0.7000566720962524,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.1666666716337204,
      "step": 176
    },
    {
      "completion_length": 250.0,
      "epoch": 0.01475,
      "grad_norm": 0.3692109286785126,
      "kl": 0.32822439074516296,
      "learning_rate": 4.910238510585275e-06,
      "loss": 0.0131,
      "reward": 0.1666666716337204,
      "reward_std": 0.35634833574295044,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.1666666716337204,
      "step": 177
    },
    {
      "completion_length": 250.0,
      "epoch": 0.014833333333333334,
      "grad_norm": 0.38307639956474304,
      "kl": 0.45367297530174255,
      "learning_rate": 4.907906416994146e-06,
      "loss": 0.0181,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0,
      "step": 178
    },
    {
      "completion_length": 250.0,
      "epoch": 0.014916666666666667,
      "grad_norm": 0.8600552678108215,
      "kl": 0.4305053949356079,
      "learning_rate": 4.905544983823214e-06,
      "loss": 0.0172,
      "reward": 0.625,
      "reward_std": 0.6283639669418335,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.5,
      "step": 179
    },
    {
      "completion_length": 250.0,
      "epoch": 0.015,
      "grad_norm": 0.8289276957511902,
      "kl": 0.36276039481163025,
      "learning_rate": 4.903154239845798e-06,
      "loss": 0.0145,
      "reward": 0.2083333432674408,
      "reward_std": 0.39591166377067566,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.2083333432674408,
      "step": 180
    },
    {
      "completion_length": 250.0,
      "epoch": 0.015083333333333334,
      "grad_norm": 0.8905088901519775,
      "kl": 0.42038679122924805,
      "learning_rate": 4.900734214192358e-06,
      "loss": 0.0168,
      "reward": 0.375,
      "reward_std": 0.4520675837993622,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.25,
      "step": 181
    },
    {
      "completion_length": 250.0,
      "epoch": 0.015166666666666667,
      "grad_norm": 0.4034233093261719,
      "kl": 0.35581687092781067,
      "learning_rate": 4.898284936350144e-06,
      "loss": 0.0142,
      "reward": 0.4166666567325592,
      "reward_std": 0.7292091846466064,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.2916666865348816,
      "step": 182
    },
    {
      "completion_length": 250.0,
      "epoch": 0.01525,
      "grad_norm": 0.392464816570282,
      "kl": 0.6867326498031616,
      "learning_rate": 4.8958064361628334e-06,
      "loss": 0.0275,
      "reward": 0.5,
      "reward_std": 0.4714045226573944,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.5,
      "step": 183
    },
    {
      "completion_length": 250.0,
      "epoch": 0.015333333333333332,
      "grad_norm": 0.7030049562454224,
      "kl": 0.3916150629520416,
      "learning_rate": 4.893298743830168e-06,
      "loss": 0.0157,
      "reward": 0.3333333432674408,
      "reward_std": 0.6900655627250671,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.2083333432674408,
      "step": 184
    },
    {
      "completion_length": 250.0,
      "epoch": 0.015416666666666667,
      "grad_norm": 0.7821568846702576,
      "kl": 0.7238714098930359,
      "learning_rate": 4.890761889907589e-06,
      "loss": 0.029,
      "reward": 0.75,
      "reward_std": 0.49601587653160095,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.625,
      "step": 185
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0155,
      "grad_norm": 0.8786028027534485,
      "kl": 0.4036749303340912,
      "learning_rate": 4.888195905305859e-06,
      "loss": 0.0161,
      "reward": 0.5416666865348816,
      "reward_std": 0.39591166377067566,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.4166666865348816,
      "step": 186
    },
    {
      "completion_length": 250.0,
      "epoch": 0.015583333333333333,
      "grad_norm": 0.5510672926902771,
      "kl": 0.4351351857185364,
      "learning_rate": 4.885600821290692e-06,
      "loss": 0.0174,
      "reward": 0.4166666865348816,
      "reward_std": 0.49601587653160095,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.2916666865348816,
      "step": 187
    },
    {
      "completion_length": 250.0,
      "epoch": 0.015666666666666666,
      "grad_norm": 0.2654396891593933,
      "kl": 0.2575778365135193,
      "learning_rate": 4.882976669482368e-06,
      "loss": 0.0103,
      "reward": 0.9166666865348816,
      "reward_std": 0.8498365879058838,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.4166666567325592,
      "step": 188
    },
    {
      "completion_length": 250.0,
      "epoch": 0.01575,
      "grad_norm": 0.6470081210136414,
      "kl": 0.43255674839019775,
      "learning_rate": 4.880323481855347e-06,
      "loss": 0.0173,
      "reward": 0.4583333730697632,
      "reward_std": 0.5616726875305176,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.2083333432674408,
      "step": 189
    },
    {
      "completion_length": 250.0,
      "epoch": 0.015833333333333335,
      "grad_norm": 0.6133238673210144,
      "kl": 0.370347797870636,
      "learning_rate": 4.8776412907378845e-06,
      "loss": 0.0148,
      "reward": 0.0416666679084301,
      "reward_std": 0.1178511381149292,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.0416666679084301,
      "step": 190
    },
    {
      "completion_length": 250.0,
      "epoch": 0.015916666666666666,
      "grad_norm": 3.239405393600464,
      "kl": 0.5021273493766785,
      "learning_rate": 4.874930128811631e-06,
      "loss": 0.0201,
      "reward": 0.5416666269302368,
      "reward_std": 0.6651768684387207,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.2916666567325592,
      "step": 191
    },
    {
      "completion_length": 250.0,
      "epoch": 0.016,
      "grad_norm": 0.8710654973983765,
      "kl": 0.5387289524078369,
      "learning_rate": 4.8721900291112415e-06,
      "loss": 0.0215,
      "reward": 0.625,
      "reward_std": 0.6770032048225403,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.5,
      "step": 192
    },
    {
      "completion_length": 250.0,
      "epoch": 0.016083333333333335,
      "grad_norm": 1.41133451461792,
      "kl": 0.5218385457992554,
      "learning_rate": 4.869421025023965e-06,
      "loss": 0.0209,
      "reward": 0.5416666865348816,
      "reward_std": 0.7332792282104492,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.4166666865348816,
      "step": 193
    },
    {
      "completion_length": 250.0,
      "epoch": 0.016166666666666666,
      "grad_norm": 0.9869065880775452,
      "kl": 0.5528762340545654,
      "learning_rate": 4.866623150289241e-06,
      "loss": 0.0221,
      "reward": 0.4166666865348816,
      "reward_std": 0.7071067690849304,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.2916666865348816,
      "step": 194
    },
    {
      "completion_length": 250.0,
      "epoch": 0.01625,
      "grad_norm": 0.347484827041626,
      "kl": 0.3075355589389801,
      "learning_rate": 4.863796438998293e-06,
      "loss": 0.0123,
      "reward": 0.375,
      "reward_std": 0.4154745042324066,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.375,
      "step": 195
    },
    {
      "completion_length": 250.0,
      "epoch": 0.01633333333333333,
      "grad_norm": 0.5246497988700867,
      "kl": 0.47872331738471985,
      "learning_rate": 4.860940925593703e-06,
      "loss": 0.0191,
      "reward": 0.4166666567325592,
      "reward_std": 0.49601587653160095,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.4166666865348816,
      "step": 196
    },
    {
      "completion_length": 250.0,
      "epoch": 0.016416666666666666,
      "grad_norm": 0.5665456056594849,
      "kl": 0.40581831336021423,
      "learning_rate": 4.858056644869002e-06,
      "loss": 0.0162,
      "reward": 0.7916666865348816,
      "reward_std": 0.8533315062522888,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.4166666865348816,
      "step": 197
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0165,
      "grad_norm": 0.37036922574043274,
      "kl": 0.4440433382987976,
      "learning_rate": 4.855143631968242e-06,
      "loss": 0.0178,
      "reward": 0.625,
      "reward_std": 0.4520675241947174,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.625,
      "step": 198
    },
    {
      "completion_length": 250.0,
      "epoch": 0.016583333333333332,
      "grad_norm": 1.1761598587036133,
      "kl": 0.5070418119430542,
      "learning_rate": 4.852201922385564e-06,
      "loss": 0.0203,
      "reward": 0.25,
      "reward_std": 0.4629100561141968,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.25,
      "step": 199
    },
    {
      "completion_length": 250.0,
      "epoch": 0.016666666666666666,
      "grad_norm": 0.3598565459251404,
      "kl": 0.38801202178001404,
      "learning_rate": 4.849231551964771e-06,
      "loss": 0.0155,
      "reward": 0.4583333134651184,
      "reward_std": 0.7753647565841675,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.2083333432674408,
      "step": 200
    },
    {
      "completion_length": 250.0,
      "epoch": 0.01675,
      "grad_norm": 6.092010974884033,
      "kl": 0.5048520565032959,
      "learning_rate": 4.84623255689889e-06,
      "loss": 0.0202,
      "reward": 0.2083333432674408,
      "reward_std": 0.39591166377067566,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.2083333432674408,
      "step": 201
    },
    {
      "completion_length": 250.0,
      "epoch": 0.016833333333333332,
      "grad_norm": 2.679046392440796,
      "kl": 0.5951515436172485,
      "learning_rate": 4.84320497372973e-06,
      "loss": 0.0238,
      "reward": 0.5,
      "reward_std": 0.7126966118812561,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.25,
      "step": 202
    },
    {
      "completion_length": 250.0,
      "epoch": 0.016916666666666667,
      "grad_norm": 1.4502449035644531,
      "kl": 0.6235775351524353,
      "learning_rate": 4.840148839347434e-06,
      "loss": 0.0249,
      "reward": 0.5416666269302368,
      "reward_std": 0.7332792282104492,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.4166666865348816,
      "step": 203
    },
    {
      "completion_length": 250.0,
      "epoch": 0.017,
      "grad_norm": 0.34813621640205383,
      "kl": 0.3194099962711334,
      "learning_rate": 4.837064190990036e-06,
      "loss": 0.0128,
      "reward": 0.6666666269302368,
      "reward_std": 0.8908708095550537,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.2916666567325592,
      "step": 204
    },
    {
      "completion_length": 250.0,
      "epoch": 0.017083333333333332,
      "grad_norm": 0.7955384254455566,
      "kl": 0.6405460238456726,
      "learning_rate": 4.833951066243004e-06,
      "loss": 0.0256,
      "reward": 0.4583333432674408,
      "reward_std": 0.46929529309272766,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.4583333134651184,
      "step": 205
    },
    {
      "completion_length": 250.0,
      "epoch": 0.017166666666666667,
      "grad_norm": 0.6468902826309204,
      "kl": 0.4588083326816559,
      "learning_rate": 4.830809503038781e-06,
      "loss": 0.0184,
      "reward": 0.2083333432674408,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.2083333432674408,
      "step": 206
    },
    {
      "completion_length": 250.0,
      "epoch": 0.01725,
      "grad_norm": 0.6557303071022034,
      "kl": 0.4808078706264496,
      "learning_rate": 4.8276395396563215e-06,
      "loss": 0.0192,
      "reward": 0.4583333432674408,
      "reward_std": 0.7332792282104492,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.3333333432674408,
      "step": 207
    },
    {
      "completion_length": 250.0,
      "epoch": 0.017333333333333333,
      "grad_norm": 0.8586503267288208,
      "kl": 0.7754402756690979,
      "learning_rate": 4.824441214720629e-06,
      "loss": 0.031,
      "reward": 0.5416666865348816,
      "reward_std": 0.43415671586990356,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.5416666865348816,
      "step": 208
    },
    {
      "completion_length": 250.0,
      "epoch": 0.017416666666666667,
      "grad_norm": 0.2894943356513977,
      "kl": 0.2780013978481293,
      "learning_rate": 4.821214567202284e-06,
      "loss": 0.0111,
      "reward": 0.3333333432674408,
      "reward_std": 0.4364357590675354,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.3333333432674408,
      "step": 209
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0175,
      "grad_norm": 0.4333679676055908,
      "kl": 0.4271698594093323,
      "learning_rate": 4.817959636416969e-06,
      "loss": 0.0171,
      "reward": 0.5416666865348816,
      "reward_std": 0.46929532289505005,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.4166666865348816,
      "step": 210
    },
    {
      "completion_length": 250.0,
      "epoch": 0.017583333333333333,
      "grad_norm": 2.1452853679656982,
      "kl": 0.41794443130493164,
      "learning_rate": 4.814676462024988e-06,
      "loss": 0.0167,
      "reward": 0.375,
      "reward_std": 0.41547447443008423,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.25,
      "step": 211
    },
    {
      "completion_length": 250.0,
      "epoch": 0.017666666666666667,
      "grad_norm": 0.37924328446388245,
      "kl": 0.5044135451316833,
      "learning_rate": 4.811365084030784e-06,
      "loss": 0.0202,
      "reward": 0.4166666567325592,
      "reward_std": 0.6606874465942383,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.2916666865348816,
      "step": 212
    },
    {
      "completion_length": 250.0,
      "epoch": 0.01775,
      "grad_norm": 1.1589990854263306,
      "kl": 0.5812166333198547,
      "learning_rate": 4.808025542782453e-06,
      "loss": 0.0232,
      "reward": 0.4166666865348816,
      "reward_std": 0.49601587653160095,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.2916666865348816,
      "step": 213
    },
    {
      "completion_length": 250.0,
      "epoch": 0.017833333333333333,
      "grad_norm": 2.28521728515625,
      "kl": 0.5571350455284119,
      "learning_rate": 4.804657878971252e-06,
      "loss": 0.0223,
      "reward": 0.4583333432674408,
      "reward_std": 0.6651769280433655,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.3333333432674408,
      "step": 214
    },
    {
      "completion_length": 250.0,
      "epoch": 0.017916666666666668,
      "grad_norm": 0.861594557762146,
      "kl": 0.6830026507377625,
      "learning_rate": 4.801262133631101e-06,
      "loss": 0.0273,
      "reward": 0.8333333134651184,
      "reward_std": 0.8164966106414795,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.5833333730697632,
      "step": 215
    },
    {
      "completion_length": 250.0,
      "epoch": 0.018,
      "grad_norm": 1.8360395431518555,
      "kl": 1.10158371925354,
      "learning_rate": 4.7978383481380865e-06,
      "loss": 0.0441,
      "reward": 0.4583333730697632,
      "reward_std": 0.43415671586990356,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.3333333432674408,
      "step": 216
    },
    {
      "completion_length": 250.0,
      "epoch": 0.018083333333333333,
      "grad_norm": 0.957562267780304,
      "kl": 0.542965292930603,
      "learning_rate": 4.794386564209953e-06,
      "loss": 0.0217,
      "reward": 1.1666666269302368,
      "reward_std": 0.9428090453147888,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.6666666269302368,
      "step": 217
    },
    {
      "completion_length": 250.0,
      "epoch": 0.018166666666666668,
      "grad_norm": 0.33301106095314026,
      "kl": 0.3330531120300293,
      "learning_rate": 4.790906823905599e-06,
      "loss": 0.0133,
      "reward": 0.2916666567325592,
      "reward_std": 0.4520675837993622,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.2916666865348816,
      "step": 218
    },
    {
      "completion_length": 250.0,
      "epoch": 0.01825,
      "grad_norm": 0.9023637771606445,
      "kl": 0.5449975728988647,
      "learning_rate": 4.787399169624562e-06,
      "loss": 0.0218,
      "reward": 0.2083333432674408,
      "reward_std": 0.24800793826580048,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.2083333432674408,
      "step": 219
    },
    {
      "completion_length": 250.0,
      "epoch": 0.018333333333333333,
      "grad_norm": 4.706124782562256,
      "kl": 0.884423553943634,
      "learning_rate": 4.783863644106502e-06,
      "loss": 0.0354,
      "reward": 0.75,
      "reward_std": 0.7918233275413513,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.5,
      "step": 220
    },
    {
      "completion_length": 250.0,
      "epoch": 0.018416666666666668,
      "grad_norm": 0.7690190076828003,
      "kl": 0.6677464246749878,
      "learning_rate": 4.780300290430683e-06,
      "loss": 0.0267,
      "reward": 0.4583333432674408,
      "reward_std": 0.7332792282104492,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.3333333432674408,
      "step": 221
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0185,
      "grad_norm": 0.7956643104553223,
      "kl": 0.4805806577205658,
      "learning_rate": 4.776709152015443e-06,
      "loss": 0.0192,
      "reward": 0.375,
      "reward_std": 0.4520675837993622,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.3750000298023224,
      "step": 222
    },
    {
      "completion_length": 250.0,
      "epoch": 0.018583333333333334,
      "grad_norm": 0.3264180123806,
      "kl": 0.46136581897735596,
      "learning_rate": 4.773090272617672e-06,
      "loss": 0.0185,
      "reward": 0.2916666865348816,
      "reward_std": 0.4520675241947174,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.2916666865348816,
      "step": 223
    },
    {
      "completion_length": 250.0,
      "epoch": 0.018666666666666668,
      "grad_norm": 0.33508577942848206,
      "kl": 0.33475160598754883,
      "learning_rate": 4.769443696332272e-06,
      "loss": 0.0134,
      "reward": 0.1666666716337204,
      "reward_std": 0.17817416787147522,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.1666666716337204,
      "step": 224
    },
    {
      "completion_length": 250.0,
      "epoch": 0.01875,
      "grad_norm": 0.35157206654548645,
      "kl": 0.48729386925697327,
      "learning_rate": 4.765769467591626e-06,
      "loss": 0.0195,
      "reward": 0.4166666865348816,
      "reward_std": 0.42724665999412537,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.4166666865348816,
      "step": 225
    },
    {
      "completion_length": 250.0,
      "epoch": 0.018833333333333334,
      "grad_norm": 0.44434380531311035,
      "kl": 0.27789148688316345,
      "learning_rate": 4.762067631165049e-06,
      "loss": 0.0111,
      "reward": 0.25,
      "reward_std": 0.34503278136253357,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.125,
      "step": 226
    },
    {
      "completion_length": 250.0,
      "epoch": 0.018916666666666665,
      "grad_norm": 1.0383962392807007,
      "kl": 0.6592018604278564,
      "learning_rate": 4.7583382321582525e-06,
      "loss": 0.0264,
      "reward": 0.75,
      "reward_std": 0.6606874465942383,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.5,
      "step": 227
    },
    {
      "completion_length": 250.0,
      "epoch": 0.019,
      "grad_norm": 0.7657462954521179,
      "kl": 0.45288151502609253,
      "learning_rate": 4.754581316012785e-06,
      "loss": 0.0181,
      "reward": 0.375,
      "reward_std": 0.4520675837993622,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.375,
      "step": 228
    },
    {
      "completion_length": 250.0,
      "epoch": 0.019083333333333334,
      "grad_norm": 0.35769039392471313,
      "kl": 0.4359067380428314,
      "learning_rate": 4.750796928505484e-06,
      "loss": 0.0174,
      "reward": 0.3333333432674408,
      "reward_std": 0.35634833574295044,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.3333333432674408,
      "step": 229
    },
    {
      "completion_length": 250.0,
      "epoch": 0.019166666666666665,
      "grad_norm": 0.6205803155899048,
      "kl": 0.43002450466156006,
      "learning_rate": 4.746985115747918e-06,
      "loss": 0.0172,
      "reward": 0.625,
      "reward_std": 0.7440237998962402,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.375,
      "step": 230
    },
    {
      "completion_length": 250.0,
      "epoch": 0.01925,
      "grad_norm": 0.44161456823349,
      "kl": 0.4217735230922699,
      "learning_rate": 4.743145924185821e-06,
      "loss": 0.0169,
      "reward": 0.375,
      "reward_std": 0.4154745042324066,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.375,
      "step": 231
    },
    {
      "completion_length": 250.0,
      "epoch": 0.019333333333333334,
      "grad_norm": 1.402330994606018,
      "kl": 0.5382075309753418,
      "learning_rate": 4.7392794005985324e-06,
      "loss": 0.0215,
      "reward": 0.5416666865348816,
      "reward_std": 0.43415671586990356,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.5416666865348816,
      "step": 232
    },
    {
      "completion_length": 250.0,
      "epoch": 0.019416666666666665,
      "grad_norm": 0.30393776297569275,
      "kl": 0.41637468338012695,
      "learning_rate": 4.735385592098421e-06,
      "loss": 0.0167,
      "reward": 0.2083333432674408,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.2083333432674408,
      "step": 233
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0195,
      "grad_norm": 0.29830071330070496,
      "kl": 0.38214111328125,
      "learning_rate": 4.731464546130315e-06,
      "loss": 0.0153,
      "reward": 0.5833333730697632,
      "reward_std": 0.7292091846466064,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.4583333432674408,
      "step": 234
    },
    {
      "completion_length": 250.0,
      "epoch": 0.019583333333333335,
      "grad_norm": 0.7765196561813354,
      "kl": 0.6346302032470703,
      "learning_rate": 4.72751631047092e-06,
      "loss": 0.0254,
      "reward": 0.6250000596046448,
      "reward_std": 0.8249579668045044,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.3750000298023224,
      "step": 235
    },
    {
      "completion_length": 250.0,
      "epoch": 0.019666666666666666,
      "grad_norm": 0.5595923662185669,
      "kl": 0.5578448176383972,
      "learning_rate": 4.723540933228245e-06,
      "loss": 0.0223,
      "reward": 0.4583333432674408,
      "reward_std": 0.7332792282104492,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.3333333432674408,
      "step": 236
    },
    {
      "completion_length": 250.0,
      "epoch": 0.01975,
      "grad_norm": 3.7788710594177246,
      "kl": 0.4666965901851654,
      "learning_rate": 4.719538462841003e-06,
      "loss": 0.0187,
      "reward": 0.3333333432674408,
      "reward_std": 0.4714045226573944,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.3333333432674408,
      "step": 237
    },
    {
      "completion_length": 250.0,
      "epoch": 0.019833333333333335,
      "grad_norm": 0.2744882106781006,
      "kl": 0.49767276644706726,
      "learning_rate": 4.715508948078037e-06,
      "loss": 0.0199,
      "reward": 0.5833333730697632,
      "reward_std": 0.34503278136253357,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.5833333730697632,
      "step": 238
    },
    {
      "completion_length": 250.0,
      "epoch": 0.019916666666666666,
      "grad_norm": 37.09307098388672,
      "kl": 2.531292676925659,
      "learning_rate": 4.71145243803771e-06,
      "loss": 0.1013,
      "reward": 0.625,
      "reward_std": 0.7440237998962402,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.5,
      "step": 239
    },
    {
      "completion_length": 250.0,
      "epoch": 0.02,
      "grad_norm": 0.5616350173950195,
      "kl": 0.8509740829467773,
      "learning_rate": 4.707368982147318e-06,
      "loss": 0.034,
      "reward": 0.6666666865348816,
      "reward_std": 0.6900655627250671,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.5416666865348816,
      "step": 240
    },
    {
      "completion_length": 250.0,
      "epoch": 0.020083333333333335,
      "grad_norm": 0.3082992136478424,
      "kl": 0.4213227331638336,
      "learning_rate": 4.703258630162481e-06,
      "loss": 0.0169,
      "reward": 0.2916666567325592,
      "reward_std": 0.37533050775527954,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.2916666865348816,
      "step": 241
    },
    {
      "completion_length": 250.0,
      "epoch": 0.020166666666666666,
      "grad_norm": 0.35087594389915466,
      "kl": 0.34501180052757263,
      "learning_rate": 4.699121432166542e-06,
      "loss": 0.0138,
      "reward": 0.4583333432674408,
      "reward_std": 0.43415671586990356,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.4583333432674408,
      "step": 242
    },
    {
      "completion_length": 250.0,
      "epoch": 0.02025,
      "grad_norm": 1.2634652853012085,
      "kl": 0.8103005290031433,
      "learning_rate": 4.6949574385699514e-06,
      "loss": 0.0324,
      "reward": 1.1666666269302368,
      "reward_std": 0.7766431570053101,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 243
    },
    {
      "completion_length": 250.0,
      "epoch": 0.02033333333333333,
      "grad_norm": 0.8633314967155457,
      "kl": 0.8408775925636292,
      "learning_rate": 4.690766700109659e-06,
      "loss": 0.0336,
      "reward": 0.8333333730697632,
      "reward_std": 0.6424160599708557,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.7083333730697632,
      "step": 244
    },
    {
      "completion_length": 250.0,
      "epoch": 0.020416666666666666,
      "grad_norm": 0.34025847911834717,
      "kl": 0.3001478612422943,
      "learning_rate": 4.68654926784849e-06,
      "loss": 0.012,
      "reward": 0.2916666865348816,
      "reward_std": 0.33034375309944153,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.2916666865348816,
      "step": 245
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0205,
      "grad_norm": 0.6269357800483704,
      "kl": 0.6774225831031799,
      "learning_rate": 4.682305193174524e-06,
      "loss": 0.0271,
      "reward": 0.5,
      "reward_std": 0.4714045226573944,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.5,
      "step": 246
    },
    {
      "completion_length": 250.0,
      "epoch": 0.020583333333333332,
      "grad_norm": 0.261139839887619,
      "kl": 0.628397524356842,
      "learning_rate": 4.6780345278004744e-06,
      "loss": 0.0251,
      "reward": 0.9583333730697632,
      "reward_std": 0.7650604248046875,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.5833333730697632,
      "step": 247
    },
    {
      "completion_length": 250.0,
      "epoch": 0.020666666666666667,
      "grad_norm": 0.3640219569206238,
      "kl": 0.35570889711380005,
      "learning_rate": 4.673737323763048e-06,
      "loss": 0.0142,
      "reward": 0.4166666567325592,
      "reward_std": 0.49601587653160095,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.4166666567325592,
      "step": 248
    },
    {
      "completion_length": 250.0,
      "epoch": 0.02075,
      "grad_norm": 0.3684917688369751,
      "kl": 0.3530455231666565,
      "learning_rate": 4.669413633422322e-06,
      "loss": 0.0141,
      "reward": 0.2916666865348816,
      "reward_std": 0.4520675241947174,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.2916666865348816,
      "step": 249
    },
    {
      "completion_length": 250.0,
      "epoch": 0.020833333333333332,
      "grad_norm": 0.4557255804538727,
      "kl": 0.6199475526809692,
      "learning_rate": 4.665063509461098e-06,
      "loss": 0.0248,
      "reward": 1.1666667461395264,
      "reward_std": 0.7559289336204529,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 250
    },
    {
      "completion_length": 250.0,
      "epoch": 0.020916666666666667,
      "grad_norm": 0.2662737965583801,
      "kl": 0.4792260229587555,
      "learning_rate": 4.6606870048842626e-06,
      "loss": 0.0192,
      "reward": 0.4583333134651184,
      "reward_std": 0.7113032937049866,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.3333333432674408,
      "step": 251
    },
    {
      "completion_length": 250.0,
      "epoch": 0.021,
      "grad_norm": 0.3056776821613312,
      "kl": 0.6897392868995667,
      "learning_rate": 4.656284173018144e-06,
      "loss": 0.0276,
      "reward": 1.2916667461395264,
      "reward_std": 0.6770032048225403,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.6666666865348816,
      "step": 252
    },
    {
      "completion_length": 250.0,
      "epoch": 0.021083333333333332,
      "grad_norm": 0.33795520663261414,
      "kl": 0.3045516312122345,
      "learning_rate": 4.65185506750986e-06,
      "loss": 0.0122,
      "reward": 0.4583333134651184,
      "reward_std": 0.46929532289505005,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.4583333730697632,
      "step": 253
    },
    {
      "completion_length": 250.0,
      "epoch": 0.021166666666666667,
      "grad_norm": 0.24205689132213593,
      "kl": 0.42878177762031555,
      "learning_rate": 4.6473997423266615e-06,
      "loss": 0.0172,
      "reward": 1.125,
      "reward_std": 0.589255690574646,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.7500000596046448,
      "step": 254
    },
    {
      "completion_length": 250.0,
      "epoch": 0.02125,
      "grad_norm": 1.4344029426574707,
      "kl": 0.7129054665565491,
      "learning_rate": 4.642918251755281e-06,
      "loss": 0.0285,
      "reward": 0.5416666269302368,
      "reward_std": 0.5019802451133728,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.5416666865348816,
      "step": 255
    },
    {
      "completion_length": 250.0,
      "epoch": 0.021333333333333333,
      "grad_norm": 2.667504072189331,
      "kl": 1.6249091625213623,
      "learning_rate": 4.638410650401267e-06,
      "loss": 0.065,
      "reward": 0.6666666269302368,
      "reward_std": 0.7126966714859009,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.5416666269302368,
      "step": 256
    },
    {
      "completion_length": 250.0,
      "epoch": 0.021416666666666667,
      "grad_norm": 0.5786775946617126,
      "kl": 0.8081812262535095,
      "learning_rate": 4.633876993188319e-06,
      "loss": 0.0323,
      "reward": 0.8333333730697632,
      "reward_std": 0.35634833574295044,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.5833333730697632,
      "step": 257
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0215,
      "grad_norm": 4.823422908782959,
      "kl": 0.7295472025871277,
      "learning_rate": 4.62931733535762e-06,
      "loss": 0.0292,
      "reward": 0.7083333730697632,
      "reward_std": 0.7000566720962524,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.4583333432674408,
      "step": 258
    },
    {
      "completion_length": 250.0,
      "epoch": 0.021583333333333333,
      "grad_norm": 0.7597243785858154,
      "kl": 0.7165347337722778,
      "learning_rate": 4.62473173246716e-06,
      "loss": 0.0287,
      "reward": 0.7083333730697632,
      "reward_std": 0.6770032048225403,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.5833333730697632,
      "step": 259
    },
    {
      "completion_length": 250.0,
      "epoch": 0.021666666666666667,
      "grad_norm": 0.6498469710350037,
      "kl": 0.6449453830718994,
      "learning_rate": 4.620120240391065e-06,
      "loss": 0.0258,
      "reward": 0.5,
      "reward_std": 0.7559289336204529,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.375,
      "step": 260
    },
    {
      "completion_length": 250.0,
      "epoch": 0.02175,
      "grad_norm": 1.3547675609588623,
      "kl": 0.7189813256263733,
      "learning_rate": 4.6154829153189105e-06,
      "loss": 0.0288,
      "reward": 0.5,
      "reward_std": 0.4364357888698578,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.5,
      "step": 261
    },
    {
      "completion_length": 250.0,
      "epoch": 0.021833333333333333,
      "grad_norm": 0.38959622383117676,
      "kl": 0.6248072981834412,
      "learning_rate": 4.610819813755038e-06,
      "loss": 0.025,
      "reward": 0.6666666865348816,
      "reward_std": 0.7126966714859009,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.5416666865348816,
      "step": 262
    },
    {
      "completion_length": 250.0,
      "epoch": 0.021916666666666668,
      "grad_norm": 0.5569881200790405,
      "kl": 0.5907061696052551,
      "learning_rate": 4.60613099251787e-06,
      "loss": 0.0236,
      "reward": 0.625,
      "reward_std": 0.4520675837993622,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.625,
      "step": 263
    },
    {
      "completion_length": 250.0,
      "epoch": 0.022,
      "grad_norm": 0.9613457322120667,
      "kl": 0.7936864495277405,
      "learning_rate": 4.601416508739211e-06,
      "loss": 0.0317,
      "reward": 0.7083333730697632,
      "reward_std": 0.6770032048225403,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.5833333730697632,
      "step": 264
    },
    {
      "completion_length": 250.0,
      "epoch": 0.022083333333333333,
      "grad_norm": 0.9828578233718872,
      "kl": 0.6290979981422424,
      "learning_rate": 4.596676419863561e-06,
      "loss": 0.0252,
      "reward": 0.75,
      "reward_std": 0.6606874465942383,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.5,
      "step": 265
    },
    {
      "completion_length": 250.0,
      "epoch": 0.022166666666666668,
      "grad_norm": 20.848907470703125,
      "kl": 2.7031993865966797,
      "learning_rate": 4.591910783647405e-06,
      "loss": 0.1081,
      "reward": 0.7083333730697632,
      "reward_std": 0.6531364917755127,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.5833333730697632,
      "step": 266
    },
    {
      "completion_length": 250.0,
      "epoch": 0.02225,
      "grad_norm": 0.6771628260612488,
      "kl": 0.762807309627533,
      "learning_rate": 4.587119658158517e-06,
      "loss": 0.0305,
      "reward": 0.75,
      "reward_std": 0.7071067690849304,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.625,
      "step": 267
    },
    {
      "completion_length": 250.0,
      "epoch": 0.022333333333333334,
      "grad_norm": 1.2213846445083618,
      "kl": 0.7535417675971985,
      "learning_rate": 4.582303101775249e-06,
      "loss": 0.0301,
      "reward": 0.8333333730697632,
      "reward_std": 0.5909367799758911,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.7083333730697632,
      "step": 268
    },
    {
      "completion_length": 250.0,
      "epoch": 0.022416666666666668,
      "grad_norm": 0.3612246513366699,
      "kl": 0.4376307725906372,
      "learning_rate": 4.577461173185821e-06,
      "loss": 0.0175,
      "reward": 0.4583333432674408,
      "reward_std": 0.7332792282104492,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.3333333432674408,
      "step": 269
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0225,
      "grad_norm": 0.5589926242828369,
      "kl": 0.43723782896995544,
      "learning_rate": 4.572593931387604e-06,
      "loss": 0.0175,
      "reward": 0.375,
      "reward_std": 0.3753305673599243,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.375,
      "step": 270
    },
    {
      "completion_length": 250.0,
      "epoch": 0.022583333333333334,
      "grad_norm": 0.4354017972946167,
      "kl": 0.6601411700248718,
      "learning_rate": 4.567701435686405e-06,
      "loss": 0.0264,
      "reward": 0.7083333730697632,
      "reward_std": 0.4520675241947174,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.7083333730697632,
      "step": 271
    },
    {
      "completion_length": 250.0,
      "epoch": 0.02266666666666667,
      "grad_norm": 0.31577983498573303,
      "kl": 0.5072486996650696,
      "learning_rate": 4.562783745695738e-06,
      "loss": 0.0203,
      "reward": 0.75,
      "reward_std": 0.7071067690849304,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.625,
      "step": 272
    },
    {
      "completion_length": 250.0,
      "epoch": 0.02275,
      "grad_norm": 0.44634732604026794,
      "kl": 0.631403386592865,
      "learning_rate": 4.5578409213361055e-06,
      "loss": 0.0253,
      "reward": 1.125,
      "reward_std": 0.5892556309700012,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.75,
      "step": 273
    },
    {
      "completion_length": 250.0,
      "epoch": 0.022833333333333334,
      "grad_norm": 2.6211862564086914,
      "kl": 0.8090041875839233,
      "learning_rate": 4.55287302283426e-06,
      "loss": 0.0324,
      "reward": 0.8333333134651184,
      "reward_std": 0.8164964914321899,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.5833333730697632,
      "step": 274
    },
    {
      "completion_length": 250.0,
      "epoch": 0.022916666666666665,
      "grad_norm": 5.3712663650512695,
      "kl": 1.6774547100067139,
      "learning_rate": 4.54788011072248e-06,
      "loss": 0.0671,
      "reward": 0.7916666865348816,
      "reward_std": 0.7332792282104492,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.5416666865348816,
      "step": 275
    },
    {
      "completion_length": 250.0,
      "epoch": 0.023,
      "grad_norm": 0.9446873068809509,
      "kl": 0.5351336002349854,
      "learning_rate": 4.542862245837821e-06,
      "loss": 0.0214,
      "reward": 0.4166666865348816,
      "reward_std": 0.49601587653160095,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.2916666567325592,
      "step": 276
    },
    {
      "completion_length": 250.0,
      "epoch": 0.023083333333333334,
      "grad_norm": 2.5900323390960693,
      "kl": 1.0092023611068726,
      "learning_rate": 4.537819489321385e-06,
      "loss": 0.0404,
      "reward": 0.9166666865348816,
      "reward_std": 0.5841830372810364,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.7916666269302368,
      "step": 277
    },
    {
      "completion_length": 250.0,
      "epoch": 0.023166666666666665,
      "grad_norm": 0.4755576550960541,
      "kl": 0.756645917892456,
      "learning_rate": 4.5327519026175694e-06,
      "loss": 0.0303,
      "reward": 0.8333333730697632,
      "reward_std": 0.4364357888698578,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.5833333730697632,
      "step": 278
    },
    {
      "completion_length": 250.0,
      "epoch": 0.02325,
      "grad_norm": 0.26933223009109497,
      "kl": 0.7350080013275146,
      "learning_rate": 4.527659547473317e-06,
      "loss": 0.0294,
      "reward": 1.0,
      "reward_std": 0.6900655031204224,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.75,
      "step": 279
    },
    {
      "completion_length": 189.0,
      "epoch": 0.023333333333333334,
      "grad_norm": 0.3307403028011322,
      "kl": 0.6269306540489197,
      "learning_rate": 4.522542485937369e-06,
      "loss": 0.0251,
      "reward": 1.0,
      "reward_std": 0.7559289336204529,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.75,
      "step": 280
    },
    {
      "completion_length": 250.0,
      "epoch": 0.023416666666666665,
      "grad_norm": 0.4250253140926361,
      "kl": 0.7219645977020264,
      "learning_rate": 4.517400780359505e-06,
      "loss": 0.0289,
      "reward": 1.0,
      "reward_std": 0.7126966118812561,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.75,
      "step": 281
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0235,
      "grad_norm": 0.2644083499908447,
      "kl": 0.7858296632766724,
      "learning_rate": 4.512234493389785e-06,
      "loss": 0.0314,
      "reward": 1.3333333730697632,
      "reward_std": 0.5634361505508423,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 282
    },
    {
      "completion_length": 250.0,
      "epoch": 0.023583333333333335,
      "grad_norm": 0.9490629434585571,
      "kl": 1.0001749992370605,
      "learning_rate": 4.507043687977787e-06,
      "loss": 0.04,
      "reward": 0.8333333730697632,
      "reward_std": 0.6900655627250671,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.5833333730697632,
      "step": 283
    },
    {
      "completion_length": 250.0,
      "epoch": 0.023666666666666666,
      "grad_norm": 2.613924741744995,
      "kl": 0.9775833487510681,
      "learning_rate": 4.501828427371834e-06,
      "loss": 0.0391,
      "reward": 0.875,
      "reward_std": 0.9074209332466125,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.375,
      "step": 284
    },
    {
      "completion_length": 250.0,
      "epoch": 0.02375,
      "grad_norm": 0.32292431592941284,
      "kl": 0.39211633801460266,
      "learning_rate": 4.496588775118232e-06,
      "loss": 0.0157,
      "reward": 0.4583333432674408,
      "reward_std": 0.43415671586990356,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.4583333432674408,
      "step": 285
    },
    {
      "completion_length": 250.0,
      "epoch": 0.023833333333333335,
      "grad_norm": 3.7025341987609863,
      "kl": 0.681837260723114,
      "learning_rate": 4.491324795060491e-06,
      "loss": 0.0273,
      "reward": 0.7916666865348816,
      "reward_std": 0.39591163396835327,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.6666666865348816,
      "step": 286
    },
    {
      "completion_length": 250.0,
      "epoch": 0.023916666666666666,
      "grad_norm": 0.4885029196739197,
      "kl": 0.9224212765693665,
      "learning_rate": 4.4860365513385456e-06,
      "loss": 0.0369,
      "reward": 0.9583333730697632,
      "reward_std": 0.7650604248046875,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.5833333730697632,
      "step": 287
    },
    {
      "completion_length": 250.0,
      "epoch": 0.024,
      "grad_norm": 0.3269827365875244,
      "kl": 0.5056464672088623,
      "learning_rate": 4.4807241083879774e-06,
      "loss": 0.0202,
      "reward": 0.7083333730697632,
      "reward_std": 0.7000566720962524,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.5833333134651184,
      "step": 288
    },
    {
      "completion_length": 250.0,
      "epoch": 0.024083333333333335,
      "grad_norm": 1.628382682800293,
      "kl": 0.7768495678901672,
      "learning_rate": 4.475387530939226e-06,
      "loss": 0.0311,
      "reward": 1.125,
      "reward_std": 0.8345229625701904,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.75,
      "step": 289
    },
    {
      "completion_length": 250.0,
      "epoch": 0.024166666666666666,
      "grad_norm": 0.42525872588157654,
      "kl": 0.44087234139442444,
      "learning_rate": 4.470026884016805e-06,
      "loss": 0.0176,
      "reward": 0.6666666865348816,
      "reward_std": 0.7126966118812561,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.5416666269302368,
      "step": 290
    },
    {
      "completion_length": 250.0,
      "epoch": 0.02425,
      "grad_norm": 1.2830743789672852,
      "kl": 0.5833079814910889,
      "learning_rate": 4.464642232938505e-06,
      "loss": 0.0233,
      "reward": 0.5416666865348816,
      "reward_std": 0.7332792282104492,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.4166666865348816,
      "step": 291
    },
    {
      "completion_length": 250.0,
      "epoch": 0.024333333333333332,
      "grad_norm": 0.2711179256439209,
      "kl": 0.6251975297927856,
      "learning_rate": 4.4592336433146e-06,
      "loss": 0.025,
      "reward": 1.4583333730697632,
      "reward_std": 0.7332792282104492,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.8333333134651184,
      "step": 292
    },
    {
      "completion_length": 250.0,
      "epoch": 0.024416666666666666,
      "grad_norm": 1.7788009643554688,
      "kl": 1.1422821283340454,
      "learning_rate": 4.453801181047047e-06,
      "loss": 0.0457,
      "reward": 1.25,
      "reward_std": 0.8864052295684814,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.75,
      "step": 293
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0245,
      "grad_norm": 0.6440579295158386,
      "kl": 0.7067055106163025,
      "learning_rate": 4.448344912328686e-06,
      "loss": 0.0283,
      "reward": 0.9583333730697632,
      "reward_std": 0.5473601818084717,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 294
    },
    {
      "completion_length": 250.0,
      "epoch": 0.024583333333333332,
      "grad_norm": 1.1637884378433228,
      "kl": 1.3202813863754272,
      "learning_rate": 4.442864903642428e-06,
      "loss": 0.0528,
      "reward": 1.2083333730697632,
      "reward_std": 0.7332792282104492,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 295
    },
    {
      "completion_length": 250.0,
      "epoch": 0.024666666666666667,
      "grad_norm": 0.35194841027259827,
      "kl": 0.6548830270767212,
      "learning_rate": 4.437361221760449e-06,
      "loss": 0.0262,
      "reward": 1.0,
      "reward_std": 0.7126966118812561,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.75,
      "step": 296
    },
    {
      "completion_length": 250.0,
      "epoch": 0.02475,
      "grad_norm": 0.7272174954414368,
      "kl": 0.7445266842842102,
      "learning_rate": 4.431833933743378e-06,
      "loss": 0.0298,
      "reward": 1.0416666269302368,
      "reward_std": 1.0302951335906982,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.5416666865348816,
      "step": 297
    },
    {
      "completion_length": 250.0,
      "epoch": 0.024833333333333332,
      "grad_norm": 0.36612656712532043,
      "kl": 0.6318120956420898,
      "learning_rate": 4.426283106939474e-06,
      "loss": 0.0253,
      "reward": 0.7916666269302368,
      "reward_std": 0.8533315062522888,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.5416666269302368,
      "step": 298
    },
    {
      "completion_length": 250.0,
      "epoch": 0.024916666666666667,
      "grad_norm": 4.444971561431885,
      "kl": 1.4804537296295166,
      "learning_rate": 4.420708808983809e-06,
      "loss": 0.0592,
      "reward": 1.375,
      "reward_std": 0.7440237998962402,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.75,
      "step": 299
    },
    {
      "completion_length": 250.0,
      "epoch": 0.025,
      "grad_norm": 0.3847966194152832,
      "kl": 0.6287730932235718,
      "learning_rate": 4.415111107797445e-06,
      "loss": 0.0252,
      "reward": 1.0416667461395264,
      "reward_std": 0.9332908391952515,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.4166666865348816,
      "step": 300
    },
    {
      "completion_length": 250.0,
      "epoch": 0.025083333333333332,
      "grad_norm": 1.1420190334320068,
      "kl": 0.900063157081604,
      "learning_rate": 4.409490071586606e-06,
      "loss": 0.036,
      "reward": 1.375,
      "reward_std": 0.7440237998962402,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.875,
      "step": 301
    },
    {
      "completion_length": 250.0,
      "epoch": 0.025166666666666667,
      "grad_norm": 1.9523299932479858,
      "kl": 1.0245622396469116,
      "learning_rate": 4.403845768841842e-06,
      "loss": 0.041,
      "reward": 0.8333333134651184,
      "reward_std": 0.8164965510368347,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.5833333134651184,
      "step": 302
    },
    {
      "completion_length": 250.0,
      "epoch": 0.02525,
      "grad_norm": 0.2748126685619354,
      "kl": 0.49438124895095825,
      "learning_rate": 4.398178268337202e-06,
      "loss": 0.0198,
      "reward": 0.7083333730697632,
      "reward_std": 0.7000566720962524,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.4583333432674408,
      "step": 303
    },
    {
      "completion_length": 250.0,
      "epoch": 0.025333333333333333,
      "grad_norm": 0.9594418406486511,
      "kl": 0.8395068049430847,
      "learning_rate": 4.3924876391293915e-06,
      "loss": 0.0336,
      "reward": 1.625,
      "reward_std": 0.7440237998962402,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.875,
      "step": 304
    },
    {
      "completion_length": 250.0,
      "epoch": 0.025416666666666667,
      "grad_norm": 0.33724528551101685,
      "kl": 0.4758547246456146,
      "learning_rate": 4.386773950556931e-06,
      "loss": 0.019,
      "reward": 0.3750000298023224,
      "reward_std": 0.4520675837993622,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.375,
      "step": 305
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0255,
      "grad_norm": 0.8724843859672546,
      "kl": 0.882912278175354,
      "learning_rate": 4.381037272239311e-06,
      "loss": 0.0353,
      "reward": 1.4166666269302368,
      "reward_std": 0.6606874465942383,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 306
    },
    {
      "completion_length": 250.0,
      "epoch": 0.025583333333333333,
      "grad_norm": 0.30091574788093567,
      "kl": 0.7076762318611145,
      "learning_rate": 4.3752776740761495e-06,
      "loss": 0.0283,
      "reward": 1.0833333730697632,
      "reward_std": 0.5841830968856812,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.7083333730697632,
      "step": 307
    },
    {
      "completion_length": 250.0,
      "epoch": 0.025666666666666667,
      "grad_norm": 0.3942156434059143,
      "kl": 1.1950002908706665,
      "learning_rate": 4.36949522624633e-06,
      "loss": 0.0478,
      "reward": 1.625,
      "reward_std": 0.7440237998962402,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.875,
      "step": 308
    },
    {
      "completion_length": 250.0,
      "epoch": 0.02575,
      "grad_norm": 1.6910313367843628,
      "kl": 1.2377409934997559,
      "learning_rate": 4.3636899992071555e-06,
      "loss": 0.0495,
      "reward": 1.125,
      "reward_std": 0.46929532289505005,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.8750000596046448,
      "step": 309
    },
    {
      "completion_length": 250.0,
      "epoch": 0.025833333333333333,
      "grad_norm": 3.3976781368255615,
      "kl": 1.8446786403656006,
      "learning_rate": 4.357862063693486e-06,
      "loss": 0.0738,
      "reward": 1.3333332538604736,
      "reward_std": 0.9428090453147888,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.7083333730697632,
      "step": 310
    },
    {
      "completion_length": 250.0,
      "epoch": 0.025916666666666668,
      "grad_norm": 0.49139174818992615,
      "kl": 1.5378676652908325,
      "learning_rate": 4.352011490716875e-06,
      "loss": 0.0615,
      "reward": 1.2916666269302368,
      "reward_std": 0.8249579071998596,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.6666666865348816,
      "step": 311
    },
    {
      "completion_length": 250.0,
      "epoch": 0.026,
      "grad_norm": 0.49455150961875916,
      "kl": 1.1211459636688232,
      "learning_rate": 4.346138351564711e-06,
      "loss": 0.0448,
      "reward": 0.7083333730697632,
      "reward_std": 0.7000566720962524,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.5833333730697632,
      "step": 312
    },
    {
      "completion_length": 250.0,
      "epoch": 0.026083333333333333,
      "grad_norm": 1.1779581308364868,
      "kl": 1.5087566375732422,
      "learning_rate": 4.340242717799337e-06,
      "loss": 0.0604,
      "reward": 0.75,
      "reward_std": 0.8498365879058838,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.5,
      "step": 313
    },
    {
      "completion_length": 250.0,
      "epoch": 0.026166666666666668,
      "grad_norm": 0.3693522810935974,
      "kl": 0.5869612693786621,
      "learning_rate": 4.334324661257191e-06,
      "loss": 0.0235,
      "reward": 1.0,
      "reward_std": 0.9258201122283936,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.625,
      "step": 314
    },
    {
      "completion_length": 250.0,
      "epoch": 0.02625,
      "grad_norm": 2.1444251537323,
      "kl": 1.3732556104660034,
      "learning_rate": 4.328384254047927e-06,
      "loss": 0.0549,
      "reward": 1.75,
      "reward_std": 0.4629100561141968,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 1.0,
      "step": 315
    },
    {
      "completion_length": 250.0,
      "epoch": 0.026333333333333334,
      "grad_norm": 0.30390700697898865,
      "kl": 0.9706352949142456,
      "learning_rate": 4.322421568553529e-06,
      "loss": 0.0388,
      "reward": 1.0416667461395264,
      "reward_std": 0.4520675837993622,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 316
    },
    {
      "completion_length": 250.0,
      "epoch": 0.026416666666666668,
      "grad_norm": 1.256115436553955,
      "kl": 0.730143129825592,
      "learning_rate": 4.316436677427441e-06,
      "loss": 0.0292,
      "reward": 1.375,
      "reward_std": 0.8807914853096008,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.75,
      "step": 317
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0265,
      "grad_norm": 0.3741249442100525,
      "kl": 0.9804970622062683,
      "learning_rate": 4.3104296535936695e-06,
      "loss": 0.0392,
      "reward": 1.125,
      "reward_std": 0.589255690574646,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.875,
      "step": 318
    },
    {
      "completion_length": 250.0,
      "epoch": 0.026583333333333334,
      "grad_norm": 2.2285826206207275,
      "kl": 1.3444833755493164,
      "learning_rate": 4.3044005702459055e-06,
      "loss": 0.0538,
      "reward": 1.0416666269302368,
      "reward_std": 0.7223747968673706,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.6666666865348816,
      "step": 319
    },
    {
      "completion_length": 250.0,
      "epoch": 0.02666666666666667,
      "grad_norm": 1.4974360466003418,
      "kl": 0.8706364035606384,
      "learning_rate": 4.2983495008466285e-06,
      "loss": 0.0348,
      "reward": 1.0,
      "reward_std": 0.7559289336204529,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.75,
      "step": 320
    },
    {
      "completion_length": 250.0,
      "epoch": 0.02675,
      "grad_norm": 0.8530201315879822,
      "kl": 0.9074989557266235,
      "learning_rate": 4.2922765191262075e-06,
      "loss": 0.0363,
      "reward": 0.75,
      "reward_std": 0.6606874465942383,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.625,
      "step": 321
    },
    {
      "completion_length": 250.0,
      "epoch": 0.026833333333333334,
      "grad_norm": 0.4051268398761749,
      "kl": 0.6288662552833557,
      "learning_rate": 4.286181699082008e-06,
      "loss": 0.0252,
      "reward": 0.875,
      "reward_std": 0.7753647565841675,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.625,
      "step": 322
    },
    {
      "completion_length": 250.0,
      "epoch": 0.026916666666666665,
      "grad_norm": 0.430800199508667,
      "kl": 0.9511799216270447,
      "learning_rate": 4.280065114977492e-06,
      "loss": 0.038,
      "reward": 1.0833333730697632,
      "reward_std": 0.8864052295684814,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.4583333432674408,
      "step": 323
    },
    {
      "completion_length": 250.0,
      "epoch": 0.027,
      "grad_norm": 0.48526695370674133,
      "kl": 1.0858272314071655,
      "learning_rate": 4.273926841341303e-06,
      "loss": 0.0434,
      "reward": 1.0833332538604736,
      "reward_std": 0.9880235195159912,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.5833333730697632,
      "step": 324
    },
    {
      "completion_length": 222.0,
      "epoch": 0.027083333333333334,
      "grad_norm": 0.22421292960643768,
      "kl": 0.834428071975708,
      "learning_rate": 4.267766952966369e-06,
      "loss": 0.0334,
      "reward": 1.5416667461395264,
      "reward_std": 0.501980185508728,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 325
    },
    {
      "completion_length": 250.0,
      "epoch": 0.027166666666666665,
      "grad_norm": 0.3456939458847046,
      "kl": 1.3001376390457153,
      "learning_rate": 4.261585524908987e-06,
      "loss": 0.052,
      "reward": 1.375,
      "reward_std": 0.602573812007904,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.875,
      "step": 326
    },
    {
      "completion_length": 250.0,
      "epoch": 0.02725,
      "grad_norm": 0.3079489469528198,
      "kl": 0.6641181111335754,
      "learning_rate": 4.255382632487907e-06,
      "loss": 0.0266,
      "reward": 0.9583333730697632,
      "reward_std": 0.7855339050292969,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.4583333730697632,
      "step": 327
    },
    {
      "completion_length": 250.0,
      "epoch": 0.027333333333333334,
      "grad_norm": 0.6239248514175415,
      "kl": 0.5432109236717224,
      "learning_rate": 4.249158351283414e-06,
      "loss": 0.0217,
      "reward": 1.0416667461395264,
      "reward_std": 0.6770032048225403,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 328
    },
    {
      "completion_length": 250.0,
      "epoch": 0.027416666666666666,
      "grad_norm": 2.2812557220458984,
      "kl": 1.1748898029327393,
      "learning_rate": 4.242912757136412e-06,
      "loss": 0.047,
      "reward": 1.0416667461395264,
      "reward_std": 0.7000566720962524,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 329
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0275,
      "grad_norm": 0.3581920266151428,
      "kl": 0.6617559790611267,
      "learning_rate": 4.236645926147493e-06,
      "loss": 0.0265,
      "reward": 1.125,
      "reward_std": 0.7955730557441711,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.7500000596046448,
      "step": 330
    },
    {
      "completion_length": 250.0,
      "epoch": 0.027583333333333335,
      "grad_norm": 1.4809401035308838,
      "kl": 1.5578365325927734,
      "learning_rate": 4.230357934676017e-06,
      "loss": 0.0623,
      "reward": 1.4583333730697632,
      "reward_std": 0.7546154260635376,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 331
    },
    {
      "completion_length": 250.0,
      "epoch": 0.027666666666666666,
      "grad_norm": 0.35725685954093933,
      "kl": 1.0120397806167603,
      "learning_rate": 4.224048859339175e-06,
      "loss": 0.0405,
      "reward": 1.2083333730697632,
      "reward_std": 0.6651769280433655,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 332
    },
    {
      "completion_length": 250.0,
      "epoch": 0.02775,
      "grad_norm": 0.28768303990364075,
      "kl": 0.9968042969703674,
      "learning_rate": 4.217718777011058e-06,
      "loss": 0.0399,
      "reward": 1.2916667461395264,
      "reward_std": 0.6283639669418335,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 333
    },
    {
      "completion_length": 250.0,
      "epoch": 0.027833333333333335,
      "grad_norm": 0.8159481287002563,
      "kl": 0.9098507761955261,
      "learning_rate": 4.211367764821722e-06,
      "loss": 0.0364,
      "reward": 1.0833333730697632,
      "reward_std": 0.6606874465942383,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.7083333730697632,
      "step": 334
    },
    {
      "completion_length": 250.0,
      "epoch": 0.027916666666666666,
      "grad_norm": 28.54840087890625,
      "kl": 6.921156406402588,
      "learning_rate": 4.204995900156247e-06,
      "loss": 0.2768,
      "reward": 1.6666667461395264,
      "reward_std": 0.6900655627250671,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.7916667461395264,
      "step": 335
    },
    {
      "completion_length": 250.0,
      "epoch": 0.028,
      "grad_norm": 3.128087282180786,
      "kl": 1.198431134223938,
      "learning_rate": 4.198603260653792e-06,
      "loss": 0.0479,
      "reward": 1.5833333730697632,
      "reward_std": 0.527046263217926,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 336
    },
    {
      "completion_length": 250.0,
      "epoch": 0.02808333333333333,
      "grad_norm": 8.092500686645508,
      "kl": 4.037166595458984,
      "learning_rate": 4.192189924206652e-06,
      "loss": 0.1615,
      "reward": 1.25,
      "reward_std": 0.8864052295684814,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.625,
      "step": 337
    },
    {
      "completion_length": 250.0,
      "epoch": 0.028166666666666666,
      "grad_norm": 2.2210144996643066,
      "kl": 1.3574161529541016,
      "learning_rate": 4.185755968959308e-06,
      "loss": 0.0543,
      "reward": 1.3333333730697632,
      "reward_std": 0.8164965510368347,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.7083333730697632,
      "step": 338
    },
    {
      "completion_length": 250.0,
      "epoch": 0.02825,
      "grad_norm": 1.8085874319076538,
      "kl": 0.9977900385856628,
      "learning_rate": 4.179301473307476e-06,
      "loss": 0.0399,
      "reward": 1.375,
      "reward_std": 0.7440237998962402,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.875,
      "step": 339
    },
    {
      "completion_length": 250.0,
      "epoch": 0.028333333333333332,
      "grad_norm": 0.8611170649528503,
      "kl": 0.8231365084648132,
      "learning_rate": 4.172826515897146e-06,
      "loss": 0.0329,
      "reward": 1.1666666269302368,
      "reward_std": 0.7968190312385559,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.5416666865348816,
      "step": 340
    },
    {
      "completion_length": 250.0,
      "epoch": 0.028416666666666666,
      "grad_norm": 0.2523643970489502,
      "kl": 1.1845202445983887,
      "learning_rate": 4.166331175623631e-06,
      "loss": 0.0474,
      "reward": 1.625,
      "reward_std": 0.7440237998962402,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.875,
      "step": 341
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0285,
      "grad_norm": 0.3289211690425873,
      "kl": 0.9523929953575134,
      "learning_rate": 4.159815531630604e-06,
      "loss": 0.0381,
      "reward": 1.375,
      "reward_std": 0.7440237998962402,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.875,
      "step": 342
    },
    {
      "completion_length": 250.0,
      "epoch": 0.028583333333333332,
      "grad_norm": 1.336962103843689,
      "kl": 1.3120596408843994,
      "learning_rate": 4.15327966330913e-06,
      "loss": 0.0525,
      "reward": 1.1666667461395264,
      "reward_std": 0.5634361505508423,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 343
    },
    {
      "completion_length": 240.0,
      "epoch": 0.028666666666666667,
      "grad_norm": 0.3630130887031555,
      "kl": 1.1895368099212646,
      "learning_rate": 4.146723650296701e-06,
      "loss": 0.0476,
      "reward": 1.75,
      "reward_std": 0.4629100561141968,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 1.0,
      "step": 344
    },
    {
      "completion_length": 250.0,
      "epoch": 0.02875,
      "grad_norm": 0.3989483416080475,
      "kl": 0.6941573619842529,
      "learning_rate": 4.140147572476269e-06,
      "loss": 0.0278,
      "reward": 0.7083333730697632,
      "reward_std": 0.6531365513801575,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.4583333432674408,
      "step": 345
    },
    {
      "completion_length": 250.0,
      "epoch": 0.028833333333333332,
      "grad_norm": 0.315608412027359,
      "kl": 0.5940113067626953,
      "learning_rate": 4.133551509975264e-06,
      "loss": 0.0238,
      "reward": 1.0416666269302368,
      "reward_std": 0.8439795970916748,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.6666666865348816,
      "step": 346
    },
    {
      "completion_length": 250.0,
      "epoch": 0.028916666666666667,
      "grad_norm": 0.28037476539611816,
      "kl": 0.553116500377655,
      "learning_rate": 4.126935543164628e-06,
      "loss": 0.0221,
      "reward": 1.25,
      "reward_std": 0.8864052295684814,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.625,
      "step": 347
    },
    {
      "completion_length": 250.0,
      "epoch": 0.029,
      "grad_norm": 0.23763324320316315,
      "kl": 0.6913818717002869,
      "learning_rate": 4.120299752657828e-06,
      "loss": 0.0277,
      "reward": 1.6666666269302368,
      "reward_std": 0.6424161195755005,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 348
    },
    {
      "completion_length": 250.0,
      "epoch": 0.029083333333333333,
      "grad_norm": 0.367928147315979,
      "kl": 0.6871733665466309,
      "learning_rate": 4.113644219309877e-06,
      "loss": 0.0275,
      "reward": 1.375,
      "reward_std": 0.8054870963096619,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.75,
      "step": 349
    },
    {
      "completion_length": 250.0,
      "epoch": 0.029166666666666667,
      "grad_norm": 0.2744889557361603,
      "kl": 0.7716153860092163,
      "learning_rate": 4.106969024216348e-06,
      "loss": 0.0309,
      "reward": 0.9583333730697632,
      "reward_std": 0.8054871559143066,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.5833333134651184,
      "step": 350
    },
    {
      "completion_length": 250.0,
      "epoch": 0.02925,
      "grad_norm": 1.142672061920166,
      "kl": 1.1665054559707642,
      "learning_rate": 4.1002742487123896e-06,
      "loss": 0.0467,
      "reward": 1.5833333730697632,
      "reward_std": 0.5841830372810364,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 351
    },
    {
      "completion_length": 250.0,
      "epoch": 0.029333333333333333,
      "grad_norm": 0.0448664054274559,
      "kl": 1.181343674659729,
      "learning_rate": 4.093559974371725e-06,
      "loss": 0.0473,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 1.0,
      "rewards/format_reward_func": 1.0,
      "step": 352
    },
    {
      "completion_length": 250.0,
      "epoch": 0.029416666666666667,
      "grad_norm": 0.2805432975292206,
      "kl": 1.1471784114837646,
      "learning_rate": 4.086826283005669e-06,
      "loss": 0.0459,
      "reward": 1.2916666269302368,
      "reward_std": 0.6283639669418335,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 353
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0295,
      "grad_norm": 0.36402520537376404,
      "kl": 0.9837138056755066,
      "learning_rate": 4.080073256662128e-06,
      "loss": 0.0393,
      "reward": 1.25,
      "reward_std": 0.7071067690849304,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.875,
      "step": 354
    },
    {
      "completion_length": 250.0,
      "epoch": 0.029583333333333333,
      "grad_norm": 0.24651949107646942,
      "kl": 0.8240635991096497,
      "learning_rate": 4.073300977624594e-06,
      "loss": 0.033,
      "reward": 1.6666666269302368,
      "reward_std": 0.6424160599708557,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 355
    },
    {
      "completion_length": 250.0,
      "epoch": 0.029666666666666668,
      "grad_norm": 0.8997929692268372,
      "kl": 1.0346089601516724,
      "learning_rate": 4.066509528411151e-06,
      "loss": 0.0414,
      "reward": 1.3333333730697632,
      "reward_std": 0.7766431570053101,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 356
    },
    {
      "completion_length": 213.0,
      "epoch": 0.02975,
      "grad_norm": 0.2964262068271637,
      "kl": 1.3979225158691406,
      "learning_rate": 4.059698991773466e-06,
      "loss": 0.0559,
      "reward": 1.625,
      "reward_std": 0.5175491571426392,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.875,
      "step": 357
    },
    {
      "completion_length": 250.0,
      "epoch": 0.029833333333333333,
      "grad_norm": 0.5031925439834595,
      "kl": 1.1336249113082886,
      "learning_rate": 4.052869450695776e-06,
      "loss": 0.0453,
      "reward": 1.6666666269302368,
      "reward_std": 0.6424160599708557,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 358
    },
    {
      "completion_length": 250.0,
      "epoch": 0.029916666666666668,
      "grad_norm": 0.4681895971298218,
      "kl": 0.8900135159492493,
      "learning_rate": 4.046020988393886e-06,
      "loss": 0.0356,
      "reward": 1.0,
      "reward_std": 0.8908708095550537,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.625,
      "step": 359
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03,
      "grad_norm": 0.320224791765213,
      "kl": 0.7603616714477539,
      "learning_rate": 4.039153688314146e-06,
      "loss": 0.0304,
      "reward": 1.25,
      "reward_std": 0.6606874465942383,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.875,
      "step": 360
    },
    {
      "completion_length": 250.0,
      "epoch": 0.030083333333333333,
      "grad_norm": 0.6727330684661865,
      "kl": 0.9661973714828491,
      "learning_rate": 4.032267634132442e-06,
      "loss": 0.0386,
      "reward": 1.375,
      "reward_std": 0.5175491571426392,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 1.0,
      "step": 361
    },
    {
      "completion_length": 250.0,
      "epoch": 0.030166666666666668,
      "grad_norm": 0.8547607064247131,
      "kl": 1.3019939661026,
      "learning_rate": 4.02536290975317e-06,
      "loss": 0.0521,
      "reward": 1.625,
      "reward_std": 0.5175491571426392,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.875,
      "step": 362
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03025,
      "grad_norm": 0.27684468030929565,
      "kl": 0.980901300907135,
      "learning_rate": 4.018439599308217e-06,
      "loss": 0.0392,
      "reward": 1.125,
      "reward_std": 0.8345229625701904,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.625,
      "step": 363
    },
    {
      "completion_length": 250.0,
      "epoch": 0.030333333333333334,
      "grad_norm": 0.6026430726051331,
      "kl": 0.8164455890655518,
      "learning_rate": 4.011497787155938e-06,
      "loss": 0.0327,
      "reward": 1.2083333730697632,
      "reward_std": 0.7546154260635376,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.7083333134651184,
      "step": 364
    },
    {
      "completion_length": 250.0,
      "epoch": 0.030416666666666668,
      "grad_norm": 0.24824610352516174,
      "kl": 0.7272346019744873,
      "learning_rate": 4.0045375578801216e-06,
      "loss": 0.0291,
      "reward": 1.2083332538604736,
      "reward_std": 0.8897565007209778,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.7083333730697632,
      "step": 365
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0305,
      "grad_norm": 0.419993132352829,
      "kl": 0.791063666343689,
      "learning_rate": 3.997558996288965e-06,
      "loss": 0.0316,
      "reward": 0.875,
      "reward_std": 0.6651769280433655,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.625,
      "step": 366
    },
    {
      "completion_length": 250.0,
      "epoch": 0.030583333333333334,
      "grad_norm": 0.24291253089904785,
      "kl": 0.8568480014801025,
      "learning_rate": 3.9905621874140396e-06,
      "loss": 0.0343,
      "reward": 1.125,
      "reward_std": 0.5019802451133728,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.875,
      "step": 367
    },
    {
      "completion_length": 250.0,
      "epoch": 0.030666666666666665,
      "grad_norm": 1.9887789487838745,
      "kl": 1.3834556341171265,
      "learning_rate": 3.983547216509254e-06,
      "loss": 0.0553,
      "reward": 1.5,
      "reward_std": 0.9258201122283936,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.75,
      "step": 368
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03075,
      "grad_norm": 1.0339287519454956,
      "kl": 1.5022096633911133,
      "learning_rate": 3.976514169049814e-06,
      "loss": 0.0601,
      "reward": 0.8333333134651184,
      "reward_std": 0.8728715777397156,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.3333333432674408,
      "step": 369
    },
    {
      "completion_length": 250.0,
      "epoch": 0.030833333333333334,
      "grad_norm": 1.1466647386550903,
      "kl": 0.6712841987609863,
      "learning_rate": 3.969463130731183e-06,
      "loss": 0.0269,
      "reward": 0.5416666865348816,
      "reward_std": 0.46929532289505005,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.5416666865348816,
      "step": 370
    },
    {
      "completion_length": 250.0,
      "epoch": 0.030916666666666665,
      "grad_norm": 0.8428452014923096,
      "kl": 1.1327028274536133,
      "learning_rate": 3.96239418746804e-06,
      "loss": 0.0453,
      "reward": 1.6666666269302368,
      "reward_std": 0.6424161195755005,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 371
    },
    {
      "completion_length": 250.0,
      "epoch": 0.031,
      "grad_norm": 1.3757325410842896,
      "kl": 0.7787545919418335,
      "learning_rate": 3.955307425393224e-06,
      "loss": 0.0312,
      "reward": 1.625,
      "reward_std": 0.5175491571426392,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 1.0,
      "step": 372
    },
    {
      "completion_length": 250.0,
      "epoch": 0.031083333333333334,
      "grad_norm": 0.7574729323387146,
      "kl": 1.0990623235702515,
      "learning_rate": 3.948202930856697e-06,
      "loss": 0.044,
      "reward": 1.3333333730697632,
      "reward_std": 0.5634361505508423,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 373
    },
    {
      "completion_length": 250.0,
      "epoch": 0.031166666666666665,
      "grad_norm": 4.400579452514648,
      "kl": 1.3642206192016602,
      "learning_rate": 3.941080790424483e-06,
      "loss": 0.0546,
      "reward": 1.2083333730697632,
      "reward_std": 0.8533315062522888,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.7083333730697632,
      "step": 374
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03125,
      "grad_norm": 0.5696729421615601,
      "kl": 1.0298165082931519,
      "learning_rate": 3.933941090877615e-06,
      "loss": 0.0412,
      "reward": 1.6666667461395264,
      "reward_std": 0.4714045226573944,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 375
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03133333333333333,
      "grad_norm": 0.22187651693820953,
      "kl": 0.9323797225952148,
      "learning_rate": 3.92678391921108e-06,
      "loss": 0.0373,
      "reward": 1.25,
      "reward_std": 0.7071067690849304,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.875,
      "step": 376
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03141666666666667,
      "grad_norm": 0.35391122102737427,
      "kl": 1.0090752840042114,
      "learning_rate": 3.9196093626327535e-06,
      "loss": 0.0404,
      "reward": 1.6666667461395264,
      "reward_std": 0.6900655627250671,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 377
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0315,
      "grad_norm": 3.709547758102417,
      "kl": 1.3984549045562744,
      "learning_rate": 3.912417508562345e-06,
      "loss": 0.0559,
      "reward": 1.25,
      "reward_std": 0.7071067690849304,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.875,
      "step": 378
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03158333333333333,
      "grad_norm": 2.316877603530884,
      "kl": 1.1878688335418701,
      "learning_rate": 3.905208444630326e-06,
      "loss": 0.0475,
      "reward": 1.0833333730697632,
      "reward_std": 0.8498365879058838,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.7083333730697632,
      "step": 379
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03166666666666667,
      "grad_norm": 0.40123090147972107,
      "kl": 1.305446982383728,
      "learning_rate": 3.897982258676867e-06,
      "loss": 0.0522,
      "reward": 1.0833333730697632,
      "reward_std": 0.771516740322113,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.5833333134651184,
      "step": 380
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03175,
      "grad_norm": 0.3199678659439087,
      "kl": 1.1264021396636963,
      "learning_rate": 3.890739038750763e-06,
      "loss": 0.0451,
      "reward": 1.25,
      "reward_std": 0.7071067690849304,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.75,
      "step": 381
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03183333333333333,
      "grad_norm": 0.27256831526756287,
      "kl": 1.2236875295639038,
      "learning_rate": 3.88347887310836e-06,
      "loss": 0.0489,
      "reward": 1.6666667461395264,
      "reward_std": 0.4714045226573944,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 382
    },
    {
      "completion_length": 232.0,
      "epoch": 0.03191666666666667,
      "grad_norm": 0.2633911669254303,
      "kl": 1.0527544021606445,
      "learning_rate": 3.876201850212489e-06,
      "loss": 0.0421,
      "reward": 1.5,
      "reward_std": 0.5345224738121033,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.875,
      "step": 383
    },
    {
      "completion_length": 250.0,
      "epoch": 0.032,
      "grad_norm": 0.2916422486305237,
      "kl": 0.9229851365089417,
      "learning_rate": 3.868908058731376e-06,
      "loss": 0.0369,
      "reward": 1.2083332538604736,
      "reward_std": 0.7753647565841675,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.5833333730697632,
      "step": 384
    },
    {
      "completion_length": 185.0,
      "epoch": 0.03208333333333333,
      "grad_norm": 0.30826249718666077,
      "kl": 0.9985988140106201,
      "learning_rate": 3.861597587537568e-06,
      "loss": 0.0399,
      "reward": 1.5,
      "reward_std": 0.5345224738121033,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 1.0,
      "step": 385
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03216666666666667,
      "grad_norm": 0.0261689443141222,
      "kl": 1.0752596855163574,
      "learning_rate": 3.85427052570685e-06,
      "loss": 0.043,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 1.0,
      "rewards/format_reward_func": 1.0,
      "step": 386
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03225,
      "grad_norm": 0.3096613883972168,
      "kl": 1.0192590951919556,
      "learning_rate": 3.846926962517158e-06,
      "loss": 0.0408,
      "reward": 1.9583333730697632,
      "reward_std": 0.11785109341144562,
      "rewards/correctness_reward_func": 1.0,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 387
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03233333333333333,
      "grad_norm": 1.7860721349716187,
      "kl": 0.6369985342025757,
      "learning_rate": 3.839566987447492e-06,
      "loss": 0.0255,
      "reward": 1.2083333730697632,
      "reward_std": 0.7332792282104492,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 388
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03241666666666667,
      "grad_norm": 0.26386263966560364,
      "kl": 0.7966631650924683,
      "learning_rate": 3.832190690176825e-06,
      "loss": 0.0319,
      "reward": 1.2083333730697632,
      "reward_std": 0.6651769280433655,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 389
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0325,
      "grad_norm": 0.32119181752204895,
      "kl": 0.9594342708587646,
      "learning_rate": 3.824798160583012e-06,
      "loss": 0.0384,
      "reward": 1.0416667461395264,
      "reward_std": 0.8807914853096008,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.5416666269302368,
      "step": 390
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03258333333333333,
      "grad_norm": 0.47729289531707764,
      "kl": 1.0643929243087769,
      "learning_rate": 3.817389488741694e-06,
      "loss": 0.0426,
      "reward": 1.5,
      "reward_std": 0.6172133684158325,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.875,
      "step": 391
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03266666666666666,
      "grad_norm": 1.1122965812683105,
      "kl": 1.5673550367355347,
      "learning_rate": 3.8099647649251984e-06,
      "loss": 0.0627,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.875,
      "step": 392
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03275,
      "grad_norm": 2.794879198074341,
      "kl": 1.3167065382003784,
      "learning_rate": 3.802524079601442e-06,
      "loss": 0.0527,
      "reward": 1.4166667461395264,
      "reward_std": 0.7292091846466064,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 393
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03283333333333333,
      "grad_norm": 0.9184636473655701,
      "kl": 1.0699944496154785,
      "learning_rate": 3.795067523432826e-06,
      "loss": 0.0428,
      "reward": 1.5,
      "reward_std": 0.5345224738121033,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 1.0,
      "step": 394
    },
    {
      "completion_length": 250.0,
      "epoch": 0.032916666666666664,
      "grad_norm": 0.21204939484596252,
      "kl": 1.1911050081253052,
      "learning_rate": 3.787595187275136e-06,
      "loss": 0.0476,
      "reward": 1.0,
      "reward_std": 0.5345224738121033,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.875,
      "step": 395
    },
    {
      "completion_length": 250.0,
      "epoch": 0.033,
      "grad_norm": 0.6764863729476929,
      "kl": 0.9250705242156982,
      "learning_rate": 3.780107162176429e-06,
      "loss": 0.037,
      "reward": 1.375,
      "reward_std": 0.9161254167556763,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.75,
      "step": 396
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03308333333333333,
      "grad_norm": 5.473031997680664,
      "kl": 1.4827823638916016,
      "learning_rate": 3.772603539375929e-06,
      "loss": 0.0593,
      "reward": 1.0416666269302368,
      "reward_std": 0.8807914853096008,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.6666666865348816,
      "step": 397
    },
    {
      "completion_length": 250.0,
      "epoch": 0.033166666666666664,
      "grad_norm": 3.915686845779419,
      "kl": 1.3783940076828003,
      "learning_rate": 3.7650844103029093e-06,
      "loss": 0.0551,
      "reward": 1.3333333730697632,
      "reward_std": 0.7766431570053101,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.8333333134651184,
      "step": 398
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03325,
      "grad_norm": 0.343504935503006,
      "kl": 0.7900997400283813,
      "learning_rate": 3.7575498665755884e-06,
      "loss": 0.0316,
      "reward": 1.0,
      "reward_std": 0.9258201122283936,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.625,
      "step": 399
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03333333333333333,
      "grad_norm": 0.32992246747016907,
      "kl": 0.8160569071769714,
      "learning_rate": 3.7500000000000005e-06,
      "loss": 0.0326,
      "reward": 1.25,
      "reward_std": 0.8864052295684814,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.75,
      "step": 400
    },
    {
      "completion_length": 250.0,
      "epoch": 0.033416666666666664,
      "grad_norm": 0.726000964641571,
      "kl": 1.2352204322814941,
      "learning_rate": 3.742434902568889e-06,
      "loss": 0.0494,
      "reward": 1.5833332538604736,
      "reward_std": 0.6362089514732361,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.7083333134651184,
      "step": 401
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0335,
      "grad_norm": 0.31690701842308044,
      "kl": 0.9032598733901978,
      "learning_rate": 3.7348546664605777e-06,
      "loss": 0.0361,
      "reward": 0.9583333730697632,
      "reward_std": 0.7650604248046875,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.7083333730697632,
      "step": 402
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03358333333333333,
      "grad_norm": 0.3370535969734192,
      "kl": 0.8206230998039246,
      "learning_rate": 3.7272593840378526e-06,
      "loss": 0.0328,
      "reward": 0.7916666865348816,
      "reward_std": 0.6651768684387207,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.6666666865348816,
      "step": 403
    },
    {
      "completion_length": 250.0,
      "epoch": 0.033666666666666664,
      "grad_norm": 0.3390369415283203,
      "kl": 1.0624157190322876,
      "learning_rate": 3.7196491478468322e-06,
      "loss": 0.0425,
      "reward": 1.75,
      "reward_std": 0.4629100561141968,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 1.0,
      "step": 404
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03375,
      "grad_norm": 0.2972298860549927,
      "kl": 1.257109522819519,
      "learning_rate": 3.7120240506158433e-06,
      "loss": 0.0503,
      "reward": 1.125,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 1.0,
      "step": 405
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03383333333333333,
      "grad_norm": 0.38008397817611694,
      "kl": 0.9990907907485962,
      "learning_rate": 3.7043841852542884e-06,
      "loss": 0.04,
      "reward": 1.4166667461395264,
      "reward_std": 0.49601587653160095,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 406
    },
    {
      "completion_length": 250.0,
      "epoch": 0.033916666666666664,
      "grad_norm": 0.5591140389442444,
      "kl": 1.0515403747558594,
      "learning_rate": 3.6967296448515176e-06,
      "loss": 0.0421,
      "reward": 1.5,
      "reward_std": 0.7559289336204529,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.75,
      "step": 407
    },
    {
      "completion_length": 250.0,
      "epoch": 0.034,
      "grad_norm": 0.6368426084518433,
      "kl": 0.9551165103912354,
      "learning_rate": 3.689060522675689e-06,
      "loss": 0.0382,
      "reward": 1.2916666269302368,
      "reward_std": 0.6283639669418335,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 408
    },
    {
      "completion_length": 250.0,
      "epoch": 0.034083333333333334,
      "grad_norm": 0.30579978227615356,
      "kl": 0.6054512858390808,
      "learning_rate": 3.6813769121726356e-06,
      "loss": 0.0242,
      "reward": 1.0416667461395264,
      "reward_std": 0.4520675241947174,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 409
    },
    {
      "completion_length": 250.0,
      "epoch": 0.034166666666666665,
      "grad_norm": 0.6442110538482666,
      "kl": 0.9826160073280334,
      "learning_rate": 3.6736789069647273e-06,
      "loss": 0.0393,
      "reward": 1.5416667461395264,
      "reward_std": 0.7332792282104492,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 410
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03425,
      "grad_norm": 0.264870285987854,
      "kl": 0.5808348059654236,
      "learning_rate": 3.6659666008497287e-06,
      "loss": 0.0232,
      "reward": 1.0833332538604736,
      "reward_std": 0.8309490084648132,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.7083333730697632,
      "step": 411
    },
    {
      "completion_length": 250.0,
      "epoch": 0.034333333333333334,
      "grad_norm": 0.5558726787567139,
      "kl": 1.1091468334197998,
      "learning_rate": 3.658240087799655e-06,
      "loss": 0.0444,
      "reward": 1.375,
      "reward_std": 0.9161254167556763,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.75,
      "step": 412
    },
    {
      "completion_length": 250.0,
      "epoch": 0.034416666666666665,
      "grad_norm": 0.5184251666069031,
      "kl": 0.9304683804512024,
      "learning_rate": 3.6504994619596295e-06,
      "loss": 0.0372,
      "reward": 1.5,
      "reward_std": 0.5345224738121033,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.875,
      "step": 413
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0345,
      "grad_norm": 1.4748616218566895,
      "kl": 1.3676832914352417,
      "learning_rate": 3.642744817646736e-06,
      "loss": 0.0547,
      "reward": 1.4583332538604736,
      "reward_std": 0.8345229029655457,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.7083333730697632,
      "step": 414
    },
    {
      "completion_length": 250.0,
      "epoch": 0.034583333333333334,
      "grad_norm": 0.43191081285476685,
      "kl": 1.3092877864837646,
      "learning_rate": 3.634976249348867e-06,
      "loss": 0.0524,
      "reward": 1.5,
      "reward_std": 0.5345224738121033,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 1.0,
      "step": 415
    },
    {
      "completion_length": 250.0,
      "epoch": 0.034666666666666665,
      "grad_norm": 0.4750445485115051,
      "kl": 1.3486921787261963,
      "learning_rate": 3.627193851723577e-06,
      "loss": 0.0539,
      "reward": 1.25,
      "reward_std": 0.7071067690849304,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.75,
      "step": 416
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03475,
      "grad_norm": 0.5661317110061646,
      "kl": 1.1146034002304077,
      "learning_rate": 3.6193977195969243e-06,
      "loss": 0.0446,
      "reward": 1.625,
      "reward_std": 0.5175491571426392,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 1.0,
      "step": 417
    },
    {
      "completion_length": 250.0,
      "epoch": 0.034833333333333334,
      "grad_norm": 0.36562928557395935,
      "kl": 1.1447898149490356,
      "learning_rate": 3.611587947962319e-06,
      "loss": 0.0458,
      "reward": 1.375,
      "reward_std": 0.7440237998962402,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.75,
      "step": 418
    },
    {
      "completion_length": 250.0,
      "epoch": 0.034916666666666665,
      "grad_norm": 0.2762870788574219,
      "kl": 0.48091429471969604,
      "learning_rate": 3.6037646319793635e-06,
      "loss": 0.0192,
      "reward": 1.5833333730697632,
      "reward_std": 0.5841830372810364,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 419
    },
    {
      "completion_length": 250.0,
      "epoch": 0.035,
      "grad_norm": 0.668820321559906,
      "kl": 1.2909846305847168,
      "learning_rate": 3.595927866972694e-06,
      "loss": 0.0516,
      "reward": 1.4583333730697632,
      "reward_std": 0.7332792282104492,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.7083333730697632,
      "step": 420
    },
    {
      "completion_length": 250.0,
      "epoch": 0.035083333333333334,
      "grad_norm": 0.4891945421695709,
      "kl": 1.1140190362930298,
      "learning_rate": 3.5880777484308193e-06,
      "loss": 0.0446,
      "reward": 1.1666667461395264,
      "reward_std": 0.8728715181350708,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.5416666865348816,
      "step": 421
    },
    {
      "completion_length": 250.0,
      "epoch": 0.035166666666666666,
      "grad_norm": 0.33090484142303467,
      "kl": 0.6019576191902161,
      "learning_rate": 3.5802143720049565e-06,
      "loss": 0.0241,
      "reward": 1.0833333730697632,
      "reward_std": 0.6606875061988831,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 422
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03525,
      "grad_norm": 0.6281843781471252,
      "kl": 1.1191685199737549,
      "learning_rate": 3.5723378335078653e-06,
      "loss": 0.0448,
      "reward": 1.2083333730697632,
      "reward_std": 0.7332792282104492,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 423
    },
    {
      "completion_length": 250.0,
      "epoch": 0.035333333333333335,
      "grad_norm": 0.24378234148025513,
      "kl": 0.8178219795227051,
      "learning_rate": 3.564448228912682e-06,
      "loss": 0.0327,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.875,
      "step": 424
    },
    {
      "completion_length": 250.0,
      "epoch": 0.035416666666666666,
      "grad_norm": 0.24927818775177002,
      "kl": 1.2881877422332764,
      "learning_rate": 3.556545654351749e-06,
      "loss": 0.0515,
      "reward": 1.9583333730697632,
      "reward_std": 0.11785109341144562,
      "rewards/correctness_reward_func": 1.0,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 425
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0355,
      "grad_norm": 0.4163737893104553,
      "kl": 0.7852768301963806,
      "learning_rate": 3.5486302061154433e-06,
      "loss": 0.0314,
      "reward": 1.2083332538604736,
      "reward_std": 0.9074209332466125,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.7083333730697632,
      "step": 426
    },
    {
      "completion_length": 250.0,
      "epoch": 0.035583333333333335,
      "grad_norm": 0.38066983222961426,
      "kl": 1.0970571041107178,
      "learning_rate": 3.5407019806510035e-06,
      "loss": 0.0439,
      "reward": 1.5,
      "reward_std": 0.7559289336204529,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.875,
      "step": 427
    },
    {
      "completion_length": 250.0,
      "epoch": 0.035666666666666666,
      "grad_norm": 1.0730751752853394,
      "kl": 0.7307629585266113,
      "learning_rate": 3.532761074561355e-06,
      "loss": 0.0292,
      "reward": 1.5416667461395264,
      "reward_std": 0.501980185508728,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 428
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03575,
      "grad_norm": 0.2747225761413574,
      "kl": 0.9983835816383362,
      "learning_rate": 3.524807584603932e-06,
      "loss": 0.0399,
      "reward": 1.125,
      "reward_std": 0.8345229625701904,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.75,
      "step": 429
    },
    {
      "completion_length": 250.0,
      "epoch": 0.035833333333333335,
      "grad_norm": 0.3085501492023468,
      "kl": 1.0624085664749146,
      "learning_rate": 3.516841607689501e-06,
      "loss": 0.0425,
      "reward": 1.4583333730697632,
      "reward_std": 0.7955730557441711,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 430
    },
    {
      "completion_length": 250.0,
      "epoch": 0.035916666666666666,
      "grad_norm": 0.3820912539958954,
      "kl": 0.8280222415924072,
      "learning_rate": 3.5088632408809757e-06,
      "loss": 0.0331,
      "reward": 1.0833333730697632,
      "reward_std": 0.6606874465942383,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 431
    },
    {
      "completion_length": 250.0,
      "epoch": 0.036,
      "grad_norm": 0.31436631083488464,
      "kl": 0.5407013893127441,
      "learning_rate": 3.5008725813922383e-06,
      "loss": 0.0216,
      "reward": 1.0416666269302368,
      "reward_std": 0.8807914853096008,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.5416666865348816,
      "step": 432
    },
    {
      "completion_length": 250.0,
      "epoch": 0.036083333333333335,
      "grad_norm": 1.559922695159912,
      "kl": 1.1256322860717773,
      "learning_rate": 3.4928697265869516e-06,
      "loss": 0.045,
      "reward": 1.375,
      "reward_std": 0.7440237998962402,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.875,
      "step": 433
    },
    {
      "completion_length": 250.0,
      "epoch": 0.036166666666666666,
      "grad_norm": 0.36709415912628174,
      "kl": 0.810982346534729,
      "learning_rate": 3.4848547739773782e-06,
      "loss": 0.0324,
      "reward": 0.7916666269302368,
      "reward_std": 0.8533315062522888,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.5416666865348816,
      "step": 434
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03625,
      "grad_norm": 0.38521692156791687,
      "kl": 1.0653852224349976,
      "learning_rate": 3.476827821223184e-06,
      "loss": 0.0426,
      "reward": 1.1666667461395264,
      "reward_std": 0.8728715181350708,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.6666666865348816,
      "step": 435
    },
    {
      "completion_length": 250.0,
      "epoch": 0.036333333333333336,
      "grad_norm": 0.4810712933540344,
      "kl": 1.0313137769699097,
      "learning_rate": 3.4687889661302577e-06,
      "loss": 0.0413,
      "reward": 1.375,
      "reward_std": 0.7440237998962402,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.875,
      "step": 436
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03641666666666667,
      "grad_norm": 1.5242727994918823,
      "kl": 1.0612870454788208,
      "learning_rate": 3.460738306649509e-06,
      "loss": 0.0425,
      "reward": 0.7083333730697632,
      "reward_std": 0.4520675837993622,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.5833333730697632,
      "step": 437
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0365,
      "grad_norm": 0.27597489953041077,
      "kl": 0.7890688180923462,
      "learning_rate": 3.452675940875686e-06,
      "loss": 0.0316,
      "reward": 1.6666667461395264,
      "reward_std": 0.7126966714859009,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 438
    },
    {
      "completion_length": 250.0,
      "epoch": 0.036583333333333336,
      "grad_norm": 0.35958653688430786,
      "kl": 0.9022118449211121,
      "learning_rate": 3.4446019670461684e-06,
      "loss": 0.0361,
      "reward": 1.0,
      "reward_std": 0.7559289336204529,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.75,
      "step": 439
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03666666666666667,
      "grad_norm": 0.28990885615348816,
      "kl": 0.7540520429611206,
      "learning_rate": 3.436516483539781e-06,
      "loss": 0.0302,
      "reward": 1.2916667461395264,
      "reward_std": 0.6770032048225403,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.5416666865348816,
      "step": 440
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03675,
      "grad_norm": 0.4592471420764923,
      "kl": 1.2466713190078735,
      "learning_rate": 3.4284195888755877e-06,
      "loss": 0.0499,
      "reward": 1.25,
      "reward_std": 0.6606874465942383,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.75,
      "step": 441
    },
    {
      "completion_length": 250.0,
      "epoch": 0.036833333333333336,
      "grad_norm": 0.2260519117116928,
      "kl": 1.1097904443740845,
      "learning_rate": 3.4203113817116955e-06,
      "loss": 0.0444,
      "reward": 1.125,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 1.0,
      "step": 442
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03691666666666667,
      "grad_norm": 0.3158986568450928,
      "kl": 0.7736285924911499,
      "learning_rate": 3.412191960844049e-06,
      "loss": 0.0309,
      "reward": 1.1666667461395264,
      "reward_std": 0.942808985710144,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.5416666865348816,
      "step": 443
    },
    {
      "completion_length": 250.0,
      "epoch": 0.037,
      "grad_norm": 0.35627302527427673,
      "kl": 0.7449521422386169,
      "learning_rate": 3.4040614252052305e-06,
      "loss": 0.0298,
      "reward": 1.1666667461395264,
      "reward_std": 0.835710883140564,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.5416666865348816,
      "step": 444
    },
    {
      "completion_length": 250.0,
      "epoch": 0.037083333333333336,
      "grad_norm": 1.3280401229858398,
      "kl": 0.9883641600608826,
      "learning_rate": 3.39591987386325e-06,
      "loss": 0.0395,
      "reward": 1.125,
      "reward_std": 0.8345229625701904,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.5,
      "step": 445
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03716666666666667,
      "grad_norm": 0.3993532359600067,
      "kl": 1.3265860080718994,
      "learning_rate": 3.387767406020343e-06,
      "loss": 0.0531,
      "reward": 1.375,
      "reward_std": 0.9161254167556763,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.75,
      "step": 446
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03725,
      "grad_norm": 0.3469555079936981,
      "kl": 0.6623489260673523,
      "learning_rate": 3.3796041210117545e-06,
      "loss": 0.0265,
      "reward": 1.1666667461395264,
      "reward_std": 0.7968190908432007,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.6666666269302368,
      "step": 447
    },
    {
      "completion_length": 250.0,
      "epoch": 0.037333333333333336,
      "grad_norm": 0.7821484804153442,
      "kl": 1.5054004192352295,
      "learning_rate": 3.3714301183045382e-06,
      "loss": 0.0602,
      "reward": 1.5,
      "reward_std": 0.5345224738121033,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 1.0,
      "step": 448
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03741666666666667,
      "grad_norm": 0.6973661780357361,
      "kl": 1.2113670110702515,
      "learning_rate": 3.3632454974963368e-06,
      "loss": 0.0485,
      "reward": 1.2083333730697632,
      "reward_std": 0.7332792282104492,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 449
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0375,
      "grad_norm": 0.32803142070770264,
      "kl": 0.9755523204803467,
      "learning_rate": 3.3550503583141726e-06,
      "loss": 0.039,
      "reward": 1.0,
      "reward_std": 0.7126965522766113,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.625,
      "step": 450
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03758333333333334,
      "grad_norm": 0.3818299472332001,
      "kl": 0.9919738173484802,
      "learning_rate": 3.346844800613229e-06,
      "loss": 0.0397,
      "reward": 1.375,
      "reward_std": 0.5175491571426392,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.875,
      "step": 451
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03766666666666667,
      "grad_norm": 0.3395150303840637,
      "kl": 1.0552934408187866,
      "learning_rate": 3.338628924375638e-06,
      "loss": 0.0422,
      "reward": 1.125,
      "reward_std": 0.8345229625701904,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.75,
      "step": 452
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03775,
      "grad_norm": 0.22457285225391388,
      "kl": 1.2115274667739868,
      "learning_rate": 3.3304028297092583e-06,
      "loss": 0.0485,
      "reward": 1.5833333730697632,
      "reward_std": 0.49601587653160095,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 453
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03783333333333333,
      "grad_norm": 0.32445210218429565,
      "kl": 0.7955477237701416,
      "learning_rate": 3.3221666168464584e-06,
      "loss": 0.0318,
      "reward": 0.875,
      "reward_std": 0.7955731153488159,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.625,
      "step": 454
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03791666666666667,
      "grad_norm": 1.0360915660858154,
      "kl": 1.115738034248352,
      "learning_rate": 3.313920386142892e-06,
      "loss": 0.0446,
      "reward": 1.4583333730697632,
      "reward_std": 0.7955730557441711,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 455
    },
    {
      "completion_length": 250.0,
      "epoch": 0.038,
      "grad_norm": 0.26157450675964355,
      "kl": 1.0352263450622559,
      "learning_rate": 3.3056642380762783e-06,
      "loss": 0.0414,
      "reward": 1.5,
      "reward_std": 0.7559289336204529,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.875,
      "step": 456
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03808333333333333,
      "grad_norm": 0.33227723836898804,
      "kl": 0.9722086191177368,
      "learning_rate": 3.2973982732451753e-06,
      "loss": 0.0389,
      "reward": 1.5,
      "reward_std": 0.5345224738121033,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 1.0,
      "step": 457
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03816666666666667,
      "grad_norm": 0.48032528162002563,
      "kl": 1.262650966644287,
      "learning_rate": 3.2891225923677565e-06,
      "loss": 0.0505,
      "reward": 1.1666667461395264,
      "reward_std": 0.6424161195755005,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.5416666865348816,
      "step": 458
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03825,
      "grad_norm": 0.2080181986093521,
      "kl": 1.3035730123519897,
      "learning_rate": 3.280837296280582e-06,
      "loss": 0.0521,
      "reward": 1.625,
      "reward_std": 0.5175491571426392,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.875,
      "step": 459
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03833333333333333,
      "grad_norm": 0.2657634913921356,
      "kl": 1.0605506896972656,
      "learning_rate": 3.272542485937369e-06,
      "loss": 0.0424,
      "reward": 1.0833333730697632,
      "reward_std": 0.6606874465942383,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.8333333134651184,
      "step": 460
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03841666666666667,
      "grad_norm": 0.32230645418167114,
      "kl": 1.6198720932006836,
      "learning_rate": 3.2642382624077647e-06,
      "loss": 0.0648,
      "reward": 1.6666667461395264,
      "reward_std": 0.7126966118812561,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 461
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0385,
      "grad_norm": 0.31350037455558777,
      "kl": 1.1919293403625488,
      "learning_rate": 3.2559247268761117e-06,
      "loss": 0.0477,
      "reward": 1.6666667461395264,
      "reward_std": 0.7126966714859009,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 462
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03858333333333333,
      "grad_norm": 0.30738067626953125,
      "kl": 0.9954556226730347,
      "learning_rate": 3.247601980640217e-06,
      "loss": 0.0398,
      "reward": 1.625,
      "reward_std": 0.7000566720962524,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.8750000596046448,
      "step": 463
    },
    {
      "completion_length": 236.0,
      "epoch": 0.03866666666666667,
      "grad_norm": 1.2310477495193481,
      "kl": 1.2627601623535156,
      "learning_rate": 3.2392701251101172e-06,
      "loss": 0.0505,
      "reward": 1.25,
      "reward_std": 0.4629100561141968,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 1.0,
      "step": 464
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03875,
      "grad_norm": 0.2840711772441864,
      "kl": 0.8784255981445312,
      "learning_rate": 3.230929261806842e-06,
      "loss": 0.0351,
      "reward": 1.3333333730697632,
      "reward_std": 0.7766431570053101,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.8333333134651184,
      "step": 465
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03883333333333333,
      "grad_norm": 0.22466637194156647,
      "kl": 1.233144760131836,
      "learning_rate": 3.222579492361179e-06,
      "loss": 0.0493,
      "reward": 1.5416667461395264,
      "reward_std": 0.7332792282104492,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 466
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03891666666666667,
      "grad_norm": 0.31554660201072693,
      "kl": 0.8954232335090637,
      "learning_rate": 3.214220918512434e-06,
      "loss": 0.0358,
      "reward": 1.625,
      "reward_std": 0.7440237998962402,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.875,
      "step": 467
    },
    {
      "completion_length": 250.0,
      "epoch": 0.039,
      "grad_norm": 0.35043928027153015,
      "kl": 0.9754191040992737,
      "learning_rate": 3.205853642107192e-06,
      "loss": 0.039,
      "reward": 1.125,
      "reward_std": 0.8345229625701904,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.75,
      "step": 468
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03908333333333333,
      "grad_norm": 0.3606829047203064,
      "kl": 1.6161555051803589,
      "learning_rate": 3.1974777650980737e-06,
      "loss": 0.0646,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 1.0,
      "step": 469
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03916666666666667,
      "grad_norm": 0.3894639015197754,
      "kl": 0.9157559871673584,
      "learning_rate": 3.189093389542498e-06,
      "loss": 0.0366,
      "reward": 1.3333333730697632,
      "reward_std": 0.7766431570053101,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 470
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03925,
      "grad_norm": 0.5538480281829834,
      "kl": 0.9871796369552612,
      "learning_rate": 3.180700617601436e-06,
      "loss": 0.0395,
      "reward": 1.5,
      "reward_std": 0.7559289336204529,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.875,
      "step": 471
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03933333333333333,
      "grad_norm": 0.03941356763243675,
      "kl": 1.603979468345642,
      "learning_rate": 3.1722995515381644e-06,
      "loss": 0.0642,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 1.0,
      "rewards/format_reward_func": 1.0,
      "step": 472
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03941666666666667,
      "grad_norm": 0.36027953028678894,
      "kl": 1.4444609880447388,
      "learning_rate": 3.1638902937170224e-06,
      "loss": 0.0578,
      "reward": 1.9583333730697632,
      "reward_std": 0.11785109341144562,
      "rewards/correctness_reward_func": 1.0,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 473
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0395,
      "grad_norm": 0.2484903782606125,
      "kl": 1.535847783088684,
      "learning_rate": 3.155472946602162e-06,
      "loss": 0.0614,
      "reward": 1.75,
      "reward_std": 0.4629100561141968,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 1.0,
      "step": 474
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03958333333333333,
      "grad_norm": 0.43076378107070923,
      "kl": 1.3793715238571167,
      "learning_rate": 3.147047612756302e-06,
      "loss": 0.0552,
      "reward": 1.5,
      "reward_std": 0.9258201122283936,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.75,
      "step": 475
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03966666666666667,
      "grad_norm": 0.24676185846328735,
      "kl": 1.1927064657211304,
      "learning_rate": 3.1386143948394764e-06,
      "loss": 0.0477,
      "reward": 1.5833333730697632,
      "reward_std": 0.7292091846466064,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 476
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03975,
      "grad_norm": 0.27644336223602295,
      "kl": 1.0569162368774414,
      "learning_rate": 3.130173395607785e-06,
      "loss": 0.0423,
      "reward": 1.25,
      "reward_std": 0.8498365879058838,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.7500000596046448,
      "step": 477
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03983333333333333,
      "grad_norm": 1.9261839389801025,
      "kl": 1.384006381034851,
      "learning_rate": 3.121724717912138e-06,
      "loss": 0.0554,
      "reward": 1.7916667461395264,
      "reward_std": 0.39591163396835327,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 478
    },
    {
      "completion_length": 250.0,
      "epoch": 0.03991666666666667,
      "grad_norm": 0.25609302520751953,
      "kl": 1.1626935005187988,
      "learning_rate": 3.1132684646970068e-06,
      "loss": 0.0465,
      "reward": 1.1666667461395264,
      "reward_std": 0.5634361505508423,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 479
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04,
      "grad_norm": 1.250272512435913,
      "kl": 1.0145455598831177,
      "learning_rate": 3.1048047389991693e-06,
      "loss": 0.0406,
      "reward": 1.4583333730697632,
      "reward_std": 0.501980185508728,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 480
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04008333333333333,
      "grad_norm": 0.2401411086320877,
      "kl": 0.8946865200996399,
      "learning_rate": 3.0963336439464527e-06,
      "loss": 0.0358,
      "reward": 1.75,
      "reward_std": 0.4629100561141968,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.875,
      "step": 481
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04016666666666667,
      "grad_norm": 0.23744302988052368,
      "kl": 0.5881522297859192,
      "learning_rate": 3.087855282756475e-06,
      "loss": 0.0235,
      "reward": 1.2916666269302368,
      "reward_std": 0.8249579071998596,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 482
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04025,
      "grad_norm": 0.5861865878105164,
      "kl": 1.260177493095398,
      "learning_rate": 3.079369758735393e-06,
      "loss": 0.0504,
      "reward": 1.5416667461395264,
      "reward_std": 0.7113032937049866,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.6666666865348816,
      "step": 483
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04033333333333333,
      "grad_norm": 0.3826155364513397,
      "kl": 1.2853862047195435,
      "learning_rate": 3.0708771752766397e-06,
      "loss": 0.0514,
      "reward": 1.4583333730697632,
      "reward_std": 0.7332792282104492,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 484
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04041666666666666,
      "grad_norm": 0.22148284316062927,
      "kl": 1.1608880758285522,
      "learning_rate": 3.062377635859663e-06,
      "loss": 0.0464,
      "reward": 1.75,
      "reward_std": 0.4629100561141968,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 1.0,
      "step": 485
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0405,
      "grad_norm": 0.3896584212779999,
      "kl": 1.1302204132080078,
      "learning_rate": 3.053871244048669e-06,
      "loss": 0.0452,
      "reward": 1.25,
      "reward_std": 0.8864052295684814,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.75,
      "step": 486
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04058333333333333,
      "grad_norm": 0.8122249245643616,
      "kl": 1.505839467048645,
      "learning_rate": 3.045358103491357e-06,
      "loss": 0.0602,
      "reward": 1.5,
      "reward_std": 0.5345224738121033,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 1.0,
      "step": 487
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04066666666666666,
      "grad_norm": 0.2632407248020172,
      "kl": 1.4302340745925903,
      "learning_rate": 3.0368383179176584e-06,
      "loss": 0.0572,
      "reward": 1.7916666269302368,
      "reward_std": 0.5892555713653564,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 488
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04075,
      "grad_norm": 0.30897876620292664,
      "kl": 0.74764084815979,
      "learning_rate": 3.0283119911384724e-06,
      "loss": 0.0299,
      "reward": 1.0833333730697632,
      "reward_std": 0.6606874465942383,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 489
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04083333333333333,
      "grad_norm": 0.25567445158958435,
      "kl": 1.0470243692398071,
      "learning_rate": 3.019779227044398e-06,
      "loss": 0.0419,
      "reward": 1.8333333730697632,
      "reward_std": 0.35634827613830566,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 490
    },
    {
      "completion_length": 250.0,
      "epoch": 0.040916666666666664,
      "grad_norm": 0.3491830825805664,
      "kl": 1.0824482440948486,
      "learning_rate": 3.0112401296044756e-06,
      "loss": 0.0433,
      "reward": 1.5833333730697632,
      "reward_std": 0.7292091846466064,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 491
    },
    {
      "completion_length": 248.0,
      "epoch": 0.041,
      "grad_norm": 0.26145610213279724,
      "kl": 1.5022797584533691,
      "learning_rate": 3.002694802864912e-06,
      "loss": 0.0601,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 1.0,
      "step": 492
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04108333333333333,
      "grad_norm": 2.2558088302612305,
      "kl": 1.2809425592422485,
      "learning_rate": 2.9941433509478157e-06,
      "loss": 0.0512,
      "reward": 1.375,
      "reward_std": 0.5175491571426392,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.875,
      "step": 493
    },
    {
      "completion_length": 250.0,
      "epoch": 0.041166666666666664,
      "grad_norm": 0.24117594957351685,
      "kl": 1.0864267349243164,
      "learning_rate": 2.98558587804993e-06,
      "loss": 0.0435,
      "reward": 1.625,
      "reward_std": 0.7440237998962402,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.875,
      "step": 494
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04125,
      "grad_norm": 1.2394402027130127,
      "kl": 1.355527400970459,
      "learning_rate": 2.9770224884413625e-06,
      "loss": 0.0542,
      "reward": 1.4583333730697632,
      "reward_std": 0.501980185508728,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 495
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04133333333333333,
      "grad_norm": 0.3969794511795044,
      "kl": 1.4105161428451538,
      "learning_rate": 2.9684532864643123e-06,
      "loss": 0.0564,
      "reward": 1.25,
      "reward_std": 0.6606874465942383,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.875,
      "step": 496
    },
    {
      "completion_length": 250.0,
      "epoch": 0.041416666666666664,
      "grad_norm": 0.2702740728855133,
      "kl": 1.046398639678955,
      "learning_rate": 2.9598783765318005e-06,
      "loss": 0.0419,
      "reward": 1.0,
      "reward_std": 0.5345224738121033,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.875,
      "step": 497
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0415,
      "grad_norm": 0.22273120284080505,
      "kl": 0.8685632944107056,
      "learning_rate": 2.9512978631264006e-06,
      "loss": 0.0347,
      "reward": 1.375,
      "reward_std": 0.5175491571426392,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.875,
      "step": 498
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04158333333333333,
      "grad_norm": 0.5162345767021179,
      "kl": 1.2586992979049683,
      "learning_rate": 2.942711850798959e-06,
      "loss": 0.0503,
      "reward": 1.4166667461395264,
      "reward_std": 0.7292091846466064,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 499
    },
    {
      "completion_length": 250.0,
      "epoch": 0.041666666666666664,
      "grad_norm": 0.41288647055625916,
      "kl": 1.1819934844970703,
      "learning_rate": 2.9341204441673267e-06,
      "loss": 0.0473,
      "reward": 1.4166666269302368,
      "reward_std": 0.6606874465942383,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 500
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04175,
      "grad_norm": 0.8625938892364502,
      "kl": 0.8906731009483337,
      "learning_rate": 2.9255237479150815e-06,
      "loss": 0.0356,
      "reward": 1.125,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 1.0,
      "step": 501
    },
    {
      "completion_length": 250.0,
      "epoch": 0.041833333333333333,
      "grad_norm": 0.8455320000648499,
      "kl": 1.6155681610107422,
      "learning_rate": 2.9169218667902562e-06,
      "loss": 0.0646,
      "reward": 1.5,
      "reward_std": 0.5345224738121033,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 1.0,
      "step": 502
    },
    {
      "completion_length": 250.0,
      "epoch": 0.041916666666666665,
      "grad_norm": 0.2829776406288147,
      "kl": 1.0219650268554688,
      "learning_rate": 2.908314905604056e-06,
      "loss": 0.0409,
      "reward": 1.2083333730697632,
      "reward_std": 0.7332792282104492,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 503
    },
    {
      "completion_length": 250.0,
      "epoch": 0.042,
      "grad_norm": 0.5874464511871338,
      "kl": 1.6597095727920532,
      "learning_rate": 2.8997029692295875e-06,
      "loss": 0.0664,
      "reward": 1.625,
      "reward_std": 0.7440237998962402,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.875,
      "step": 504
    },
    {
      "completion_length": 250.0,
      "epoch": 0.042083333333333334,
      "grad_norm": 0.9483749270439148,
      "kl": 1.8449759483337402,
      "learning_rate": 2.8910861626005774e-06,
      "loss": 0.0738,
      "reward": 1.75,
      "reward_std": 0.4629100561141968,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 1.0,
      "step": 505
    },
    {
      "completion_length": 250.0,
      "epoch": 0.042166666666666665,
      "grad_norm": 0.2268337458372116,
      "kl": 0.8647147417068481,
      "learning_rate": 2.8824645907100957e-06,
      "loss": 0.0346,
      "reward": 1.625,
      "reward_std": 0.5175491571426392,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.875,
      "step": 506
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04225,
      "grad_norm": 0.2466856986284256,
      "kl": 0.6964913010597229,
      "learning_rate": 2.8738383586092745e-06,
      "loss": 0.0279,
      "reward": 1.375,
      "reward_std": 0.6283639669418335,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.875,
      "step": 507
    },
    {
      "completion_length": 250.0,
      "epoch": 0.042333333333333334,
      "grad_norm": 1.2652459144592285,
      "kl": 0.9631326794624329,
      "learning_rate": 2.8652075714060296e-06,
      "loss": 0.0385,
      "reward": 1.125,
      "reward_std": 0.6408699750900269,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.75,
      "step": 508
    },
    {
      "completion_length": 250.0,
      "epoch": 0.042416666666666665,
      "grad_norm": 0.27476221323013306,
      "kl": 0.9217783212661743,
      "learning_rate": 2.8565723342637797e-06,
      "loss": 0.0369,
      "reward": 0.8333333730697632,
      "reward_std": 0.9920317530632019,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.4583333432674408,
      "step": 509
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0425,
      "grad_norm": 0.21916547417640686,
      "kl": 1.3772886991500854,
      "learning_rate": 2.847932752400164e-06,
      "loss": 0.0551,
      "reward": 1.5,
      "reward_std": 0.7559289336204529,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.875,
      "step": 510
    },
    {
      "completion_length": 250.0,
      "epoch": 0.042583333333333334,
      "grad_norm": 0.33844467997550964,
      "kl": 1.338585376739502,
      "learning_rate": 2.8392889310857615e-06,
      "loss": 0.0535,
      "reward": 1.625,
      "reward_std": 0.7440237998962402,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.875,
      "step": 511
    },
    {
      "completion_length": 250.0,
      "epoch": 0.042666666666666665,
      "grad_norm": 0.29742342233657837,
      "kl": 1.344675898551941,
      "learning_rate": 2.8306409756428067e-06,
      "loss": 0.0538,
      "reward": 1.7916666269302368,
      "reward_std": 0.589255690574646,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 512
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04275,
      "grad_norm": 0.3239578902721405,
      "kl": 1.0606533288955688,
      "learning_rate": 2.8219889914439073e-06,
      "loss": 0.0424,
      "reward": 1.5,
      "reward_std": 0.5345224738121033,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 1.0,
      "step": 513
    },
    {
      "completion_length": 250.0,
      "epoch": 0.042833333333333334,
      "grad_norm": 0.3085322678089142,
      "kl": 0.7539732456207275,
      "learning_rate": 2.813333083910761e-06,
      "loss": 0.0302,
      "reward": 1.375,
      "reward_std": 0.7855339050292969,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.75,
      "step": 514
    },
    {
      "completion_length": 250.0,
      "epoch": 0.042916666666666665,
      "grad_norm": 0.645790159702301,
      "kl": 0.8328765630722046,
      "learning_rate": 2.804673358512869e-06,
      "loss": 0.0333,
      "reward": 0.875,
      "reward_std": 0.7955730557441711,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.625,
      "step": 515
    },
    {
      "completion_length": 250.0,
      "epoch": 0.043,
      "grad_norm": 0.8226057291030884,
      "kl": 1.01832914352417,
      "learning_rate": 2.7960099207662535e-06,
      "loss": 0.0407,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 1.0,
      "rewards/format_reward_func": 0.875,
      "step": 516
    },
    {
      "completion_length": 212.0,
      "epoch": 0.043083333333333335,
      "grad_norm": 0.24604718387126923,
      "kl": 1.0776610374450684,
      "learning_rate": 2.7873428762321667e-06,
      "loss": 0.0431,
      "reward": 1.75,
      "reward_std": 0.4629100561141968,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 1.0,
      "step": 517
    },
    {
      "completion_length": 250.0,
      "epoch": 0.043166666666666666,
      "grad_norm": 0.33582380414009094,
      "kl": 0.8894166946411133,
      "learning_rate": 2.778672330515814e-06,
      "loss": 0.0356,
      "reward": 1.2083333730697632,
      "reward_std": 0.6651769280433655,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.4583333432674408,
      "step": 518
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04325,
      "grad_norm": 0.4405062198638916,
      "kl": 1.2915191650390625,
      "learning_rate": 2.769998389265057e-06,
      "loss": 0.0517,
      "reward": 1.375,
      "reward_std": 0.7440237998962402,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.875,
      "step": 519
    },
    {
      "completion_length": 232.0,
      "epoch": 0.043333333333333335,
      "grad_norm": 1.5345605611801147,
      "kl": 1.553789734840393,
      "learning_rate": 2.761321158169134e-06,
      "loss": 0.0622,
      "reward": 1.125,
      "reward_std": 0.6408699750900269,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.875,
      "step": 520
    },
    {
      "completion_length": 206.0,
      "epoch": 0.043416666666666666,
      "grad_norm": 0.25380414724349976,
      "kl": 1.496401071548462,
      "learning_rate": 2.752640742957366e-06,
      "loss": 0.0599,
      "reward": 1.7916667461395264,
      "reward_std": 0.39591163396835327,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 521
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0435,
      "grad_norm": 0.2672164738178253,
      "kl": 0.8028614521026611,
      "learning_rate": 2.743957249397874e-06,
      "loss": 0.0321,
      "reward": 1.5416666269302368,
      "reward_std": 0.6651768684387207,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 522
    },
    {
      "completion_length": 250.0,
      "epoch": 0.043583333333333335,
      "grad_norm": 0.2636195123195648,
      "kl": 1.4980413913726807,
      "learning_rate": 2.7352707832962865e-06,
      "loss": 0.0599,
      "reward": 1.6666666269302368,
      "reward_std": 0.6424160599708557,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 523
    },
    {
      "completion_length": 250.0,
      "epoch": 0.043666666666666666,
      "grad_norm": 1.0833460092544556,
      "kl": 1.3643357753753662,
      "learning_rate": 2.726581450494451e-06,
      "loss": 0.0546,
      "reward": 1.3333332538604736,
      "reward_std": 0.9258201122283936,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.7083333730697632,
      "step": 524
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04375,
      "grad_norm": 0.22439569234848022,
      "kl": 1.132871150970459,
      "learning_rate": 2.717889356869146e-06,
      "loss": 0.0453,
      "reward": 1.3333333730697632,
      "reward_std": 0.7126966714859009,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 525
    },
    {
      "completion_length": 250.0,
      "epoch": 0.043833333333333335,
      "grad_norm": 0.2796757221221924,
      "kl": 1.0327954292297363,
      "learning_rate": 2.70919460833079e-06,
      "loss": 0.0413,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 1.0,
      "step": 526
    },
    {
      "completion_length": 250.0,
      "epoch": 0.043916666666666666,
      "grad_norm": 0.31149035692214966,
      "kl": 1.374606966972351,
      "learning_rate": 2.700497310822147e-06,
      "loss": 0.055,
      "reward": 1.75,
      "reward_std": 0.4629100561141968,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.875,
      "step": 527
    },
    {
      "completion_length": 250.0,
      "epoch": 0.044,
      "grad_norm": 0.7924208641052246,
      "kl": 0.987855076789856,
      "learning_rate": 2.6917975703170466e-06,
      "loss": 0.0395,
      "reward": 1.125,
      "reward_std": 0.9910312294960022,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.625,
      "step": 528
    },
    {
      "completion_length": 250.0,
      "epoch": 0.044083333333333335,
      "grad_norm": 0.25965285301208496,
      "kl": 0.8640234470367432,
      "learning_rate": 2.6830954928190795e-06,
      "loss": 0.0346,
      "reward": 1.6666667461395264,
      "reward_std": 0.6424160599708557,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 529
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04416666666666667,
      "grad_norm": 0.38326141238212585,
      "kl": 0.8228756189346313,
      "learning_rate": 2.6743911843603134e-06,
      "loss": 0.0329,
      "reward": 1.2916666269302368,
      "reward_std": 0.8249579071998596,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 530
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04425,
      "grad_norm": 1.5146892070770264,
      "kl": 1.9087010622024536,
      "learning_rate": 2.6656847510000013e-06,
      "loss": 0.0763,
      "reward": 1.5416667461395264,
      "reward_std": 0.501980185508728,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 531
    },
    {
      "completion_length": 215.0,
      "epoch": 0.044333333333333336,
      "grad_norm": 0.2388104796409607,
      "kl": 1.3102915287017822,
      "learning_rate": 2.6569762988232838e-06,
      "loss": 0.0524,
      "reward": 1.25,
      "reward_std": 0.4629100561141968,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 1.0,
      "step": 532
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04441666666666667,
      "grad_norm": 0.33024802803993225,
      "kl": 0.8110081553459167,
      "learning_rate": 2.6482659339399047e-06,
      "loss": 0.0324,
      "reward": 1.5833333730697632,
      "reward_std": 0.7292091846466064,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 533
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0445,
      "grad_norm": 0.28449299931526184,
      "kl": 0.9894317388534546,
      "learning_rate": 2.63955376248291e-06,
      "loss": 0.0396,
      "reward": 1.4583333730697632,
      "reward_std": 0.7955730557441711,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 534
    },
    {
      "completion_length": 250.0,
      "epoch": 0.044583333333333336,
      "grad_norm": 0.24825812876224518,
      "kl": 0.8840400576591492,
      "learning_rate": 2.6308398906073603e-06,
      "loss": 0.0354,
      "reward": 1.0416667461395264,
      "reward_std": 0.4520675241947174,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 535
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04466666666666667,
      "grad_norm": 1.5011301040649414,
      "kl": 1.2059112787246704,
      "learning_rate": 2.6221244244890336e-06,
      "loss": 0.0482,
      "reward": 1.2083333730697632,
      "reward_std": 0.501980185508728,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 536
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04475,
      "grad_norm": 0.7638510465621948,
      "kl": 1.5593329668045044,
      "learning_rate": 2.613407470323134e-06,
      "loss": 0.0624,
      "reward": 1.25,
      "reward_std": 0.7071067690849304,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.75,
      "step": 537
    },
    {
      "completion_length": 168.0,
      "epoch": 0.044833333333333336,
      "grad_norm": 0.23012110590934753,
      "kl": 0.8535071611404419,
      "learning_rate": 2.604689134322999e-06,
      "loss": 0.0341,
      "reward": 1.4583333730697632,
      "reward_std": 0.5892556309700012,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 538
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04491666666666667,
      "grad_norm": 0.3940114676952362,
      "kl": 1.290722370147705,
      "learning_rate": 2.5959695227188e-06,
      "loss": 0.0516,
      "reward": 1.5416666269302368,
      "reward_std": 0.853331446647644,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 539
    },
    {
      "completion_length": 250.0,
      "epoch": 0.045,
      "grad_norm": 0.2533872723579407,
      "kl": 1.0061720609664917,
      "learning_rate": 2.587248741756253e-06,
      "loss": 0.0402,
      "reward": 1.8333333730697632,
      "reward_std": 0.4714045226573944,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 540
    },
    {
      "completion_length": 250.0,
      "epoch": 0.045083333333333336,
      "grad_norm": 0.2459549903869629,
      "kl": 1.3281100988388062,
      "learning_rate": 2.578526897695321e-06,
      "loss": 0.0531,
      "reward": 1.9583333730697632,
      "reward_std": 0.11785109341144562,
      "rewards/correctness_reward_func": 1.0,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 541
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04516666666666667,
      "grad_norm": 0.45357388257980347,
      "kl": 1.2036126852035522,
      "learning_rate": 2.569804096808923e-06,
      "loss": 0.0481,
      "reward": 1.0416667461395264,
      "reward_std": 0.8807914853096008,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.6666666269302368,
      "step": 542
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04525,
      "grad_norm": 0.639238715171814,
      "kl": 1.46484375,
      "learning_rate": 2.5610804453816333e-06,
      "loss": 0.0586,
      "reward": 1.5,
      "reward_std": 0.7559289336204529,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.75,
      "step": 543
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04533333333333334,
      "grad_norm": 0.2612769305706024,
      "kl": 0.8998706340789795,
      "learning_rate": 2.5523560497083927e-06,
      "loss": 0.036,
      "reward": 1.0833333730697632,
      "reward_std": 0.6606874465942383,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 544
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04541666666666667,
      "grad_norm": 0.3391062021255493,
      "kl": 0.9011841416358948,
      "learning_rate": 2.543631016093209e-06,
      "loss": 0.036,
      "reward": 1.5,
      "reward_std": 0.5345224738121033,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 1.0,
      "step": 545
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0455,
      "grad_norm": 0.909966230392456,
      "kl": 1.1737316846847534,
      "learning_rate": 2.5349054508478636e-06,
      "loss": 0.0469,
      "reward": 1.375,
      "reward_std": 0.7440237998962402,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.875,
      "step": 546
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04558333333333333,
      "grad_norm": 0.7492355704307556,
      "kl": 1.3316445350646973,
      "learning_rate": 2.526179460290615e-06,
      "loss": 0.0533,
      "reward": 1.125,
      "reward_std": 0.8345229625701904,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.75,
      "step": 547
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04566666666666667,
      "grad_norm": 0.2507287263870239,
      "kl": 0.7561590671539307,
      "learning_rate": 2.517453150744904e-06,
      "loss": 0.0302,
      "reward": 1.75,
      "reward_std": 0.4629100561141968,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 1.0,
      "step": 548
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04575,
      "grad_norm": 1.408830165863037,
      "kl": 1.2084333896636963,
      "learning_rate": 2.5087266285380597e-06,
      "loss": 0.0483,
      "reward": 1.2083333730697632,
      "reward_std": 0.9074209332466125,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.7083333730697632,
      "step": 549
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04583333333333333,
      "grad_norm": 0.5603641867637634,
      "kl": 1.1831409931182861,
      "learning_rate": 2.5e-06,
      "loss": 0.0473,
      "reward": 1.375,
      "reward_std": 0.7440237998962402,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.875,
      "step": 550
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04591666666666667,
      "grad_norm": 0.24828428030014038,
      "kl": 1.2554258108139038,
      "learning_rate": 2.4912733714619415e-06,
      "loss": 0.0502,
      "reward": 1.3333332538604736,
      "reward_std": 0.7559289336204529,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 551
    },
    {
      "completion_length": 250.0,
      "epoch": 0.046,
      "grad_norm": 0.2216569483280182,
      "kl": 1.5270963907241821,
      "learning_rate": 2.482546849255096e-06,
      "loss": 0.0611,
      "reward": 1.625,
      "reward_std": 0.5175491571426392,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 1.0,
      "step": 552
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04608333333333333,
      "grad_norm": 0.7645318508148193,
      "kl": 0.9473637342453003,
      "learning_rate": 2.4738205397093863e-06,
      "loss": 0.0379,
      "reward": 1.625,
      "reward_std": 0.7440237998962402,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.75,
      "step": 553
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04616666666666667,
      "grad_norm": 0.2752268612384796,
      "kl": 0.5936354994773865,
      "learning_rate": 2.4650945491521372e-06,
      "loss": 0.0237,
      "reward": 1.5,
      "reward_std": 0.471404492855072,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.875,
      "step": 554
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04625,
      "grad_norm": 0.029000254347920418,
      "kl": 1.6099191904067993,
      "learning_rate": 2.4563689839067913e-06,
      "loss": 0.0644,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 1.0,
      "rewards/format_reward_func": 1.0,
      "step": 555
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04633333333333333,
      "grad_norm": 0.21292659640312195,
      "kl": 1.1784905195236206,
      "learning_rate": 2.447643950291608e-06,
      "loss": 0.0471,
      "reward": 1.1666667461395264,
      "reward_std": 0.5634361505508423,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 556
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04641666666666667,
      "grad_norm": 0.23645764589309692,
      "kl": 1.1839085817337036,
      "learning_rate": 2.4389195546183676e-06,
      "loss": 0.0474,
      "reward": 1.7083333730697632,
      "reward_std": 0.48591262102127075,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 557
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0465,
      "grad_norm": 0.38307103514671326,
      "kl": 1.4955880641937256,
      "learning_rate": 2.4301959031910785e-06,
      "loss": 0.0598,
      "reward": 1.5,
      "reward_std": 0.5345224738121033,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 1.0,
      "step": 558
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04658333333333333,
      "grad_norm": 0.2519403398036957,
      "kl": 1.4596502780914307,
      "learning_rate": 2.4214731023046795e-06,
      "loss": 0.0584,
      "reward": 1.7083333730697632,
      "reward_std": 0.4520675241947174,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 559
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04666666666666667,
      "grad_norm": 0.8129304647445679,
      "kl": 1.21884024143219,
      "learning_rate": 2.4127512582437486e-06,
      "loss": 0.0488,
      "reward": 1.375,
      "reward_std": 0.9161254167556763,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.75,
      "step": 560
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04675,
      "grad_norm": 0.6133831143379211,
      "kl": 1.6948648691177368,
      "learning_rate": 2.4040304772812002e-06,
      "loss": 0.0678,
      "reward": 1.5,
      "reward_std": 0.8357109427452087,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.75,
      "step": 561
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04683333333333333,
      "grad_norm": 0.30969029664993286,
      "kl": 1.4396021366119385,
      "learning_rate": 2.3953108656770018e-06,
      "loss": 0.0576,
      "reward": 1.25,
      "reward_std": 0.7918233275413513,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.75,
      "step": 562
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04691666666666667,
      "grad_norm": 0.2306750863790512,
      "kl": 1.3534696102142334,
      "learning_rate": 2.3865925296768658e-06,
      "loss": 0.0541,
      "reward": 1.2916666269302368,
      "reward_std": 0.6283639669418335,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 563
    },
    {
      "completion_length": 250.0,
      "epoch": 0.047,
      "grad_norm": 0.2677202820777893,
      "kl": 1.3551838397979736,
      "learning_rate": 2.377875575510967e-06,
      "loss": 0.0542,
      "reward": 1.75,
      "reward_std": 0.4629100561141968,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.875,
      "step": 564
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04708333333333333,
      "grad_norm": 0.7604575157165527,
      "kl": 1.264426350593567,
      "learning_rate": 2.3691601093926406e-06,
      "loss": 0.0506,
      "reward": 1.1666667461395264,
      "reward_std": 0.50395268201828,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 565
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04716666666666667,
      "grad_norm": 1.7140240669250488,
      "kl": 1.1938304901123047,
      "learning_rate": 2.3604462375170905e-06,
      "loss": 0.0478,
      "reward": 1.375,
      "reward_std": 0.7440237998962402,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.75,
      "step": 566
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04725,
      "grad_norm": 0.3368653655052185,
      "kl": 1.5280756950378418,
      "learning_rate": 2.3517340660600965e-06,
      "loss": 0.0611,
      "reward": 1.0,
      "reward_std": 0.7559289336204529,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.75,
      "step": 567
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04733333333333333,
      "grad_norm": 0.4907490015029907,
      "kl": 1.3557684421539307,
      "learning_rate": 2.3430237011767166e-06,
      "loss": 0.0542,
      "reward": 1.5416666269302368,
      "reward_std": 0.6651769280433655,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 568
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04741666666666667,
      "grad_norm": 0.4219551086425781,
      "kl": 1.487517237663269,
      "learning_rate": 2.3343152490000004e-06,
      "loss": 0.0595,
      "reward": 1.625,
      "reward_std": 0.6283639073371887,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.875,
      "step": 569
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0475,
      "grad_norm": 0.37886741757392883,
      "kl": 0.992394745349884,
      "learning_rate": 2.325608815639687e-06,
      "loss": 0.0397,
      "reward": 1.1666667461395264,
      "reward_std": 0.7766431570053101,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 570
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04758333333333333,
      "grad_norm": 0.2531243562698364,
      "kl": 1.362313985824585,
      "learning_rate": 2.3169045071809217e-06,
      "loss": 0.0545,
      "reward": 1.75,
      "reward_std": 0.38832157850265503,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.875,
      "step": 571
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04766666666666667,
      "grad_norm": 0.27313292026519775,
      "kl": 1.0673291683197021,
      "learning_rate": 2.3082024296829538e-06,
      "loss": 0.0427,
      "reward": 1.625,
      "reward_std": 0.7440237998962402,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.875,
      "step": 572
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04775,
      "grad_norm": 0.3057982325553894,
      "kl": 1.4214304685592651,
      "learning_rate": 2.2995026891778533e-06,
      "loss": 0.0569,
      "reward": 1.625,
      "reward_std": 0.5175491571426392,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 1.0,
      "step": 573
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04783333333333333,
      "grad_norm": 0.27380916476249695,
      "kl": 1.0907694101333618,
      "learning_rate": 2.290805391669212e-06,
      "loss": 0.0436,
      "reward": 1.5,
      "reward_std": 0.5345224738121033,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 1.0,
      "step": 574
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04791666666666667,
      "grad_norm": 0.4117473065853119,
      "kl": 1.1665431261062622,
      "learning_rate": 2.2821106431308546e-06,
      "loss": 0.0467,
      "reward": 1.1666667461395264,
      "reward_std": 0.5345224142074585,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 575
    },
    {
      "completion_length": 250.0,
      "epoch": 0.048,
      "grad_norm": 0.6448284983634949,
      "kl": 1.6899546384811401,
      "learning_rate": 2.2734185495055503e-06,
      "loss": 0.0676,
      "reward": 1.1666667461395264,
      "reward_std": 0.7766432166099548,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 576
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04808333333333333,
      "grad_norm": 0.2402116358280182,
      "kl": 0.989196240901947,
      "learning_rate": 2.2647292167037143e-06,
      "loss": 0.0396,
      "reward": 1.5,
      "reward_std": 0.6424160599708557,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.875,
      "step": 577
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04816666666666667,
      "grad_norm": 0.23641373217105865,
      "kl": 1.2374866008758545,
      "learning_rate": 2.256042750602127e-06,
      "loss": 0.0495,
      "reward": 1.7083333730697632,
      "reward_std": 0.7000566720962524,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 578
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04825,
      "grad_norm": 0.4009597897529602,
      "kl": 1.3696413040161133,
      "learning_rate": 2.2473592570426343e-06,
      "loss": 0.0548,
      "reward": 1.5,
      "reward_std": 0.5345224738121033,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 1.0,
      "step": 579
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04833333333333333,
      "grad_norm": 0.47816938161849976,
      "kl": 1.0150160789489746,
      "learning_rate": 2.238678841830867e-06,
      "loss": 0.0406,
      "reward": 1.25,
      "reward_std": 0.7071067690849304,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.875,
      "step": 580
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04841666666666666,
      "grad_norm": 0.2902098000049591,
      "kl": 1.2081258296966553,
      "learning_rate": 2.230001610734943e-06,
      "loss": 0.0483,
      "reward": 1.5,
      "reward_std": 0.7559289336204529,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.875,
      "step": 581
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0485,
      "grad_norm": 0.5224894285202026,
      "kl": 1.5874559879302979,
      "learning_rate": 2.2213276694841866e-06,
      "loss": 0.0635,
      "reward": 1.2916667461395264,
      "reward_std": 0.8249579668045044,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 582
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04858333333333333,
      "grad_norm": 0.3580199182033539,
      "kl": 0.8156141638755798,
      "learning_rate": 2.212657123767834e-06,
      "loss": 0.0326,
      "reward": 1.3333333730697632,
      "reward_std": 0.7766431570053101,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 583
    },
    {
      "completion_length": 250.0,
      "epoch": 0.048666666666666664,
      "grad_norm": 0.28623875975608826,
      "kl": 1.2345472574234009,
      "learning_rate": 2.2039900792337477e-06,
      "loss": 0.0494,
      "reward": 1.375,
      "reward_std": 0.7440237998962402,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.875,
      "step": 584
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04875,
      "grad_norm": 0.340573251247406,
      "kl": 1.5262372493743896,
      "learning_rate": 2.195326641487132e-06,
      "loss": 0.061,
      "reward": 1.7083333730697632,
      "reward_std": 0.4520675837993622,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 585
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04883333333333333,
      "grad_norm": 0.425148069858551,
      "kl": 1.291420340538025,
      "learning_rate": 2.186666916089239e-06,
      "loss": 0.0517,
      "reward": 1.5,
      "reward_std": 0.9258201122283936,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.75,
      "step": 586
    },
    {
      "completion_length": 250.0,
      "epoch": 0.048916666666666664,
      "grad_norm": 0.21294091641902924,
      "kl": 1.372128963470459,
      "learning_rate": 2.1780110085560935e-06,
      "loss": 0.0549,
      "reward": 1.125,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 1.0,
      "step": 587
    },
    {
      "completion_length": 250.0,
      "epoch": 0.049,
      "grad_norm": 0.8173606395721436,
      "kl": 1.2428475618362427,
      "learning_rate": 2.1693590243571937e-06,
      "loss": 0.0497,
      "reward": 1.9583333730697632,
      "reward_std": 0.11785109341144562,
      "rewards/correctness_reward_func": 1.0,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 588
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04908333333333333,
      "grad_norm": 0.3507099449634552,
      "kl": 0.9352976083755493,
      "learning_rate": 2.1607110689142393e-06,
      "loss": 0.0374,
      "reward": 1.2083333730697632,
      "reward_std": 0.8533315062522888,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.5833333730697632,
      "step": 589
    },
    {
      "completion_length": 250.0,
      "epoch": 0.049166666666666664,
      "grad_norm": 0.6860688924789429,
      "kl": 1.3327147960662842,
      "learning_rate": 2.1520672475998374e-06,
      "loss": 0.0533,
      "reward": 1.4583333730697632,
      "reward_std": 0.501980185508728,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 590
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04925,
      "grad_norm": 0.1836400032043457,
      "kl": 1.7783141136169434,
      "learning_rate": 2.143427665736221e-06,
      "loss": 0.0711,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 1.0,
      "step": 591
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04933333333333333,
      "grad_norm": 1.7451122999191284,
      "kl": 1.7091467380523682,
      "learning_rate": 2.134792428593971e-06,
      "loss": 0.0684,
      "reward": 1.3333332538604736,
      "reward_std": 0.6666666269302368,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.7083333134651184,
      "step": 592
    },
    {
      "completion_length": 250.0,
      "epoch": 0.049416666666666664,
      "grad_norm": 0.23946592211723328,
      "kl": 1.4415324926376343,
      "learning_rate": 2.1261616413907267e-06,
      "loss": 0.0577,
      "reward": 1.2916667461395264,
      "reward_std": 0.6283639669418335,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 593
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0495,
      "grad_norm": 0.02028987742960453,
      "kl": 1.161889910697937,
      "learning_rate": 2.117535409289905e-06,
      "loss": 0.0465,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 1.0,
      "rewards/format_reward_func": 1.0,
      "step": 594
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04958333333333333,
      "grad_norm": 0.23525746166706085,
      "kl": 1.4621292352676392,
      "learning_rate": 2.1089138373994226e-06,
      "loss": 0.0585,
      "reward": 1.625,
      "reward_std": 0.5175491571426392,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 1.0,
      "step": 595
    },
    {
      "completion_length": 250.0,
      "epoch": 0.049666666666666665,
      "grad_norm": 0.2379079908132553,
      "kl": 0.9912834763526917,
      "learning_rate": 2.1002970307704134e-06,
      "loss": 0.0397,
      "reward": 1.0416667461395264,
      "reward_std": 0.5473601818084717,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 596
    },
    {
      "completion_length": 250.0,
      "epoch": 0.04975,
      "grad_norm": 1.0380606651306152,
      "kl": 1.8222761154174805,
      "learning_rate": 2.0916850943959453e-06,
      "loss": 0.0729,
      "reward": 1.5416667461395264,
      "reward_std": 0.501980185508728,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 597
    },
    {
      "completion_length": 250.0,
      "epoch": 0.049833333333333334,
      "grad_norm": 0.2623489797115326,
      "kl": 0.9441961646080017,
      "learning_rate": 2.0830781332097446e-06,
      "loss": 0.0378,
      "reward": 1.5,
      "reward_std": 0.7126966118812561,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.875,
      "step": 598
    },
    {
      "completion_length": 250.0,
      "epoch": 0.049916666666666665,
      "grad_norm": 0.2724643647670746,
      "kl": 1.209511637687683,
      "learning_rate": 2.0744762520849193e-06,
      "loss": 0.0484,
      "reward": 1.5833333730697632,
      "reward_std": 0.49601587653160095,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 599
    },
    {
      "completion_length": 250.0,
      "epoch": 0.05,
      "grad_norm": 0.02976626716554165,
      "kl": 1.7429208755493164,
      "learning_rate": 2.0658795558326745e-06,
      "loss": 0.0697,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 1.0,
      "rewards/format_reward_func": 1.0,
      "step": 600
    },
    {
      "completion_length": 250.0,
      "epoch": 0.050083333333333334,
      "grad_norm": 0.2598009407520294,
      "kl": 1.0037543773651123,
      "learning_rate": 2.0572881492010423e-06,
      "loss": 0.0402,
      "reward": 1.3333333730697632,
      "reward_std": 0.854493260383606,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.7083333730697632,
      "step": 601
    },
    {
      "completion_length": 250.0,
      "epoch": 0.050166666666666665,
      "grad_norm": 0.2374367117881775,
      "kl": 1.5422213077545166,
      "learning_rate": 2.0487021368736002e-06,
      "loss": 0.0617,
      "reward": 1.625,
      "reward_std": 0.7440237998962402,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.875,
      "step": 602
    },
    {
      "completion_length": 202.0,
      "epoch": 0.05025,
      "grad_norm": 0.23875918984413147,
      "kl": 1.7543926239013672,
      "learning_rate": 2.0401216234682e-06,
      "loss": 0.0702,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 1.0,
      "step": 603
    },
    {
      "completion_length": 250.0,
      "epoch": 0.050333333333333334,
      "grad_norm": 0.03209434449672699,
      "kl": 1.4833548069000244,
      "learning_rate": 2.031546713535688e-06,
      "loss": 0.0593,
      "reward": 1.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 1.0,
      "step": 604
    },
    {
      "completion_length": 250.0,
      "epoch": 0.050416666666666665,
      "grad_norm": 0.27828800678253174,
      "kl": 1.3084222078323364,
      "learning_rate": 2.022977511558638e-06,
      "loss": 0.0523,
      "reward": 1.125,
      "reward_std": 0.6408699750900269,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.875,
      "step": 605
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0505,
      "grad_norm": 1.4770981073379517,
      "kl": 1.1198890209197998,
      "learning_rate": 2.0144141219500707e-06,
      "loss": 0.0448,
      "reward": 1.125,
      "reward_std": 0.6408699750900269,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.875,
      "step": 606
    },
    {
      "completion_length": 250.0,
      "epoch": 0.050583333333333334,
      "grad_norm": 0.33261868357658386,
      "kl": 1.2287256717681885,
      "learning_rate": 2.0058566490521848e-06,
      "loss": 0.0491,
      "reward": 1.0416666269302368,
      "reward_std": 0.7000566720962524,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 607
    },
    {
      "completion_length": 250.0,
      "epoch": 0.050666666666666665,
      "grad_norm": 0.28096532821655273,
      "kl": 1.3212240934371948,
      "learning_rate": 1.997305197135089e-06,
      "loss": 0.0528,
      "reward": 1.7916667461395264,
      "reward_std": 0.39591163396835327,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 608
    },
    {
      "completion_length": 250.0,
      "epoch": 0.05075,
      "grad_norm": 0.7251350283622742,
      "kl": 2.047295331954956,
      "learning_rate": 1.9887598703955244e-06,
      "loss": 0.0819,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.875,
      "step": 609
    },
    {
      "completion_length": 250.0,
      "epoch": 0.050833333333333335,
      "grad_norm": 0.22892563045024872,
      "kl": 1.1812776327133179,
      "learning_rate": 1.9802207729556023e-06,
      "loss": 0.0473,
      "reward": 1.7916667461395264,
      "reward_std": 0.46929529309272766,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.9166667461395264,
      "step": 610
    },
    {
      "completion_length": 250.0,
      "epoch": 0.050916666666666666,
      "grad_norm": 0.446869432926178,
      "kl": 1.157643437385559,
      "learning_rate": 1.971688008861529e-06,
      "loss": 0.0463,
      "reward": 1.75,
      "reward_std": 0.4629100561141968,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.875,
      "step": 611
    },
    {
      "completion_length": 250.0,
      "epoch": 0.051,
      "grad_norm": 0.889122486114502,
      "kl": 0.7201449275016785,
      "learning_rate": 1.963161682082342e-06,
      "loss": 0.0288,
      "reward": 0.9166666865348816,
      "reward_std": 0.5563486218452454,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 612
    },
    {
      "completion_length": 250.0,
      "epoch": 0.051083333333333335,
      "grad_norm": 0.3091413378715515,
      "kl": 1.346756935119629,
      "learning_rate": 1.9546418965086444e-06,
      "loss": 0.0539,
      "reward": 1.9166667461395264,
      "reward_std": 0.23570223152637482,
      "rewards/correctness_reward_func": 1.0,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 613
    },
    {
      "completion_length": 250.0,
      "epoch": 0.051166666666666666,
      "grad_norm": 0.40438079833984375,
      "kl": 1.2623693943023682,
      "learning_rate": 1.946128755951332e-06,
      "loss": 0.0505,
      "reward": 1.75,
      "reward_std": 0.4629100561141968,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.875,
      "step": 614
    },
    {
      "completion_length": 244.0,
      "epoch": 0.05125,
      "grad_norm": 0.31069228053092957,
      "kl": 1.4803262948989868,
      "learning_rate": 1.937622364140338e-06,
      "loss": 0.0592,
      "reward": 1.375,
      "reward_std": 0.7440237998962402,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.875,
      "step": 615
    },
    {
      "completion_length": 250.0,
      "epoch": 0.051333333333333335,
      "grad_norm": 0.34841683506965637,
      "kl": 1.1213486194610596,
      "learning_rate": 1.9291228247233607e-06,
      "loss": 0.0449,
      "reward": 1.75,
      "reward_std": 0.4629100561141968,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.875,
      "step": 616
    },
    {
      "completion_length": 250.0,
      "epoch": 0.051416666666666666,
      "grad_norm": 0.2804429829120636,
      "kl": 1.3213424682617188,
      "learning_rate": 1.9206302412646074e-06,
      "loss": 0.0529,
      "reward": 0.9583333730697632,
      "reward_std": 0.11785111576318741,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 617
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0515,
      "grad_norm": 0.2578163146972656,
      "kl": 1.5600756406784058,
      "learning_rate": 1.912144717243525e-06,
      "loss": 0.0624,
      "reward": 1.75,
      "reward_std": 0.4629100561141968,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 1.0,
      "step": 618
    },
    {
      "completion_length": 250.0,
      "epoch": 0.051583333333333335,
      "grad_norm": 0.27005648612976074,
      "kl": 1.027485728263855,
      "learning_rate": 1.9036663560535484e-06,
      "loss": 0.0411,
      "reward": 1.5,
      "reward_std": 0.7559289336204529,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.875,
      "step": 619
    },
    {
      "completion_length": 250.0,
      "epoch": 0.051666666666666666,
      "grad_norm": 0.3639249801635742,
      "kl": 1.0344536304473877,
      "learning_rate": 1.895195261000831e-06,
      "loss": 0.0414,
      "reward": 1.6666667461395264,
      "reward_std": 0.7126966714859009,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 620
    },
    {
      "completion_length": 250.0,
      "epoch": 0.05175,
      "grad_norm": 0.23271331191062927,
      "kl": 0.8880565166473389,
      "learning_rate": 1.8867315353029937e-06,
      "loss": 0.0355,
      "reward": 1.7083333730697632,
      "reward_std": 0.4520675241947174,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 621
    },
    {
      "completion_length": 250.0,
      "epoch": 0.051833333333333335,
      "grad_norm": 0.2460673302412033,
      "kl": 2.0310378074645996,
      "learning_rate": 1.8782752820878636e-06,
      "loss": 0.0812,
      "reward": 1.6666667461395264,
      "reward_std": 0.4714045226573944,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 622
    },
    {
      "completion_length": 250.0,
      "epoch": 0.051916666666666667,
      "grad_norm": 0.3399658501148224,
      "kl": 1.346755027770996,
      "learning_rate": 1.8698266043922159e-06,
      "loss": 0.0539,
      "reward": 1.75,
      "reward_std": 0.4629100561141968,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 1.0,
      "step": 623
    },
    {
      "completion_length": 250.0,
      "epoch": 0.052,
      "grad_norm": 0.2878936529159546,
      "kl": 1.044472575187683,
      "learning_rate": 1.8613856051605242e-06,
      "loss": 0.0418,
      "reward": 1.625,
      "reward_std": 0.7440237998962402,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.875,
      "step": 624
    },
    {
      "completion_length": 250.0,
      "epoch": 0.052083333333333336,
      "grad_norm": 0.30562835931777954,
      "kl": 1.278110384941101,
      "learning_rate": 1.852952387243698e-06,
      "loss": 0.0511,
      "reward": 1.75,
      "reward_std": 0.4629100561141968,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 1.0,
      "step": 625
    },
    {
      "completion_length": 250.0,
      "epoch": 0.05216666666666667,
      "grad_norm": 0.30309000611305237,
      "kl": 1.116170048713684,
      "learning_rate": 1.8445270533978387e-06,
      "loss": 0.0446,
      "reward": 0.7916666865348816,
      "reward_std": 0.39591166377067566,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 626
    },
    {
      "completion_length": 250.0,
      "epoch": 0.05225,
      "grad_norm": 0.29444682598114014,
      "kl": 1.0253041982650757,
      "learning_rate": 1.836109706282978e-06,
      "loss": 0.041,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 1.0,
      "step": 627
    },
    {
      "completion_length": 250.0,
      "epoch": 0.052333333333333336,
      "grad_norm": 0.3537648320198059,
      "kl": 0.7810394167900085,
      "learning_rate": 1.827700448461836e-06,
      "loss": 0.0312,
      "reward": 1.2083333730697632,
      "reward_std": 0.8717342615127563,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.7083333730697632,
      "step": 628
    },
    {
      "completion_length": 250.0,
      "epoch": 0.05241666666666667,
      "grad_norm": 0.1647401601076126,
      "kl": 1.585963249206543,
      "learning_rate": 1.8192993823985643e-06,
      "loss": 0.0634,
      "reward": 1.625,
      "reward_std": 0.5175491571426392,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 1.0,
      "step": 629
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0525,
      "grad_norm": 0.9263207316398621,
      "kl": 1.3402163982391357,
      "learning_rate": 1.8109066104575023e-06,
      "loss": 0.0536,
      "reward": 1.3333333730697632,
      "reward_std": 0.5634361505508423,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 630
    },
    {
      "completion_length": 250.0,
      "epoch": 0.052583333333333336,
      "grad_norm": 0.29536283016204834,
      "kl": 1.0759024620056152,
      "learning_rate": 1.8025222349019273e-06,
      "loss": 0.043,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.875,
      "step": 631
    },
    {
      "completion_length": 250.0,
      "epoch": 0.05266666666666667,
      "grad_norm": 0.7649843692779541,
      "kl": 0.7642300724983215,
      "learning_rate": 1.7941463578928088e-06,
      "loss": 0.0306,
      "reward": 1.5,
      "reward_std": 0.7126966118812561,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.75,
      "step": 632
    },
    {
      "completion_length": 250.0,
      "epoch": 0.05275,
      "grad_norm": 0.26629337668418884,
      "kl": 1.3809568881988525,
      "learning_rate": 1.7857790814875665e-06,
      "loss": 0.0552,
      "reward": 1.75,
      "reward_std": 0.4629100561141968,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 1.0,
      "step": 633
    },
    {
      "completion_length": 250.0,
      "epoch": 0.052833333333333336,
      "grad_norm": 0.2140216827392578,
      "kl": 0.8888575434684753,
      "learning_rate": 1.7774205076388207e-06,
      "loss": 0.0356,
      "reward": 1.7083333730697632,
      "reward_std": 0.5473601818084717,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 634
    },
    {
      "completion_length": 250.0,
      "epoch": 0.05291666666666667,
      "grad_norm": 0.27039581537246704,
      "kl": 0.562234103679657,
      "learning_rate": 1.7690707381931585e-06,
      "loss": 0.0225,
      "reward": 1.625,
      "reward_std": 0.5175491571426392,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.75,
      "step": 635
    },
    {
      "completion_length": 250.0,
      "epoch": 0.053,
      "grad_norm": 0.2814823091030121,
      "kl": 1.5715206861495972,
      "learning_rate": 1.7607298748898844e-06,
      "loss": 0.0629,
      "reward": 1.75,
      "reward_std": 0.4629100561141968,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 1.0,
      "step": 636
    },
    {
      "completion_length": 250.0,
      "epoch": 0.05308333333333334,
      "grad_norm": 0.21937192976474762,
      "kl": 0.5414950251579285,
      "learning_rate": 1.7523980193597837e-06,
      "loss": 0.0217,
      "reward": 1.5833333730697632,
      "reward_std": 0.49601587653160095,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 637
    },
    {
      "completion_length": 250.0,
      "epoch": 0.05316666666666667,
      "grad_norm": 0.28082460165023804,
      "kl": 1.2513439655303955,
      "learning_rate": 1.744075273123889e-06,
      "loss": 0.0501,
      "reward": 1.4583333730697632,
      "reward_std": 0.7332792282104492,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 638
    },
    {
      "completion_length": 250.0,
      "epoch": 0.05325,
      "grad_norm": 0.029399115592241287,
      "kl": 1.4624956846237183,
      "learning_rate": 1.735761737592236e-06,
      "loss": 0.0585,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 1.0,
      "rewards/format_reward_func": 1.0,
      "step": 639
    },
    {
      "completion_length": 250.0,
      "epoch": 0.05333333333333334,
      "grad_norm": 0.39860522747039795,
      "kl": 1.6155064105987549,
      "learning_rate": 1.7274575140626318e-06,
      "loss": 0.0646,
      "reward": 1.625,
      "reward_std": 0.7440237998962402,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.75,
      "step": 640
    },
    {
      "completion_length": 250.0,
      "epoch": 0.05341666666666667,
      "grad_norm": 0.25739023089408875,
      "kl": 1.2121546268463135,
      "learning_rate": 1.7191627037194187e-06,
      "loss": 0.0485,
      "reward": 1.25,
      "reward_std": 0.4629100561141968,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 1.0,
      "step": 641
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0535,
      "grad_norm": 0.3668891191482544,
      "kl": 1.4224536418914795,
      "learning_rate": 1.7108774076322443e-06,
      "loss": 0.0569,
      "reward": 1.5833333730697632,
      "reward_std": 0.5841829776763916,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 642
    },
    {
      "completion_length": 212.0,
      "epoch": 0.05358333333333333,
      "grad_norm": 0.2385721206665039,
      "kl": 1.3418517112731934,
      "learning_rate": 1.702601726754825e-06,
      "loss": 0.0537,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 1.0,
      "step": 643
    },
    {
      "completion_length": 250.0,
      "epoch": 0.05366666666666667,
      "grad_norm": 0.34340476989746094,
      "kl": 1.1666271686553955,
      "learning_rate": 1.6943357619237227e-06,
      "loss": 0.0467,
      "reward": 0.75,
      "reward_std": 0.7071067690849304,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.5,
      "step": 644
    },
    {
      "completion_length": 250.0,
      "epoch": 0.05375,
      "grad_norm": 0.22176310420036316,
      "kl": 1.4181245565414429,
      "learning_rate": 1.686079613857109e-06,
      "loss": 0.0567,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 1.0,
      "step": 645
    },
    {
      "completion_length": 250.0,
      "epoch": 0.05383333333333333,
      "grad_norm": 0.27106255292892456,
      "kl": 0.7385506629943848,
      "learning_rate": 1.677833383153542e-06,
      "loss": 0.0295,
      "reward": 1.0,
      "reward_std": 0.5345224738121033,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.875,
      "step": 646
    },
    {
      "completion_length": 250.0,
      "epoch": 0.05391666666666667,
      "grad_norm": 0.23391051590442657,
      "kl": 1.1499696969985962,
      "learning_rate": 1.6695971702907425e-06,
      "loss": 0.046,
      "reward": 1.7083333730697632,
      "reward_std": 0.7000566720962524,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 647
    },
    {
      "completion_length": 250.0,
      "epoch": 0.054,
      "grad_norm": 0.29008620977401733,
      "kl": 1.0525387525558472,
      "learning_rate": 1.661371075624363e-06,
      "loss": 0.0421,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 1.0,
      "step": 648
    },
    {
      "completion_length": 250.0,
      "epoch": 0.05408333333333333,
      "grad_norm": 0.2697657644748688,
      "kl": 0.778380811214447,
      "learning_rate": 1.6531551993867717e-06,
      "loss": 0.0311,
      "reward": 1.9166667461395264,
      "reward_std": 0.15430331230163574,
      "rewards/correctness_reward_func": 1.0,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 649
    },
    {
      "completion_length": 250.0,
      "epoch": 0.05416666666666667,
      "grad_norm": 0.2077609896659851,
      "kl": 0.8145649433135986,
      "learning_rate": 1.6449496416858285e-06,
      "loss": 0.0326,
      "reward": 1.375,
      "reward_std": 0.5175491571426392,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 1.0,
      "step": 650
    },
    {
      "completion_length": 250.0,
      "epoch": 0.05425,
      "grad_norm": 0.2946789562702179,
      "kl": 1.0525617599487305,
      "learning_rate": 1.6367545025036634e-06,
      "loss": 0.0421,
      "reward": 1.9166667461395264,
      "reward_std": 0.23570223152637482,
      "rewards/correctness_reward_func": 1.0,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 651
    },
    {
      "completion_length": 250.0,
      "epoch": 0.05433333333333333,
      "grad_norm": 0.2999846041202545,
      "kl": 1.0172115564346313,
      "learning_rate": 1.6285698816954626e-06,
      "loss": 0.0407,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 1.0,
      "step": 652
    },
    {
      "completion_length": 250.0,
      "epoch": 0.05441666666666667,
      "grad_norm": 0.3423196077346802,
      "kl": 1.435135006904602,
      "learning_rate": 1.6203958789882457e-06,
      "loss": 0.0574,
      "reward": 1.5,
      "reward_std": 0.7559289336204529,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.75,
      "step": 653
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0545,
      "grad_norm": 0.4042535424232483,
      "kl": 0.9854827523231506,
      "learning_rate": 1.612232593979658e-06,
      "loss": 0.0394,
      "reward": 1.5416666269302368,
      "reward_std": 0.6651769280433655,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 654
    },
    {
      "completion_length": 250.0,
      "epoch": 0.05458333333333333,
      "grad_norm": 0.5451151132583618,
      "kl": 1.6612234115600586,
      "learning_rate": 1.6040801261367494e-06,
      "loss": 0.0664,
      "reward": 1.7916667461395264,
      "reward_std": 0.39591163396835327,
      "rewards/correctness_reward_func": 1.0,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 655
    },
    {
      "completion_length": 250.0,
      "epoch": 0.05466666666666667,
      "grad_norm": 0.28427278995513916,
      "kl": 0.8143528699874878,
      "learning_rate": 1.5959385747947697e-06,
      "loss": 0.0326,
      "reward": 1.5416666269302368,
      "reward_std": 0.853331446647644,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 656
    },
    {
      "completion_length": 250.0,
      "epoch": 0.05475,
      "grad_norm": 0.26303741335868835,
      "kl": 1.1400749683380127,
      "learning_rate": 1.5878080391559507e-06,
      "loss": 0.0456,
      "reward": 1.4583333730697632,
      "reward_std": 0.5892556309700012,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 657
    },
    {
      "completion_length": 250.0,
      "epoch": 0.05483333333333333,
      "grad_norm": 2.4117088317871094,
      "kl": 1.7515506744384766,
      "learning_rate": 1.5796886182883053e-06,
      "loss": 0.0701,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 1.0,
      "rewards/format_reward_func": 0.875,
      "step": 658
    },
    {
      "completion_length": 250.0,
      "epoch": 0.05491666666666667,
      "grad_norm": 0.37918296456336975,
      "kl": 1.5612022876739502,
      "learning_rate": 1.5715804111244138e-06,
      "loss": 0.0624,
      "reward": 1.6666667461395264,
      "reward_std": 0.4364357888698578,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 659
    },
    {
      "completion_length": 250.0,
      "epoch": 0.055,
      "grad_norm": 0.3990735709667206,
      "kl": 0.9025101065635681,
      "learning_rate": 1.56348351646022e-06,
      "loss": 0.0361,
      "reward": 1.5833333730697632,
      "reward_std": 0.7292091846466064,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 660
    },
    {
      "completion_length": 250.0,
      "epoch": 0.05508333333333333,
      "grad_norm": 0.2836557924747467,
      "kl": 1.0622992515563965,
      "learning_rate": 1.5553980329538326e-06,
      "loss": 0.0425,
      "reward": 1.5416666269302368,
      "reward_std": 0.8533315062522888,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 661
    },
    {
      "completion_length": 249.0,
      "epoch": 0.05516666666666667,
      "grad_norm": 0.4254859685897827,
      "kl": 1.7287112474441528,
      "learning_rate": 1.547324059124315e-06,
      "loss": 0.0691,
      "reward": 1.75,
      "reward_std": 0.4629100561141968,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 1.0,
      "step": 662
    },
    {
      "completion_length": 250.0,
      "epoch": 0.05525,
      "grad_norm": 0.517515242099762,
      "kl": 1.6896018981933594,
      "learning_rate": 1.539261693350491e-06,
      "loss": 0.0676,
      "reward": 1.5,
      "reward_std": 0.9258201122283936,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.75,
      "step": 663
    },
    {
      "completion_length": 250.0,
      "epoch": 0.05533333333333333,
      "grad_norm": 0.03853216394782066,
      "kl": 1.4163974523544312,
      "learning_rate": 1.5312110338697427e-06,
      "loss": 0.0567,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 1.0,
      "rewards/format_reward_func": 1.0,
      "step": 664
    },
    {
      "completion_length": 250.0,
      "epoch": 0.05541666666666667,
      "grad_norm": 5.298870086669922,
      "kl": 1.7589707374572754,
      "learning_rate": 1.5231721787768162e-06,
      "loss": 0.0704,
      "reward": 1.625,
      "reward_std": 0.7440237998962402,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.875,
      "step": 665
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0555,
      "grad_norm": 0.28842854499816895,
      "kl": 1.1976323127746582,
      "learning_rate": 1.5151452260226224e-06,
      "loss": 0.0479,
      "reward": 1.6666667461395264,
      "reward_std": 0.7126966714859009,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 666
    },
    {
      "completion_length": 250.0,
      "epoch": 0.05558333333333333,
      "grad_norm": 0.4191083610057831,
      "kl": 1.463090419769287,
      "learning_rate": 1.5071302734130488e-06,
      "loss": 0.0585,
      "reward": 1.7083333730697632,
      "reward_std": 0.4520675241947174,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 667
    },
    {
      "completion_length": 250.0,
      "epoch": 0.05566666666666667,
      "grad_norm": 0.2382550835609436,
      "kl": 1.061838150024414,
      "learning_rate": 1.4991274186077632e-06,
      "loss": 0.0425,
      "reward": 1.5833332538604736,
      "reward_std": 0.6362090110778809,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 668
    },
    {
      "completion_length": 250.0,
      "epoch": 0.05575,
      "grad_norm": 0.2757638394832611,
      "kl": 1.002281665802002,
      "learning_rate": 1.491136759119025e-06,
      "loss": 0.0401,
      "reward": 1.375,
      "reward_std": 0.7440237998962402,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.875,
      "step": 669
    },
    {
      "completion_length": 250.0,
      "epoch": 0.05583333333333333,
      "grad_norm": 0.4550880193710327,
      "kl": 0.8322465419769287,
      "learning_rate": 1.4831583923105e-06,
      "loss": 0.0333,
      "reward": 1.5833333730697632,
      "reward_std": 0.7292091846466064,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.7083333730697632,
      "step": 670
    },
    {
      "completion_length": 250.0,
      "epoch": 0.05591666666666667,
      "grad_norm": 0.52930748462677,
      "kl": 1.6172356605529785,
      "learning_rate": 1.4751924153960681e-06,
      "loss": 0.0647,
      "reward": 1.5833333730697632,
      "reward_std": 0.5841830372810364,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 671
    },
    {
      "completion_length": 250.0,
      "epoch": 0.056,
      "grad_norm": 0.35954219102859497,
      "kl": 1.1327468156814575,
      "learning_rate": 1.467238925438646e-06,
      "loss": 0.0453,
      "reward": 1.4583333730697632,
      "reward_std": 0.7332792282104492,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 672
    },
    {
      "completion_length": 250.0,
      "epoch": 0.05608333333333333,
      "grad_norm": 0.29655808210372925,
      "kl": 1.7345565557479858,
      "learning_rate": 1.4592980193489975e-06,
      "loss": 0.0694,
      "reward": 1.75,
      "reward_std": 0.4629100561141968,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 1.0,
      "step": 673
    },
    {
      "completion_length": 250.0,
      "epoch": 0.05616666666666666,
      "grad_norm": 0.2724839746952057,
      "kl": 0.983393669128418,
      "learning_rate": 1.4513697938845571e-06,
      "loss": 0.0393,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 1.0,
      "step": 674
    },
    {
      "completion_length": 250.0,
      "epoch": 0.05625,
      "grad_norm": 0.2653176784515381,
      "kl": 1.4598757028579712,
      "learning_rate": 1.443454345648252e-06,
      "loss": 0.0584,
      "reward": 1.0,
      "reward_std": 0.5345224738121033,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.875,
      "step": 675
    },
    {
      "completion_length": 250.0,
      "epoch": 0.05633333333333333,
      "grad_norm": 0.4087188243865967,
      "kl": 1.2594470977783203,
      "learning_rate": 1.4355517710873184e-06,
      "loss": 0.0504,
      "reward": 1.375,
      "reward_std": 0.5175491571426392,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.875,
      "step": 676
    },
    {
      "completion_length": 250.0,
      "epoch": 0.056416666666666664,
      "grad_norm": 0.25172901153564453,
      "kl": 0.8408035635948181,
      "learning_rate": 1.4276621664921358e-06,
      "loss": 0.0336,
      "reward": 1.125,
      "reward_std": 0.6408699750900269,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.875,
      "step": 677
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0565,
      "grad_norm": 0.26606500148773193,
      "kl": 1.4946765899658203,
      "learning_rate": 1.419785627995044e-06,
      "loss": 0.0598,
      "reward": 1.625,
      "reward_std": 0.5175491571426392,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 1.0,
      "step": 678
    },
    {
      "completion_length": 250.0,
      "epoch": 0.05658333333333333,
      "grad_norm": 0.2562119662761688,
      "kl": 1.0255094766616821,
      "learning_rate": 1.4119222515691817e-06,
      "loss": 0.041,
      "reward": 1.625,
      "reward_std": 0.7440237998962402,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.875,
      "step": 679
    },
    {
      "completion_length": 250.0,
      "epoch": 0.056666666666666664,
      "grad_norm": 0.2506910264492035,
      "kl": 1.0600122213363647,
      "learning_rate": 1.4040721330273063e-06,
      "loss": 0.0424,
      "reward": 1.625,
      "reward_std": 0.7440237998962402,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.875,
      "step": 680
    },
    {
      "completion_length": 250.0,
      "epoch": 0.05675,
      "grad_norm": 0.2096366286277771,
      "kl": 0.6006632447242737,
      "learning_rate": 1.3962353680206372e-06,
      "loss": 0.024,
      "reward": 1.125,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.75,
      "step": 681
    },
    {
      "completion_length": 250.0,
      "epoch": 0.05683333333333333,
      "grad_norm": 0.032199203968048096,
      "kl": 1.5546534061431885,
      "learning_rate": 1.388412052037682e-06,
      "loss": 0.0622,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 1.0,
      "rewards/format_reward_func": 1.0,
      "step": 682
    },
    {
      "completion_length": 214.0,
      "epoch": 0.056916666666666664,
      "grad_norm": 0.5028219819068909,
      "kl": 1.4313411712646484,
      "learning_rate": 1.380602280403076e-06,
      "loss": 0.0573,
      "reward": 1.125,
      "reward_std": 0.6408699750900269,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.875,
      "step": 683
    },
    {
      "completion_length": 250.0,
      "epoch": 0.057,
      "grad_norm": 0.19551897048950195,
      "kl": 0.8340595960617065,
      "learning_rate": 1.3728061482764238e-06,
      "loss": 0.0334,
      "reward": 1.2083333730697632,
      "reward_std": 0.39591163396835327,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 684
    },
    {
      "completion_length": 250.0,
      "epoch": 0.05708333333333333,
      "grad_norm": 0.4893221855163574,
      "kl": 1.325058102607727,
      "learning_rate": 1.3650237506511333e-06,
      "loss": 0.053,
      "reward": 1.8333333730697632,
      "reward_std": 0.35634827613830566,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 685
    },
    {
      "completion_length": 250.0,
      "epoch": 0.057166666666666664,
      "grad_norm": 0.18707111477851868,
      "kl": 1.2680920362472534,
      "learning_rate": 1.3572551823532654e-06,
      "loss": 0.0507,
      "reward": 1.125,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 1.0,
      "step": 686
    },
    {
      "completion_length": 250.0,
      "epoch": 0.05725,
      "grad_norm": 0.2992132306098938,
      "kl": 1.0152003765106201,
      "learning_rate": 1.349500538040371e-06,
      "loss": 0.0406,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.875,
      "step": 687
    },
    {
      "completion_length": 250.0,
      "epoch": 0.05733333333333333,
      "grad_norm": 0.24606172740459442,
      "kl": 1.0200669765472412,
      "learning_rate": 1.3417599122003464e-06,
      "loss": 0.0408,
      "reward": 1.25,
      "reward_std": 0.4629100561141968,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 1.0,
      "step": 688
    },
    {
      "completion_length": 250.0,
      "epoch": 0.057416666666666664,
      "grad_norm": 0.269815593957901,
      "kl": 1.2791739702224731,
      "learning_rate": 1.3340333991502723e-06,
      "loss": 0.0512,
      "reward": 1.625,
      "reward_std": 0.7440237998962402,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.875,
      "step": 689
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0575,
      "grad_norm": 0.3196219205856323,
      "kl": 1.3466354608535767,
      "learning_rate": 1.3263210930352737e-06,
      "loss": 0.0539,
      "reward": 1.625,
      "reward_std": 0.5175491571426392,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.875,
      "step": 690
    },
    {
      "completion_length": 250.0,
      "epoch": 0.057583333333333334,
      "grad_norm": 0.397535115480423,
      "kl": 1.0252505540847778,
      "learning_rate": 1.3186230878273654e-06,
      "loss": 0.041,
      "reward": 1.25,
      "reward_std": 0.8864052295684814,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.625,
      "step": 691
    },
    {
      "completion_length": 250.0,
      "epoch": 0.057666666666666665,
      "grad_norm": 0.29124775528907776,
      "kl": 1.024878740310669,
      "learning_rate": 1.3109394773243117e-06,
      "loss": 0.041,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 1.0,
      "rewards/format_reward_func": 0.875,
      "step": 692
    },
    {
      "completion_length": 250.0,
      "epoch": 0.05775,
      "grad_norm": 0.2738453447818756,
      "kl": 1.3520758152008057,
      "learning_rate": 1.3032703551484832e-06,
      "loss": 0.0541,
      "reward": 1.125,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 1.0,
      "step": 693
    },
    {
      "completion_length": 250.0,
      "epoch": 0.057833333333333334,
      "grad_norm": 0.2758381962776184,
      "kl": 1.5181013345718384,
      "learning_rate": 1.2956158147457116e-06,
      "loss": 0.0607,
      "reward": 1.75,
      "reward_std": 0.4629100561141968,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 1.0,
      "step": 694
    },
    {
      "completion_length": 250.0,
      "epoch": 0.057916666666666665,
      "grad_norm": 0.7927420139312744,
      "kl": 0.9507368803024292,
      "learning_rate": 1.2879759493841577e-06,
      "loss": 0.038,
      "reward": 1.2916666269302368,
      "reward_std": 0.8249579071998596,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 695
    },
    {
      "completion_length": 250.0,
      "epoch": 0.058,
      "grad_norm": 0.2301512509584427,
      "kl": 1.0944889783859253,
      "learning_rate": 1.280350852153168e-06,
      "loss": 0.0438,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 1.0,
      "rewards/format_reward_func": 0.875,
      "step": 696
    },
    {
      "completion_length": 250.0,
      "epoch": 0.058083333333333334,
      "grad_norm": 0.2712516784667969,
      "kl": 0.8457162976264954,
      "learning_rate": 1.272740615962148e-06,
      "loss": 0.0338,
      "reward": 1.8333333730697632,
      "reward_std": 0.25197628140449524,
      "rewards/correctness_reward_func": 1.0,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 697
    },
    {
      "completion_length": 250.0,
      "epoch": 0.058166666666666665,
      "grad_norm": 0.32763615250587463,
      "kl": 0.9605115652084351,
      "learning_rate": 1.2651453335394232e-06,
      "loss": 0.0384,
      "reward": 1.2916667461395264,
      "reward_std": 0.7000566720962524,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.6666666865348816,
      "step": 698
    },
    {
      "completion_length": 250.0,
      "epoch": 0.05825,
      "grad_norm": 0.29685455560684204,
      "kl": 1.2807537317276,
      "learning_rate": 1.2575650974311118e-06,
      "loss": 0.0512,
      "reward": 1.4166667461395264,
      "reward_std": 0.6606874465942383,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 699
    },
    {
      "completion_length": 250.0,
      "epoch": 0.058333333333333334,
      "grad_norm": 0.3393094837665558,
      "kl": 1.317583441734314,
      "learning_rate": 1.2500000000000007e-06,
      "loss": 0.0527,
      "reward": 1.4583333730697632,
      "reward_std": 0.7332792282104492,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 700
    },
    {
      "completion_length": 250.0,
      "epoch": 0.058416666666666665,
      "grad_norm": 0.24073301255702972,
      "kl": 1.267662763595581,
      "learning_rate": 1.2424501334244124e-06,
      "loss": 0.0507,
      "reward": 1.0416667461395264,
      "reward_std": 0.41547447443008423,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.9166667461395264,
      "step": 701
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0585,
      "grad_norm": 0.2873644530773163,
      "kl": 1.1300421953201294,
      "learning_rate": 1.234915589697091e-06,
      "loss": 0.0452,
      "reward": 1.7083333730697632,
      "reward_std": 0.602573812007904,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 702
    },
    {
      "completion_length": 250.0,
      "epoch": 0.058583333333333334,
      "grad_norm": 0.2742319703102112,
      "kl": 0.9622892141342163,
      "learning_rate": 1.2273964606240718e-06,
      "loss": 0.0385,
      "reward": 1.6666666269302368,
      "reward_std": 0.6424161195755005,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 703
    },
    {
      "completion_length": 250.0,
      "epoch": 0.058666666666666666,
      "grad_norm": 0.21177729964256287,
      "kl": 0.9296140670776367,
      "learning_rate": 1.2198928378235717e-06,
      "loss": 0.0372,
      "reward": 1.125,
      "reward_std": 0.6408699750900269,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.875,
      "step": 704
    },
    {
      "completion_length": 250.0,
      "epoch": 0.05875,
      "grad_norm": 0.6481500267982483,
      "kl": 1.4008327722549438,
      "learning_rate": 1.2124048127248644e-06,
      "loss": 0.056,
      "reward": 1.2083333730697632,
      "reward_std": 0.501980185508728,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 705
    },
    {
      "completion_length": 250.0,
      "epoch": 0.058833333333333335,
      "grad_norm": 0.21664856374263763,
      "kl": 1.1676733493804932,
      "learning_rate": 1.204932476567175e-06,
      "loss": 0.0467,
      "reward": 1.6666666269302368,
      "reward_std": 0.6424160599708557,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 706
    },
    {
      "completion_length": 250.0,
      "epoch": 0.058916666666666666,
      "grad_norm": 0.33540189266204834,
      "kl": 1.3017733097076416,
      "learning_rate": 1.19747592039856e-06,
      "loss": 0.0521,
      "reward": 1.8333333730697632,
      "reward_std": 0.35634833574295044,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 707
    },
    {
      "completion_length": 250.0,
      "epoch": 0.059,
      "grad_norm": 0.2600402235984802,
      "kl": 1.0948798656463623,
      "learning_rate": 1.1900352350748026e-06,
      "loss": 0.0438,
      "reward": 1.7916666269302368,
      "reward_std": 0.5892555713653564,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 708
    },
    {
      "completion_length": 250.0,
      "epoch": 0.059083333333333335,
      "grad_norm": 0.20079267024993896,
      "kl": 1.0153428316116333,
      "learning_rate": 1.1826105112583061e-06,
      "loss": 0.0406,
      "reward": 1.5,
      "reward_std": 0.5345224738121033,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 1.0,
      "step": 709
    },
    {
      "completion_length": 250.0,
      "epoch": 0.059166666666666666,
      "grad_norm": 0.29417306184768677,
      "kl": 0.6207944750785828,
      "learning_rate": 1.1752018394169882e-06,
      "loss": 0.0248,
      "reward": 1.0,
      "reward_std": 0.7559289336204529,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.75,
      "step": 710
    },
    {
      "completion_length": 250.0,
      "epoch": 0.05925,
      "grad_norm": 0.40088775753974915,
      "kl": 1.1724050045013428,
      "learning_rate": 1.1678093098231748e-06,
      "loss": 0.0469,
      "reward": 1.1666666269302368,
      "reward_std": 0.7766431570053101,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 711
    },
    {
      "completion_length": 250.0,
      "epoch": 0.059333333333333335,
      "grad_norm": 0.4337019920349121,
      "kl": 1.4313944578170776,
      "learning_rate": 1.160433012552508e-06,
      "loss": 0.0573,
      "reward": 1.6666666269302368,
      "reward_std": 0.6424161195755005,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 712
    },
    {
      "completion_length": 250.0,
      "epoch": 0.059416666666666666,
      "grad_norm": 0.25332921743392944,
      "kl": 1.3762283325195312,
      "learning_rate": 1.1530730374828422e-06,
      "loss": 0.055,
      "reward": 1.375,
      "reward_std": 0.5175491571426392,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 1.0,
      "step": 713
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0595,
      "grad_norm": 0.4357444941997528,
      "kl": 1.0639551877975464,
      "learning_rate": 1.1457294742931508e-06,
      "loss": 0.0426,
      "reward": 1.125,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 1.0,
      "step": 714
    },
    {
      "completion_length": 250.0,
      "epoch": 0.059583333333333335,
      "grad_norm": 0.3148086369037628,
      "kl": 1.8188680410385132,
      "learning_rate": 1.1384024124624324e-06,
      "loss": 0.0728,
      "reward": 1.4166667461395264,
      "reward_std": 0.771516740322113,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 715
    },
    {
      "completion_length": 250.0,
      "epoch": 0.059666666666666666,
      "grad_norm": 0.3978966176509857,
      "kl": 2.0942423343658447,
      "learning_rate": 1.1310919412686248e-06,
      "loss": 0.0838,
      "reward": 1.625,
      "reward_std": 0.5175491571426392,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 1.0,
      "step": 716
    },
    {
      "completion_length": 250.0,
      "epoch": 0.05975,
      "grad_norm": 0.3257802128791809,
      "kl": 1.4454894065856934,
      "learning_rate": 1.1237981497875112e-06,
      "loss": 0.0578,
      "reward": 1.9583333730697632,
      "reward_std": 0.11785109341144562,
      "rewards/correctness_reward_func": 1.0,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 717
    },
    {
      "completion_length": 250.0,
      "epoch": 0.059833333333333336,
      "grad_norm": 0.29710352420806885,
      "kl": 0.89763343334198,
      "learning_rate": 1.11652112689164e-06,
      "loss": 0.0359,
      "reward": 1.5,
      "reward_std": 0.7126966714859009,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.75,
      "step": 718
    },
    {
      "completion_length": 250.0,
      "epoch": 0.05991666666666667,
      "grad_norm": 0.34548911452293396,
      "kl": 1.2456828355789185,
      "learning_rate": 1.109260961249238e-06,
      "loss": 0.0498,
      "reward": 1.375,
      "reward_std": 0.9161254167556763,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.75,
      "step": 719
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06,
      "grad_norm": 0.46419206261634827,
      "kl": 1.6931712627410889,
      "learning_rate": 1.1020177413231334e-06,
      "loss": 0.0677,
      "reward": 1.625,
      "reward_std": 0.7440237998962402,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.875,
      "step": 720
    },
    {
      "completion_length": 250.0,
      "epoch": 0.060083333333333336,
      "grad_norm": 0.2870257794857025,
      "kl": 0.8886799216270447,
      "learning_rate": 1.0947915553696742e-06,
      "loss": 0.0355,
      "reward": 1.8333333730697632,
      "reward_std": 0.35634827613830566,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 721
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06016666666666667,
      "grad_norm": 0.334460973739624,
      "kl": 1.3340364694595337,
      "learning_rate": 1.0875824914376555e-06,
      "loss": 0.0534,
      "reward": 1.625,
      "reward_std": 0.5175491571426392,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 1.0,
      "step": 722
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06025,
      "grad_norm": 0.24705474078655243,
      "kl": 0.7932687997817993,
      "learning_rate": 1.0803906373672477e-06,
      "loss": 0.0317,
      "reward": 1.0416666269302368,
      "reward_std": 0.7000566720962524,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 723
    },
    {
      "completion_length": 250.0,
      "epoch": 0.060333333333333336,
      "grad_norm": 0.27795547246932983,
      "kl": 0.7931269407272339,
      "learning_rate": 1.073216080788921e-06,
      "loss": 0.0317,
      "reward": 1.5,
      "reward_std": 0.7559289336204529,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.625,
      "step": 724
    },
    {
      "completion_length": 202.0,
      "epoch": 0.06041666666666667,
      "grad_norm": 0.1886208951473236,
      "kl": 1.4156323671340942,
      "learning_rate": 1.0660589091223854e-06,
      "loss": 0.0566,
      "reward": 1.9583333730697632,
      "reward_std": 0.11785109341144562,
      "rewards/correctness_reward_func": 1.0,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 725
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0605,
      "grad_norm": 0.23371046781539917,
      "kl": 0.7740318179130554,
      "learning_rate": 1.0589192095755172e-06,
      "loss": 0.031,
      "reward": 1.4583333730697632,
      "reward_std": 0.6886264085769653,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 726
    },
    {
      "completion_length": 250.0,
      "epoch": 0.060583333333333336,
      "grad_norm": 1.0416193008422852,
      "kl": 1.2525185346603394,
      "learning_rate": 1.0517970691433035e-06,
      "loss": 0.0501,
      "reward": 1.125,
      "reward_std": 0.6408699750900269,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.875,
      "step": 727
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06066666666666667,
      "grad_norm": 0.335510790348053,
      "kl": 0.8215186595916748,
      "learning_rate": 1.0446925746067768e-06,
      "loss": 0.0329,
      "reward": 1.4583332538604736,
      "reward_std": 0.7955730557441711,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 728
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06075,
      "grad_norm": 0.4560522735118866,
      "kl": 0.985789954662323,
      "learning_rate": 1.0376058125319614e-06,
      "loss": 0.0394,
      "reward": 1.125,
      "reward_std": 0.8345229625701904,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.75,
      "step": 729
    },
    {
      "completion_length": 227.0,
      "epoch": 0.060833333333333336,
      "grad_norm": 0.25721290707588196,
      "kl": 1.056433916091919,
      "learning_rate": 1.0305368692688175e-06,
      "loss": 0.0423,
      "reward": 1.3333333730697632,
      "reward_std": 0.5634361505508423,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 730
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06091666666666667,
      "grad_norm": 1.3237224817276,
      "kl": 0.6960461735725403,
      "learning_rate": 1.0234858309501864e-06,
      "loss": 0.0278,
      "reward": 1.0,
      "reward_std": 0.7126966714859009,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.75,
      "step": 731
    },
    {
      "completion_length": 250.0,
      "epoch": 0.061,
      "grad_norm": 0.2881050407886505,
      "kl": 0.5406643152236938,
      "learning_rate": 1.0164527834907468e-06,
      "loss": 0.0216,
      "reward": 1.3333333730697632,
      "reward_std": 0.8908708095550537,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.7083333730697632,
      "step": 732
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06108333333333334,
      "grad_norm": 0.21133320033550262,
      "kl": 1.2629066705703735,
      "learning_rate": 1.0094378125859602e-06,
      "loss": 0.0505,
      "reward": 1.2083333730697632,
      "reward_std": 0.5019802451133728,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 733
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06116666666666667,
      "grad_norm": 0.22745351493358612,
      "kl": 0.8365185856819153,
      "learning_rate": 1.0024410037110358e-06,
      "loss": 0.0335,
      "reward": 1.2083333730697632,
      "reward_std": 0.501980185508728,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 734
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06125,
      "grad_norm": 0.2476133406162262,
      "kl": 1.2012953758239746,
      "learning_rate": 9.95462442119879e-07,
      "loss": 0.0481,
      "reward": 1.9583333730697632,
      "reward_std": 0.11785109341144562,
      "rewards/correctness_reward_func": 1.0,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 735
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06133333333333333,
      "grad_norm": 0.19638416171073914,
      "kl": 1.6485852003097534,
      "learning_rate": 9.88502212844063e-07,
      "loss": 0.0659,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 1.0,
      "step": 736
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06141666666666667,
      "grad_norm": 0.31301435828208923,
      "kl": 1.480404257774353,
      "learning_rate": 9.815604006917839e-07,
      "loss": 0.0592,
      "reward": 1.625,
      "reward_std": 0.5175491571426392,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 1.0,
      "step": 737
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0615,
      "grad_norm": 0.27803361415863037,
      "kl": 0.7003533244132996,
      "learning_rate": 9.746370902468311e-07,
      "loss": 0.028,
      "reward": 1.5,
      "reward_std": 0.7559289336204529,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.875,
      "step": 738
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06158333333333333,
      "grad_norm": 0.2773330807685852,
      "kl": 1.3522332906723022,
      "learning_rate": 9.677323658675594e-07,
      "loss": 0.0541,
      "reward": 1.25,
      "reward_std": 0.4629100561141968,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 1.0,
      "step": 739
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06166666666666667,
      "grad_norm": 0.6077278852462769,
      "kl": 1.1051663160324097,
      "learning_rate": 9.608463116858544e-07,
      "loss": 0.0442,
      "reward": 1.125,
      "reward_std": 0.6408699750900269,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.875,
      "step": 740
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06175,
      "grad_norm": 0.3956521451473236,
      "kl": 1.057028889656067,
      "learning_rate": 9.53979011606115e-07,
      "loss": 0.0423,
      "reward": 1.4583333730697632,
      "reward_std": 0.7332792282104492,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 741
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06183333333333333,
      "grad_norm": 0.2606249451637268,
      "kl": 1.6235839128494263,
      "learning_rate": 9.471305493042243e-07,
      "loss": 0.0649,
      "reward": 1.5833333730697632,
      "reward_std": 0.49601587653160095,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 742
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06191666666666667,
      "grad_norm": 0.20523270964622498,
      "kl": 1.068432092666626,
      "learning_rate": 9.403010082265351e-07,
      "loss": 0.0427,
      "reward": 1.3333333730697632,
      "reward_std": 0.5634361505508423,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 743
    },
    {
      "completion_length": 250.0,
      "epoch": 0.062,
      "grad_norm": 0.2961874306201935,
      "kl": 1.2741352319717407,
      "learning_rate": 9.334904715888496e-07,
      "loss": 0.051,
      "reward": 1.4583333730697632,
      "reward_std": 0.5892556309700012,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 744
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06208333333333333,
      "grad_norm": 0.2894919216632843,
      "kl": 1.0481557846069336,
      "learning_rate": 9.266990223754069e-07,
      "loss": 0.0419,
      "reward": 1.6666666269302368,
      "reward_std": 0.6424160599708557,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 745
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06216666666666667,
      "grad_norm": 0.2562686800956726,
      "kl": 1.0808312892913818,
      "learning_rate": 9.199267433378728e-07,
      "loss": 0.0432,
      "reward": 1.5,
      "reward_std": 0.5345224738121033,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 1.0,
      "step": 746
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06225,
      "grad_norm": 0.28722333908081055,
      "kl": 1.1899094581604004,
      "learning_rate": 9.131737169943314e-07,
      "loss": 0.0476,
      "reward": 1.625,
      "reward_std": 0.7440237998962402,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.875,
      "step": 747
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06233333333333333,
      "grad_norm": 0.18329280614852905,
      "kl": 1.901811957359314,
      "learning_rate": 9.064400256282757e-07,
      "loss": 0.0761,
      "reward": 1.7083333730697632,
      "reward_std": 0.4520675241947174,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 748
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06241666666666667,
      "grad_norm": 0.22949326038360596,
      "kl": 1.2201263904571533,
      "learning_rate": 8.99725751287611e-07,
      "loss": 0.0488,
      "reward": 1.375,
      "reward_std": 0.5175491571426392,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 1.0,
      "step": 749
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0625,
      "grad_norm": 0.32113534212112427,
      "kl": 1.5129036903381348,
      "learning_rate": 8.930309757836517e-07,
      "loss": 0.0605,
      "reward": 1.8333333730697632,
      "reward_std": 0.35634827613830566,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 750
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06258333333333334,
      "grad_norm": 0.41787517070770264,
      "kl": 1.3719799518585205,
      "learning_rate": 8.863557806901233e-07,
      "loss": 0.0549,
      "reward": 1.625,
      "reward_std": 0.5175491571426392,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 1.0,
      "step": 751
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06266666666666666,
      "grad_norm": 0.2127346247434616,
      "kl": 1.2286632061004639,
      "learning_rate": 8.797002473421729e-07,
      "loss": 0.0491,
      "reward": 1.625,
      "reward_std": 0.7440237998962402,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.875,
      "step": 752
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06275,
      "grad_norm": 0.3302915096282959,
      "kl": 0.7858455777168274,
      "learning_rate": 8.73064456835373e-07,
      "loss": 0.0314,
      "reward": 1.625,
      "reward_std": 0.5175491571426392,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 1.0,
      "step": 753
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06283333333333334,
      "grad_norm": 0.21576067805290222,
      "kl": 1.1705996990203857,
      "learning_rate": 8.664484900247363e-07,
      "loss": 0.0468,
      "reward": 1.75,
      "reward_std": 0.4629100561141968,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 1.0,
      "step": 754
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06291666666666666,
      "grad_norm": 0.22521759569644928,
      "kl": 1.7442842721939087,
      "learning_rate": 8.598524275237321e-07,
      "loss": 0.0698,
      "reward": 1.7916666269302368,
      "reward_std": 0.589255690574646,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 755
    },
    {
      "completion_length": 250.0,
      "epoch": 0.063,
      "grad_norm": 1.9343209266662598,
      "kl": 1.2830684185028076,
      "learning_rate": 8.532763497032987e-07,
      "loss": 0.0513,
      "reward": 1.7083333730697632,
      "reward_std": 0.4520675241947174,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 756
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06308333333333334,
      "grad_norm": 0.2488812506198883,
      "kl": 1.0733072757720947,
      "learning_rate": 8.467203366908708e-07,
      "loss": 0.0429,
      "reward": 1.25,
      "reward_std": 0.8864052295684814,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.75,
      "step": 757
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06316666666666666,
      "grad_norm": 0.310738742351532,
      "kl": 1.2989583015441895,
      "learning_rate": 8.40184468369396e-07,
      "loss": 0.052,
      "reward": 1.625,
      "reward_std": 0.7000566720962524,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.8750000596046448,
      "step": 758
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06325,
      "grad_norm": 0.25620657205581665,
      "kl": 1.613889217376709,
      "learning_rate": 8.336688243763691e-07,
      "loss": 0.0646,
      "reward": 1.5416667461395264,
      "reward_std": 0.7332792282104492,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 759
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06333333333333334,
      "grad_norm": 0.30064281821250916,
      "kl": 1.306907296180725,
      "learning_rate": 8.271734841028553e-07,
      "loss": 0.0523,
      "reward": 1.2083333730697632,
      "reward_std": 0.7753646969795227,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.7083333730697632,
      "step": 760
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06341666666666666,
      "grad_norm": 0.3926166594028473,
      "kl": 1.2214906215667725,
      "learning_rate": 8.206985266925249e-07,
      "loss": 0.0489,
      "reward": 1.75,
      "reward_std": 0.4629100561141968,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 1.0,
      "step": 761
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0635,
      "grad_norm": 0.23394834995269775,
      "kl": 1.3625099658966064,
      "learning_rate": 8.142440310406923e-07,
      "loss": 0.0545,
      "reward": 1.75,
      "reward_std": 0.4629100561141968,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 1.0,
      "step": 762
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06358333333333334,
      "grad_norm": 1.0904709100723267,
      "kl": 1.4420005083084106,
      "learning_rate": 8.078100757933486e-07,
      "loss": 0.0577,
      "reward": 1.5833333730697632,
      "reward_std": 0.5841830372810364,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 763
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06366666666666666,
      "grad_norm": 0.4322141110897064,
      "kl": 1.1168162822723389,
      "learning_rate": 8.013967393462094e-07,
      "loss": 0.0447,
      "reward": 1.375,
      "reward_std": 0.7440237998962402,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.75,
      "step": 764
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06375,
      "grad_norm": 0.26758918166160583,
      "kl": 1.202095627784729,
      "learning_rate": 7.950040998437541e-07,
      "loss": 0.0481,
      "reward": 1.6666667461395264,
      "reward_std": 0.7126966118812561,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 765
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06383333333333334,
      "grad_norm": 0.30354562401771545,
      "kl": 1.4736483097076416,
      "learning_rate": 7.886322351782782e-07,
      "loss": 0.0589,
      "reward": 1.75,
      "reward_std": 0.4629100561141968,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 1.0,
      "step": 766
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06391666666666666,
      "grad_norm": 0.26811686158180237,
      "kl": 1.1674681901931763,
      "learning_rate": 7.822812229889429e-07,
      "loss": 0.0467,
      "reward": 1.375,
      "reward_std": 0.9161254167556763,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.625,
      "step": 767
    },
    {
      "completion_length": 250.0,
      "epoch": 0.064,
      "grad_norm": 0.3494676351547241,
      "kl": 0.9113569259643555,
      "learning_rate": 7.759511406608255e-07,
      "loss": 0.0365,
      "reward": 1.25,
      "reward_std": 0.7071067690849304,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.875,
      "step": 768
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06408333333333334,
      "grad_norm": 1.503426194190979,
      "kl": 1.3052912950515747,
      "learning_rate": 7.696420653239834e-07,
      "loss": 0.0522,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 1.0,
      "step": 769
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06416666666666666,
      "grad_norm": 0.27594801783561707,
      "kl": 0.7944636940956116,
      "learning_rate": 7.633540738525066e-07,
      "loss": 0.0318,
      "reward": 1.3333333730697632,
      "reward_std": 0.7766431570053101,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.7083333730697632,
      "step": 770
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06425,
      "grad_norm": 0.48417186737060547,
      "kl": 1.5408587455749512,
      "learning_rate": 7.57087242863589e-07,
      "loss": 0.0616,
      "reward": 1.4166666269302368,
      "reward_std": 0.6606874465942383,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 771
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06433333333333334,
      "grad_norm": 0.21317587792873383,
      "kl": 0.9737959504127502,
      "learning_rate": 7.508416487165862e-07,
      "loss": 0.039,
      "reward": 1.75,
      "reward_std": 0.4629100561141968,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 1.0,
      "step": 772
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06441666666666666,
      "grad_norm": 0.22758537530899048,
      "kl": 1.2084604501724243,
      "learning_rate": 7.44617367512094e-07,
      "loss": 0.0483,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 1.0,
      "step": 773
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0645,
      "grad_norm": 0.42783284187316895,
      "kl": 1.0768017768859863,
      "learning_rate": 7.384144750910133e-07,
      "loss": 0.0431,
      "reward": 1.2083333730697632,
      "reward_std": 0.7332792282104492,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.8333333134651184,
      "step": 774
    },
    {
      "completion_length": 225.0,
      "epoch": 0.06458333333333334,
      "grad_norm": 0.22378872334957123,
      "kl": 1.7128205299377441,
      "learning_rate": 7.322330470336314e-07,
      "loss": 0.0685,
      "reward": 1.5,
      "reward_std": 0.7559289336204529,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.875,
      "step": 775
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06466666666666666,
      "grad_norm": 0.6742827296257019,
      "kl": 1.4242603778839111,
      "learning_rate": 7.260731586586983e-07,
      "loss": 0.057,
      "reward": 1.375,
      "reward_std": 0.7440237998962402,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.875,
      "step": 776
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06475,
      "grad_norm": 0.3610439896583557,
      "kl": 1.3908641338348389,
      "learning_rate": 7.199348850225091e-07,
      "loss": 0.0556,
      "reward": 1.5,
      "reward_std": 0.7126966714859009,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.625,
      "step": 777
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06483333333333334,
      "grad_norm": 0.30944564938545227,
      "kl": 1.004869818687439,
      "learning_rate": 7.138183009179922e-07,
      "loss": 0.0402,
      "reward": 1.4583333730697632,
      "reward_std": 0.9074209332466125,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.7083333730697632,
      "step": 778
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06491666666666666,
      "grad_norm": 0.36364126205444336,
      "kl": 0.7205187082290649,
      "learning_rate": 7.077234808737932e-07,
      "loss": 0.0288,
      "reward": 1.375,
      "reward_std": 0.6283640265464783,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.75,
      "step": 779
    },
    {
      "completion_length": 250.0,
      "epoch": 0.065,
      "grad_norm": 3.758852958679199,
      "kl": 1.4535225629806519,
      "learning_rate": 7.016504991533727e-07,
      "loss": 0.0581,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 1.0,
      "rewards/format_reward_func": 0.875,
      "step": 780
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06508333333333334,
      "grad_norm": 0.2152343988418579,
      "kl": 1.338955283164978,
      "learning_rate": 6.955994297540947e-07,
      "loss": 0.0536,
      "reward": 1.8333333730697632,
      "reward_std": 0.47140446305274963,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 781
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06516666666666666,
      "grad_norm": 0.4497411549091339,
      "kl": 1.6065069437026978,
      "learning_rate": 6.895703464063319e-07,
      "loss": 0.0643,
      "reward": 1.5,
      "reward_std": 0.7559289336204529,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.875,
      "step": 782
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06525,
      "grad_norm": 0.350917249917984,
      "kl": 1.1863226890563965,
      "learning_rate": 6.835633225725604e-07,
      "loss": 0.0475,
      "reward": 1.375,
      "reward_std": 0.9161254167556763,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.75,
      "step": 783
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06533333333333333,
      "grad_norm": 0.2987426817417145,
      "kl": 1.2886359691619873,
      "learning_rate": 6.775784314464717e-07,
      "loss": 0.0515,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 1.0,
      "step": 784
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06541666666666666,
      "grad_norm": 0.27569258213043213,
      "kl": 1.205812931060791,
      "learning_rate": 6.716157459520739e-07,
      "loss": 0.0482,
      "reward": 1.6666666269302368,
      "reward_std": 0.6424160599708557,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 785
    },
    {
      "completion_length": 224.0,
      "epoch": 0.0655,
      "grad_norm": 0.4730622470378876,
      "kl": 1.1610169410705566,
      "learning_rate": 6.656753387428089e-07,
      "loss": 0.0464,
      "reward": 1.6666666269302368,
      "reward_std": 0.6424160599708557,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 786
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06558333333333333,
      "grad_norm": 0.36808550357818604,
      "kl": 0.9821891784667969,
      "learning_rate": 6.597572822006643e-07,
      "loss": 0.0393,
      "reward": 1.7916667461395264,
      "reward_std": 0.39591163396835327,
      "rewards/correctness_reward_func": 1.0,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 787
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06566666666666666,
      "grad_norm": 1.0250049829483032,
      "kl": 1.1594293117523193,
      "learning_rate": 6.538616484352902e-07,
      "loss": 0.0464,
      "reward": 1.375,
      "reward_std": 0.9161254167556763,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.75,
      "step": 788
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06575,
      "grad_norm": 0.32371285557746887,
      "kl": 1.193271517753601,
      "learning_rate": 6.479885092831251e-07,
      "loss": 0.0477,
      "reward": 1.5,
      "reward_std": 0.9258201122283936,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.75,
      "step": 789
    },
    {
      "completion_length": 240.0,
      "epoch": 0.06583333333333333,
      "grad_norm": 0.3552028238773346,
      "kl": 1.2126344442367554,
      "learning_rate": 6.421379363065142e-07,
      "loss": 0.0485,
      "reward": 1.75,
      "reward_std": 0.4629100561141968,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.875,
      "step": 790
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06591666666666667,
      "grad_norm": 0.2879108190536499,
      "kl": 1.4960048198699951,
      "learning_rate": 6.363100007928447e-07,
      "loss": 0.0598,
      "reward": 1.7916666269302368,
      "reward_std": 0.5892555713653564,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 791
    },
    {
      "completion_length": 250.0,
      "epoch": 0.066,
      "grad_norm": 0.30861926078796387,
      "kl": 0.9252521395683289,
      "learning_rate": 6.305047737536707e-07,
      "loss": 0.037,
      "reward": 1.4583333730697632,
      "reward_std": 0.5892556309700012,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 792
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06608333333333333,
      "grad_norm": 0.3545387089252472,
      "kl": 1.508813738822937,
      "learning_rate": 6.247223259238511e-07,
      "loss": 0.0604,
      "reward": 0.875,
      "reward_std": 0.39591166377067566,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.75,
      "step": 793
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06616666666666667,
      "grad_norm": 0.2610399127006531,
      "kl": 0.8176184296607971,
      "learning_rate": 6.189627277606894e-07,
      "loss": 0.0327,
      "reward": 1.5833333730697632,
      "reward_std": 0.7292091846466064,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 794
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06625,
      "grad_norm": 0.2623574137687683,
      "kl": 1.1873376369476318,
      "learning_rate": 6.1322604944307e-07,
      "loss": 0.0475,
      "reward": 1.9583333730697632,
      "reward_std": 0.11785109341144562,
      "rewards/correctness_reward_func": 1.0,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 795
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06633333333333333,
      "grad_norm": 0.2947082817554474,
      "kl": 1.858878254890442,
      "learning_rate": 6.075123608706093e-07,
      "loss": 0.0744,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.875,
      "step": 796
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06641666666666667,
      "grad_norm": 0.3278063237667084,
      "kl": 1.1497657299041748,
      "learning_rate": 6.01821731662798e-07,
      "loss": 0.046,
      "reward": 1.0,
      "reward_std": 0.7559289336204529,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.75,
      "step": 797
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0665,
      "grad_norm": 0.24040259420871735,
      "kl": 1.2203922271728516,
      "learning_rate": 5.961542311581586e-07,
      "loss": 0.0488,
      "reward": 1.5416667461395264,
      "reward_std": 0.501980185508728,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 798
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06658333333333333,
      "grad_norm": 0.342872679233551,
      "kl": 1.2977404594421387,
      "learning_rate": 5.905099284133953e-07,
      "loss": 0.0519,
      "reward": 1.5416666269302368,
      "reward_std": 0.6651768684387207,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 799
    },
    {
      "completion_length": 233.0,
      "epoch": 0.06666666666666667,
      "grad_norm": 0.22665053606033325,
      "kl": 1.3235529661178589,
      "learning_rate": 5.848888922025553e-07,
      "loss": 0.0529,
      "reward": 1.625,
      "reward_std": 0.5175491571426392,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 1.0,
      "step": 800
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06675,
      "grad_norm": 0.248734250664711,
      "kl": 0.8164328932762146,
      "learning_rate": 5.792911910161922e-07,
      "loss": 0.0327,
      "reward": 1.4166667461395264,
      "reward_std": 0.6606874465942383,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 801
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06683333333333333,
      "grad_norm": 0.26447823643684387,
      "kl": 1.291729211807251,
      "learning_rate": 5.737168930605272e-07,
      "loss": 0.0517,
      "reward": 1.375,
      "reward_std": 0.5175491571426392,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.875,
      "step": 802
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06691666666666667,
      "grad_norm": 0.2176593393087387,
      "kl": 0.8029844164848328,
      "learning_rate": 5.681660662566225e-07,
      "loss": 0.0321,
      "reward": 1.0416667461395264,
      "reward_std": 0.6770031452178955,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 803
    },
    {
      "completion_length": 250.0,
      "epoch": 0.067,
      "grad_norm": 0.2643926739692688,
      "kl": 0.7234349846839905,
      "learning_rate": 5.626387782395512e-07,
      "loss": 0.0289,
      "reward": 1.625,
      "reward_std": 0.5175491571426392,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 1.0,
      "step": 804
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06708333333333333,
      "grad_norm": 0.2635612189769745,
      "kl": 1.7153481245040894,
      "learning_rate": 5.571350963575728e-07,
      "loss": 0.0686,
      "reward": 1.625,
      "reward_std": 0.5473601818084717,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.8750000596046448,
      "step": 805
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06716666666666667,
      "grad_norm": 0.28257104754447937,
      "kl": 1.6129707098007202,
      "learning_rate": 5.516550876713142e-07,
      "loss": 0.0645,
      "reward": 1.4166666269302368,
      "reward_std": 0.6606874465942383,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 806
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06725,
      "grad_norm": 0.3367782533168793,
      "kl": 1.151456356048584,
      "learning_rate": 5.461988189529529e-07,
      "loss": 0.0461,
      "reward": 1.5,
      "reward_std": 0.7559289336204529,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.875,
      "step": 807
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06733333333333333,
      "grad_norm": 0.4734201431274414,
      "kl": 1.5179961919784546,
      "learning_rate": 5.407663566854008e-07,
      "loss": 0.0607,
      "reward": 1.625,
      "reward_std": 0.5175491571426392,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 1.0,
      "step": 808
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06741666666666667,
      "grad_norm": 0.32155460119247437,
      "kl": 1.1060431003570557,
      "learning_rate": 5.353577670614951e-07,
      "loss": 0.0442,
      "reward": 1.375,
      "reward_std": 0.9161254167556763,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.75,
      "step": 809
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0675,
      "grad_norm": 0.3959408104419708,
      "kl": 1.4056496620178223,
      "learning_rate": 5.299731159831953e-07,
      "loss": 0.0562,
      "reward": 1.5833333730697632,
      "reward_std": 0.49601584672927856,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 810
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06758333333333333,
      "grad_norm": 2.5059800148010254,
      "kl": 2.0833823680877686,
      "learning_rate": 5.24612469060774e-07,
      "loss": 0.0833,
      "reward": 1.5,
      "reward_std": 0.7559289336204529,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.875,
      "step": 811
    },
    {
      "completion_length": 230.0,
      "epoch": 0.06766666666666667,
      "grad_norm": 0.48341092467308044,
      "kl": 1.4132311344146729,
      "learning_rate": 5.192758916120236e-07,
      "loss": 0.0565,
      "reward": 1.7916666269302368,
      "reward_std": 0.589255690574646,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 812
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06775,
      "grad_norm": 0.32052579522132874,
      "kl": 0.961887776851654,
      "learning_rate": 5.139634486614544e-07,
      "loss": 0.0385,
      "reward": 1.375,
      "reward_std": 0.5175491571426392,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 1.0,
      "step": 813
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06783333333333333,
      "grad_norm": 0.3565872013568878,
      "kl": 1.3793160915374756,
      "learning_rate": 5.086752049395094e-07,
      "loss": 0.0552,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.875,
      "step": 814
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06791666666666667,
      "grad_norm": 0.5205422043800354,
      "kl": 1.2932004928588867,
      "learning_rate": 5.034112248817685e-07,
      "loss": 0.0517,
      "reward": 0.875,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.875,
      "step": 815
    },
    {
      "completion_length": 250.0,
      "epoch": 0.068,
      "grad_norm": 0.3367973864078522,
      "kl": 1.2375197410583496,
      "learning_rate": 4.981715726281666e-07,
      "loss": 0.0495,
      "reward": 1.125,
      "reward_std": 0.8345229625701904,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.75,
      "step": 816
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06808333333333333,
      "grad_norm": 0.298949658870697,
      "kl": 1.3202153444290161,
      "learning_rate": 4.929563120222142e-07,
      "loss": 0.0528,
      "reward": 1.5,
      "reward_std": 0.7559289336204529,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.875,
      "step": 817
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06816666666666667,
      "grad_norm": 0.27566391229629517,
      "kl": 1.1884781122207642,
      "learning_rate": 4.87765506610215e-07,
      "loss": 0.0475,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.875,
      "step": 818
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06825,
      "grad_norm": 0.3612639009952545,
      "kl": 0.9719309210777283,
      "learning_rate": 4.825992196404958e-07,
      "loss": 0.0389,
      "reward": 1.125,
      "reward_std": 0.9910312294960022,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.625,
      "step": 819
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06833333333333333,
      "grad_norm": 0.19263684749603271,
      "kl": 0.9239329695701599,
      "learning_rate": 4.774575140626317e-07,
      "loss": 0.037,
      "reward": 1.5,
      "reward_std": 0.7559289336204529,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.75,
      "step": 820
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06841666666666667,
      "grad_norm": 0.5026285648345947,
      "kl": 0.8872776627540588,
      "learning_rate": 4.7234045252668393e-07,
      "loss": 0.0355,
      "reward": 1.5416667461395264,
      "reward_std": 0.46929532289505005,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 821
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0685,
      "grad_norm": 0.3337138891220093,
      "kl": 1.1307857036590576,
      "learning_rate": 4.672480973824312e-07,
      "loss": 0.0452,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.875,
      "step": 822
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06858333333333333,
      "grad_norm": 0.23775134980678558,
      "kl": 1.0065653324127197,
      "learning_rate": 4.6218051067861423e-07,
      "loss": 0.0403,
      "reward": 1.7083333730697632,
      "reward_std": 0.5473601818084717,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 823
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06866666666666667,
      "grad_norm": 0.2261497527360916,
      "kl": 0.4448733925819397,
      "learning_rate": 4.5713775416217884e-07,
      "loss": 0.0178,
      "reward": 1.4166667461395264,
      "reward_std": 0.771516740322113,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.7916667461395264,
      "step": 824
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06875,
      "grad_norm": 0.4021577537059784,
      "kl": 1.8268983364105225,
      "learning_rate": 4.5211988927752026e-07,
      "loss": 0.0731,
      "reward": 1.125,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 1.0,
      "step": 825
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06883333333333333,
      "grad_norm": 0.745639979839325,
      "kl": 1.327449083328247,
      "learning_rate": 4.4712697716573994e-07,
      "loss": 0.0531,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 1.0,
      "step": 826
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06891666666666667,
      "grad_norm": 0.25842320919036865,
      "kl": 1.019197940826416,
      "learning_rate": 4.421590786638952e-07,
      "loss": 0.0408,
      "reward": 1.75,
      "reward_std": 0.4629100561141968,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 1.0,
      "step": 827
    },
    {
      "completion_length": 250.0,
      "epoch": 0.069,
      "grad_norm": 0.6545089483261108,
      "kl": 1.8898916244506836,
      "learning_rate": 4.372162543042624e-07,
      "loss": 0.0756,
      "reward": 1.625,
      "reward_std": 0.5175491571426392,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 1.0,
      "step": 828
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06908333333333333,
      "grad_norm": 0.2776699364185333,
      "kl": 1.2687866687774658,
      "learning_rate": 4.3229856431359516e-07,
      "loss": 0.0508,
      "reward": 1.625,
      "reward_std": 0.7440237998962402,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.875,
      "step": 829
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06916666666666667,
      "grad_norm": 1.2333475351333618,
      "kl": 0.7890111207962036,
      "learning_rate": 4.27406068612396e-07,
      "loss": 0.0316,
      "reward": 1.9583333730697632,
      "reward_std": 0.11785109341144562,
      "rewards/correctness_reward_func": 1.0,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 830
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06925,
      "grad_norm": 47.50356674194336,
      "kl": 13.761457443237305,
      "learning_rate": 4.225388268141797e-07,
      "loss": 0.5505,
      "reward": 1.2083333730697632,
      "reward_std": 0.43415671586990356,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 831
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06933333333333333,
      "grad_norm": 0.26879197359085083,
      "kl": 0.6461024284362793,
      "learning_rate": 4.1769689822475147e-07,
      "loss": 0.0258,
      "reward": 1.2916666269302368,
      "reward_std": 0.9829902648925781,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.6666666865348816,
      "step": 832
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06941666666666667,
      "grad_norm": 0.27685660123825073,
      "kl": 1.392545461654663,
      "learning_rate": 4.12880341841484e-07,
      "loss": 0.0557,
      "reward": 1.5,
      "reward_std": 0.7559289336204529,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.875,
      "step": 833
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0695,
      "grad_norm": 0.3339894115924835,
      "kl": 0.9655144214630127,
      "learning_rate": 4.0808921635259595e-07,
      "loss": 0.0386,
      "reward": 1.2083333730697632,
      "reward_std": 0.8533315062522888,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.7083333730697632,
      "step": 834
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06958333333333333,
      "grad_norm": 0.2692475914955139,
      "kl": 2.0277373790740967,
      "learning_rate": 4.033235801364402e-07,
      "loss": 0.0811,
      "reward": 1.25,
      "reward_std": 0.4629100561141968,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 1.0,
      "step": 835
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06966666666666667,
      "grad_norm": 0.27213945984840393,
      "kl": 0.46007007360458374,
      "learning_rate": 3.9858349126078945e-07,
      "loss": 0.0184,
      "reward": 1.4166667461395264,
      "reward_std": 0.7292091846466064,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 836
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06975,
      "grad_norm": 0.2522222101688385,
      "kl": 1.3139028549194336,
      "learning_rate": 3.938690074821314e-07,
      "loss": 0.0526,
      "reward": 1.625,
      "reward_std": 0.7440237998962402,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.875,
      "step": 837
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06983333333333333,
      "grad_norm": 0.2399037927389145,
      "kl": 0.7940414547920227,
      "learning_rate": 3.891801862449629e-07,
      "loss": 0.0318,
      "reward": 1.125,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 1.0,
      "step": 838
    },
    {
      "completion_length": 250.0,
      "epoch": 0.06991666666666667,
      "grad_norm": 0.22458046674728394,
      "kl": 1.2483919858932495,
      "learning_rate": 3.8451708468109026e-07,
      "loss": 0.0499,
      "reward": 1.4583333730697632,
      "reward_std": 0.46929532289505005,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 839
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07,
      "grad_norm": 0.211387500166893,
      "kl": 0.9435220956802368,
      "learning_rate": 3.798797596089351e-07,
      "loss": 0.0377,
      "reward": 1.3333333730697632,
      "reward_std": 0.5634361505508423,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 840
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07008333333333333,
      "grad_norm": 0.2669267952442169,
      "kl": 1.431569218635559,
      "learning_rate": 3.7526826753284065e-07,
      "loss": 0.0573,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 1.0,
      "step": 841
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07016666666666667,
      "grad_norm": 0.2529590129852295,
      "kl": 1.039304256439209,
      "learning_rate": 3.7068266464238085e-07,
      "loss": 0.0416,
      "reward": 1.25,
      "reward_std": 0.4629100561141968,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 1.0,
      "step": 842
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07025,
      "grad_norm": 0.24863839149475098,
      "kl": 0.9364717602729797,
      "learning_rate": 3.661230068116811e-07,
      "loss": 0.0375,
      "reward": 1.1666666269302368,
      "reward_std": 0.7766431570053101,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.7916666269302368,
      "step": 843
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07033333333333333,
      "grad_norm": 0.22837644815444946,
      "kl": 0.9734100103378296,
      "learning_rate": 3.615893495987335e-07,
      "loss": 0.0389,
      "reward": 1.375,
      "reward_std": 0.7440237998962402,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.875,
      "step": 844
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07041666666666667,
      "grad_norm": 0.2933385372161865,
      "kl": 0.6663645505905151,
      "learning_rate": 3.5708174824471947e-07,
      "loss": 0.0267,
      "reward": 1.5,
      "reward_std": 0.6424160599708557,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.875,
      "step": 845
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0705,
      "grad_norm": 0.29375800490379333,
      "kl": 1.2523351907730103,
      "learning_rate": 3.5260025767333894e-07,
      "loss": 0.0501,
      "reward": 1.5,
      "reward_std": 0.7126966714859009,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.75,
      "step": 846
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07058333333333333,
      "grad_norm": 0.2230493724346161,
      "kl": 1.5347055196762085,
      "learning_rate": 3.481449324901412e-07,
      "loss": 0.0614,
      "reward": 1.75,
      "reward_std": 0.4629100561141968,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 1.0,
      "step": 847
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07066666666666667,
      "grad_norm": 0.2553749680519104,
      "kl": 1.2786747217178345,
      "learning_rate": 3.4371582698185636e-07,
      "loss": 0.0511,
      "reward": 1.4583333730697632,
      "reward_std": 0.5892556309700012,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 848
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07075,
      "grad_norm": 1.1723978519439697,
      "kl": 1.5742748975753784,
      "learning_rate": 3.393129951157384e-07,
      "loss": 0.063,
      "reward": 1.4583333730697632,
      "reward_std": 0.5019802451133728,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 849
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07083333333333333,
      "grad_norm": 1.294960618019104,
      "kl": 1.270159363746643,
      "learning_rate": 3.3493649053890325e-07,
      "loss": 0.0508,
      "reward": 1.5833333730697632,
      "reward_std": 0.7918232679367065,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 850
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07091666666666667,
      "grad_norm": 0.32427558302879333,
      "kl": 1.2746331691741943,
      "learning_rate": 3.3058636657767927e-07,
      "loss": 0.051,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.875,
      "step": 851
    },
    {
      "completion_length": 250.0,
      "epoch": 0.071,
      "grad_norm": 0.28006064891815186,
      "kl": 1.1999834775924683,
      "learning_rate": 3.262626762369525e-07,
      "loss": 0.048,
      "reward": 1.3333333730697632,
      "reward_std": 0.6666666269302368,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 852
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07108333333333333,
      "grad_norm": 0.3267779052257538,
      "kl": 1.2184315919876099,
      "learning_rate": 3.219654721995266e-07,
      "loss": 0.0487,
      "reward": 1.2916667461395264,
      "reward_std": 0.8807914853096008,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.5416666865348816,
      "step": 853
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07116666666666667,
      "grad_norm": 0.2615717947483063,
      "kl": 0.463012158870697,
      "learning_rate": 3.176948068254762e-07,
      "loss": 0.0185,
      "reward": 1.3333333730697632,
      "reward_std": 0.9428090453147888,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.7083333134651184,
      "step": 854
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07125,
      "grad_norm": 0.20684708654880524,
      "kl": 1.38583242893219,
      "learning_rate": 3.134507321515107e-07,
      "loss": 0.0554,
      "reward": 1.2916666269302368,
      "reward_std": 0.6283639073371887,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 855
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07133333333333333,
      "grad_norm": 0.2460877001285553,
      "kl": 0.6953861117362976,
      "learning_rate": 3.092332998903416e-07,
      "loss": 0.0278,
      "reward": 1.2916666269302368,
      "reward_std": 0.7223747968673706,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 856
    },
    {
      "completion_length": 242.0,
      "epoch": 0.07141666666666667,
      "grad_norm": 0.030763499438762665,
      "kl": 1.842020869255066,
      "learning_rate": 3.050425614300487e-07,
      "loss": 0.0737,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 1.0,
      "rewards/format_reward_func": 1.0,
      "step": 857
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0715,
      "grad_norm": 0.3020068407058716,
      "kl": 1.5266697406768799,
      "learning_rate": 3.0087856783345916e-07,
      "loss": 0.0611,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.875,
      "step": 858
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07158333333333333,
      "grad_norm": 0.2564064860343933,
      "kl": 1.2908424139022827,
      "learning_rate": 2.967413698375196e-07,
      "loss": 0.0516,
      "reward": 1.4166666269302368,
      "reward_std": 0.6606874465942383,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 859
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07166666666666667,
      "grad_norm": 1.984915852546692,
      "kl": 1.585814118385315,
      "learning_rate": 2.9263101785268253e-07,
      "loss": 0.0634,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 1.0,
      "rewards/format_reward_func": 0.875,
      "step": 860
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07175,
      "grad_norm": 0.22617851197719574,
      "kl": 0.9019542336463928,
      "learning_rate": 2.8854756196229017e-07,
      "loss": 0.0361,
      "reward": 1.2916666269302368,
      "reward_std": 0.6283639669418335,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 861
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07183333333333333,
      "grad_norm": 0.24866744875907898,
      "kl": 0.7339966893196106,
      "learning_rate": 2.844910519219632e-07,
      "loss": 0.0294,
      "reward": 1.2083333730697632,
      "reward_std": 0.8533315062522888,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.7083333730697632,
      "step": 862
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07191666666666667,
      "grad_norm": 0.2894342839717865,
      "kl": 0.7534470558166504,
      "learning_rate": 2.8046153715899695e-07,
      "loss": 0.0301,
      "reward": 1.0833333730697632,
      "reward_std": 0.29546844959259033,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 863
    },
    {
      "completion_length": 250.0,
      "epoch": 0.072,
      "grad_norm": 0.24600763618946075,
      "kl": 1.024735450744629,
      "learning_rate": 2.764590667717562e-07,
      "loss": 0.041,
      "reward": 1.625,
      "reward_std": 0.7440237998962402,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.875,
      "step": 864
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07208333333333333,
      "grad_norm": 0.3743076026439667,
      "kl": 1.0410536527633667,
      "learning_rate": 2.7248368952908055e-07,
      "loss": 0.0416,
      "reward": 1.375,
      "reward_std": 0.7000566720962524,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.875,
      "step": 865
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07216666666666667,
      "grad_norm": 0.2570086121559143,
      "kl": 1.0770304203033447,
      "learning_rate": 2.6853545386968607e-07,
      "loss": 0.0431,
      "reward": 1.4166666269302368,
      "reward_std": 0.6606874465942383,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 866
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07225,
      "grad_norm": 0.31037428975105286,
      "kl": 0.8965320587158203,
      "learning_rate": 2.6461440790157974e-07,
      "loss": 0.0359,
      "reward": 1.4166667461395264,
      "reward_std": 0.8498366475105286,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 867
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07233333333333333,
      "grad_norm": 0.2683153450489044,
      "kl": 0.8436253666877747,
      "learning_rate": 2.6072059940146775e-07,
      "loss": 0.0337,
      "reward": 1.375,
      "reward_std": 0.7440237998962402,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.875,
      "step": 868
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07241666666666667,
      "grad_norm": 0.2785882353782654,
      "kl": 0.9701066017150879,
      "learning_rate": 2.568540758141791e-07,
      "loss": 0.0388,
      "reward": 1.375,
      "reward_std": 0.7440237998962402,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.875,
      "step": 869
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0725,
      "grad_norm": 0.4102500379085541,
      "kl": 1.3558361530303955,
      "learning_rate": 2.53014884252083e-07,
      "loss": 0.0542,
      "reward": 1.75,
      "reward_std": 0.4629100561141968,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 1.0,
      "step": 870
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07258333333333333,
      "grad_norm": 0.23862656950950623,
      "kl": 0.8607050776481628,
      "learning_rate": 2.492030714945162e-07,
      "loss": 0.0344,
      "reward": 0.9166666865348816,
      "reward_std": 0.2357022613286972,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 871
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07266666666666667,
      "grad_norm": 0.31678903102874756,
      "kl": 0.5520573258399963,
      "learning_rate": 2.454186839872158e-07,
      "loss": 0.0221,
      "reward": 0.9166666865348816,
      "reward_std": 0.6606875061988831,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.6666666865348816,
      "step": 872
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07275,
      "grad_norm": 0.297191321849823,
      "kl": 0.6400251984596252,
      "learning_rate": 2.4166176784174795e-07,
      "loss": 0.0256,
      "reward": 1.5416667461395264,
      "reward_std": 0.46929532289505005,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.9166667461395264,
      "step": 873
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07283333333333333,
      "grad_norm": 0.46804097294807434,
      "kl": 1.2724863290786743,
      "learning_rate": 2.3793236883495164e-07,
      "loss": 0.0509,
      "reward": 1.3333333730697632,
      "reward_std": 0.8164966106414795,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.7083333730697632,
      "step": 874
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07291666666666667,
      "grad_norm": 0.2768522799015045,
      "kl": 1.2393690347671509,
      "learning_rate": 2.3423053240837518e-07,
      "loss": 0.0496,
      "reward": 1.4583333730697632,
      "reward_std": 0.5892556309700012,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 875
    },
    {
      "completion_length": 250.0,
      "epoch": 0.073,
      "grad_norm": 0.4209572672843933,
      "kl": 0.9548825025558472,
      "learning_rate": 2.3055630366772857e-07,
      "loss": 0.0382,
      "reward": 1.4166667461395264,
      "reward_std": 0.9041350483894348,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.6666666865348816,
      "step": 876
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07308333333333333,
      "grad_norm": 0.29563507437705994,
      "kl": 0.9755483269691467,
      "learning_rate": 2.269097273823287e-07,
      "loss": 0.039,
      "reward": 1.0833333730697632,
      "reward_std": 0.38832154870033264,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 877
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07316666666666667,
      "grad_norm": 0.28373217582702637,
      "kl": 1.0492498874664307,
      "learning_rate": 2.2329084798455747e-07,
      "loss": 0.042,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 1.0,
      "step": 878
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07325,
      "grad_norm": 0.7796637415885925,
      "kl": 1.0222169160842896,
      "learning_rate": 2.1969970956931762e-07,
      "loss": 0.0409,
      "reward": 1.3333333730697632,
      "reward_std": 0.7766431570053101,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 879
    },
    {
      "completion_length": 208.0,
      "epoch": 0.07333333333333333,
      "grad_norm": 0.17579619586467743,
      "kl": 1.2056773900985718,
      "learning_rate": 2.1613635589349756e-07,
      "loss": 0.0482,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 1.0,
      "step": 880
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07341666666666667,
      "grad_norm": 0.3150039315223694,
      "kl": 1.0645179748535156,
      "learning_rate": 2.1260083037543817e-07,
      "loss": 0.0426,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 1.0,
      "rewards/format_reward_func": 0.875,
      "step": 881
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0735,
      "grad_norm": 0.029675384983420372,
      "kl": 1.4976853132247925,
      "learning_rate": 2.0909317609440093e-07,
      "loss": 0.0599,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 1.0,
      "rewards/format_reward_func": 1.0,
      "step": 882
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07358333333333333,
      "grad_norm": 0.7188115119934082,
      "kl": 1.3928179740905762,
      "learning_rate": 2.0561343579004716e-07,
      "loss": 0.0557,
      "reward": 1.5833333730697632,
      "reward_std": 0.49601584672927856,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 883
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07366666666666667,
      "grad_norm": 0.27707529067993164,
      "kl": 1.0864824056625366,
      "learning_rate": 2.0216165186191406e-07,
      "loss": 0.0435,
      "reward": 1.75,
      "reward_std": 0.4629100561141968,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.875,
      "step": 884
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07375,
      "grad_norm": 0.27343204617500305,
      "kl": 1.5687239170074463,
      "learning_rate": 1.9873786636889908e-07,
      "loss": 0.0627,
      "reward": 1.125,
      "reward_std": 0.6408699750900269,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.875,
      "step": 885
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07383333333333333,
      "grad_norm": 0.3359210789203644,
      "kl": 0.9341368079185486,
      "learning_rate": 1.95342121028749e-07,
      "loss": 0.0374,
      "reward": 1.625,
      "reward_std": 0.7440237998962402,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.875,
      "step": 886
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07391666666666667,
      "grad_norm": 0.32620811462402344,
      "kl": 1.4301745891571045,
      "learning_rate": 1.9197445721754777e-07,
      "loss": 0.0572,
      "reward": 1.25,
      "reward_std": 0.7071067690849304,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.875,
      "step": 887
    },
    {
      "completion_length": 250.0,
      "epoch": 0.074,
      "grad_norm": 0.24947281181812286,
      "kl": 0.3620012700557709,
      "learning_rate": 1.8863491596921745e-07,
      "loss": 0.0145,
      "reward": 1.4583333730697632,
      "reward_std": 0.7332792282104492,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.5833333730697632,
      "step": 888
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07408333333333333,
      "grad_norm": 0.33198386430740356,
      "kl": 1.7999809980392456,
      "learning_rate": 1.8532353797501318e-07,
      "loss": 0.072,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.875,
      "step": 889
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07416666666666667,
      "grad_norm": 1.02660071849823,
      "kl": 1.4582207202911377,
      "learning_rate": 1.8204036358303173e-07,
      "loss": 0.0583,
      "reward": 0.8333333730697632,
      "reward_std": 0.835710883140564,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.5833333730697632,
      "step": 890
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07425,
      "grad_norm": 1.7326771020889282,
      "kl": 1.4054831266403198,
      "learning_rate": 1.787854327977162e-07,
      "loss": 0.0562,
      "reward": 1.0,
      "reward_std": 0.7559289336204529,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.75,
      "step": 891
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07433333333333333,
      "grad_norm": 0.3918047249317169,
      "kl": 1.9732359647750854,
      "learning_rate": 1.7555878527937164e-07,
      "loss": 0.0789,
      "reward": 1.7916667461395264,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.9166667461395264,
      "step": 892
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07441666666666667,
      "grad_norm": 0.0223043542355299,
      "kl": 1.2435429096221924,
      "learning_rate": 1.7236046034367959e-07,
      "loss": 0.0497,
      "reward": 1.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 1.0,
      "step": 893
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0745,
      "grad_norm": 0.21901412308216095,
      "kl": 0.5204886794090271,
      "learning_rate": 1.6919049696121957e-07,
      "loss": 0.0208,
      "reward": 1.6666667461395264,
      "reward_std": 0.5345224738121033,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.9166667461395264,
      "step": 894
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07458333333333333,
      "grad_norm": 0.291716068983078,
      "kl": 0.719805896282196,
      "learning_rate": 1.6604893375699594e-07,
      "loss": 0.0288,
      "reward": 1.75,
      "reward_std": 0.4629100561141968,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 1.0,
      "step": 895
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07466666666666667,
      "grad_norm": 0.3257061541080475,
      "kl": 1.1170681715011597,
      "learning_rate": 1.629358090099639e-07,
      "loss": 0.0447,
      "reward": 1.5,
      "reward_std": 0.7559289336204529,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.875,
      "step": 896
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07475,
      "grad_norm": 0.2914160192012787,
      "kl": 0.9540635943412781,
      "learning_rate": 1.5985116065256683e-07,
      "loss": 0.0382,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.875,
      "step": 897
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07483333333333334,
      "grad_norm": 0.20414304733276367,
      "kl": 1.3840910196304321,
      "learning_rate": 1.567950262702714e-07,
      "loss": 0.0554,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 1.0,
      "step": 898
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07491666666666667,
      "grad_norm": 0.28207582235336304,
      "kl": 0.8242446780204773,
      "learning_rate": 1.5376744310111019e-07,
      "loss": 0.033,
      "reward": 1.0,
      "reward_std": 0.5345224738121033,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.875,
      "step": 899
    },
    {
      "completion_length": 250.0,
      "epoch": 0.075,
      "grad_norm": 0.2571064829826355,
      "kl": 0.4384586811065674,
      "learning_rate": 1.507684480352292e-07,
      "loss": 0.0175,
      "reward": 1.0,
      "reward_std": 0.9258201122283936,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.625,
      "step": 900
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07508333333333334,
      "grad_norm": 0.2975660562515259,
      "kl": 0.8587030172348022,
      "learning_rate": 1.4779807761443638e-07,
      "loss": 0.0343,
      "reward": 1.375,
      "reward_std": 0.7440237998962402,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.875,
      "step": 901
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07516666666666667,
      "grad_norm": 1.0238752365112305,
      "kl": 1.3424298763275146,
      "learning_rate": 1.4485636803175828e-07,
      "loss": 0.0537,
      "reward": 1.375,
      "reward_std": 0.9161254167556763,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.75,
      "step": 902
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07525,
      "grad_norm": 0.27268996834754944,
      "kl": 1.614228367805481,
      "learning_rate": 1.419433551309976e-07,
      "loss": 0.0646,
      "reward": 1.8333333730697632,
      "reward_std": 0.47140446305274963,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 903
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07533333333333334,
      "grad_norm": 0.2508178651332855,
      "kl": 0.6932893991470337,
      "learning_rate": 1.3905907440629752e-07,
      "loss": 0.0277,
      "reward": 1.625,
      "reward_std": 0.5175491571426392,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.875,
      "step": 904
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07541666666666667,
      "grad_norm": 0.5284227132797241,
      "kl": 1.5996646881103516,
      "learning_rate": 1.362035610017079e-07,
      "loss": 0.064,
      "reward": 1.25,
      "reward_std": 0.6606875061988831,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.875,
      "step": 905
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0755,
      "grad_norm": 0.290884792804718,
      "kl": 0.6067217588424683,
      "learning_rate": 1.3337684971075932e-07,
      "loss": 0.0243,
      "reward": 1.375,
      "reward_std": 0.7440237998962402,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.875,
      "step": 906
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07558333333333334,
      "grad_norm": 0.3576277792453766,
      "kl": 0.8207005858421326,
      "learning_rate": 1.305789749760361e-07,
      "loss": 0.0328,
      "reward": 1.1666667461395264,
      "reward_std": 0.7766431570053101,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 907
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07566666666666666,
      "grad_norm": 0.36113837361335754,
      "kl": 1.7893757820129395,
      "learning_rate": 1.278099708887587e-07,
      "loss": 0.0716,
      "reward": 1.75,
      "reward_std": 0.4629100561141968,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 1.0,
      "step": 908
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07575,
      "grad_norm": 0.3109591603279114,
      "kl": 1.1817129850387573,
      "learning_rate": 1.2506987118836912e-07,
      "loss": 0.0473,
      "reward": 1.2083333730697632,
      "reward_std": 0.9074209332466125,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.7083333730697632,
      "step": 909
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07583333333333334,
      "grad_norm": 756.9115600585938,
      "kl": 135.45335388183594,
      "learning_rate": 1.223587092621162e-07,
      "loss": 5.4181,
      "reward": 1.2083333730697632,
      "reward_std": 0.9074208736419678,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.7083333730697632,
      "step": 910
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07591666666666666,
      "grad_norm": 0.8474955558776855,
      "kl": 1.7323054075241089,
      "learning_rate": 1.1967651814465353e-07,
      "loss": 0.0693,
      "reward": 1.3333333730697632,
      "reward_std": 0.5634361505508423,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 911
    },
    {
      "completion_length": 250.0,
      "epoch": 0.076,
      "grad_norm": 0.31559211015701294,
      "kl": 1.9210703372955322,
      "learning_rate": 1.1702333051763271e-07,
      "loss": 0.0768,
      "reward": 1.75,
      "reward_std": 0.5841830968856812,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.875,
      "step": 912
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07608333333333334,
      "grad_norm": 0.30108439922332764,
      "kl": 1.042654037475586,
      "learning_rate": 1.1439917870930795e-07,
      "loss": 0.0417,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 1.0,
      "step": 913
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07616666666666666,
      "grad_norm": 0.29974260926246643,
      "kl": 1.0419851541519165,
      "learning_rate": 1.1180409469414094e-07,
      "loss": 0.0417,
      "reward": 1.3333333730697632,
      "reward_std": 0.7766431570053101,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 914
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07625,
      "grad_norm": 0.29832908511161804,
      "kl": 1.5337603092193604,
      "learning_rate": 1.0923811009241142e-07,
      "loss": 0.0614,
      "reward": 1.4166667461395264,
      "reward_std": 0.49601584672927856,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 915
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07633333333333334,
      "grad_norm": 0.4468366205692291,
      "kl": 1.797929048538208,
      "learning_rate": 1.067012561698319e-07,
      "loss": 0.0719,
      "reward": 1.625,
      "reward_std": 0.5175491571426392,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.875,
      "step": 916
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07641666666666666,
      "grad_norm": 0.3717971444129944,
      "kl": 1.0258549451828003,
      "learning_rate": 1.041935638371669e-07,
      "loss": 0.041,
      "reward": 0.875,
      "reward_std": 0.6408699750900269,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.75,
      "step": 917
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0765,
      "grad_norm": 0.30195504426956177,
      "kl": 1.0266151428222656,
      "learning_rate": 1.0171506364985622e-07,
      "loss": 0.0411,
      "reward": 1.0,
      "reward_std": 0.7126966714859009,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.75,
      "step": 918
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07658333333333334,
      "grad_norm": 0.29930129647254944,
      "kl": 1.6755496263504028,
      "learning_rate": 9.926578580764234e-08,
      "loss": 0.067,
      "reward": 1.625,
      "reward_std": 0.6283639073371887,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.875,
      "step": 919
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07666666666666666,
      "grad_norm": 0.01916714385151863,
      "kl": 1.014693021774292,
      "learning_rate": 9.684576015420277e-08,
      "loss": 0.0406,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 1.0,
      "rewards/format_reward_func": 1.0,
      "step": 920
    },
    {
      "completion_length": 164.0,
      "epoch": 0.07675,
      "grad_norm": 0.26526811718940735,
      "kl": 0.8480601906776428,
      "learning_rate": 9.445501617678654e-08,
      "loss": 0.0339,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 1.0,
      "step": 921
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07683333333333334,
      "grad_norm": 0.41043245792388916,
      "kl": 0.912456214427948,
      "learning_rate": 9.209358300585474e-08,
      "loss": 0.0365,
      "reward": 1.4166667461395264,
      "reward_std": 0.7715167999267578,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.6666666865348816,
      "step": 922
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07691666666666666,
      "grad_norm": 0.19834581017494202,
      "kl": 1.5605332851409912,
      "learning_rate": 8.9761489414725e-08,
      "loss": 0.0624,
      "reward": 1.4166666269302368,
      "reward_std": 0.6606874465942383,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 923
    },
    {
      "completion_length": 250.0,
      "epoch": 0.077,
      "grad_norm": 0.27626922726631165,
      "kl": 1.0883418321609497,
      "learning_rate": 8.745876381922147e-08,
      "loss": 0.0435,
      "reward": 1.5,
      "reward_std": 0.7126966714859009,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.7500000596046448,
      "step": 924
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07708333333333334,
      "grad_norm": 0.41667699813842773,
      "kl": 1.4361419677734375,
      "learning_rate": 8.518543427732951e-08,
      "loss": 0.0574,
      "reward": 1.625,
      "reward_std": 0.5175491571426392,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 1.0,
      "step": 925
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07716666666666666,
      "grad_norm": 0.8117958903312683,
      "kl": 1.2131803035736084,
      "learning_rate": 8.294152848885156e-08,
      "loss": 0.0485,
      "reward": 1.75,
      "reward_std": 0.4629100561141968,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.875,
      "step": 926
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07725,
      "grad_norm": 0.023965315893292427,
      "kl": 0.9878235459327698,
      "learning_rate": 8.072707379507217e-08,
      "loss": 0.0395,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 1.0,
      "rewards/format_reward_func": 1.0,
      "step": 927
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07733333333333334,
      "grad_norm": 0.06923804432153702,
      "kl": 1.3249129056930542,
      "learning_rate": 7.854209717842231e-08,
      "loss": 0.053,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 1.0,
      "rewards/format_reward_func": 1.0,
      "step": 928
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07741666666666666,
      "grad_norm": 0.21536372601985931,
      "kl": 1.1641136407852173,
      "learning_rate": 7.638662526215284e-08,
      "loss": 0.0466,
      "reward": 1.0416667461395264,
      "reward_std": 0.4520675241947174,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 929
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0775,
      "grad_norm": 0.3016450107097626,
      "kl": 1.2998625040054321,
      "learning_rate": 7.426068431000883e-08,
      "loss": 0.052,
      "reward": 0.9166667461395264,
      "reward_std": 0.4629100561141968,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.6666666865348816,
      "step": 930
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07758333333333334,
      "grad_norm": 0.33901509642601013,
      "kl": 1.7370189428329468,
      "learning_rate": 7.216430022591009e-08,
      "loss": 0.0695,
      "reward": 1.9166667461395264,
      "reward_std": 0.23570223152637482,
      "rewards/correctness_reward_func": 1.0,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 931
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07766666666666666,
      "grad_norm": 0.33317700028419495,
      "kl": 1.2731457948684692,
      "learning_rate": 7.009749855363457e-08,
      "loss": 0.0509,
      "reward": 1.375,
      "reward_std": 0.9161254167556763,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.75,
      "step": 932
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07775,
      "grad_norm": 0.2928623855113983,
      "kl": 0.9490488171577454,
      "learning_rate": 6.806030447650879e-08,
      "loss": 0.038,
      "reward": 1.625,
      "reward_std": 0.602573812007904,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.75,
      "step": 933
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07783333333333334,
      "grad_norm": 0.25610074400901794,
      "kl": 1.1091444492340088,
      "learning_rate": 6.605274281709929e-08,
      "loss": 0.0444,
      "reward": 1.6666667461395264,
      "reward_std": 0.5345224738121033,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 934
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07791666666666666,
      "grad_norm": 0.2953529953956604,
      "kl": 1.096183180809021,
      "learning_rate": 6.407483803691216e-08,
      "loss": 0.0438,
      "reward": 1.0833333730697632,
      "reward_std": 0.6606874465942383,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 935
    },
    {
      "completion_length": 250.0,
      "epoch": 0.078,
      "grad_norm": 0.19404926896095276,
      "kl": 0.9853270053863525,
      "learning_rate": 6.212661423609184e-08,
      "loss": 0.0394,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 1.0,
      "step": 936
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07808333333333334,
      "grad_norm": 0.26259902119636536,
      "kl": 1.091464877128601,
      "learning_rate": 6.020809515313141e-08,
      "loss": 0.0437,
      "reward": 1.3333333730697632,
      "reward_std": 0.7126966714859009,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.7083333730697632,
      "step": 937
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07816666666666666,
      "grad_norm": 0.3351936638355255,
      "kl": 0.9903098344802856,
      "learning_rate": 5.83193041645802e-08,
      "loss": 0.0396,
      "reward": 1.0833333730697632,
      "reward_std": 0.38832157850265503,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 938
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07825,
      "grad_norm": 0.2362779676914215,
      "kl": 1.3006746768951416,
      "learning_rate": 5.6460264284760316e-08,
      "loss": 0.052,
      "reward": 1.75,
      "reward_std": 0.4629100561141968,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 1.0,
      "step": 939
    },
    {
      "completion_length": 203.0,
      "epoch": 0.07833333333333334,
      "grad_norm": 0.2249480038881302,
      "kl": 1.123484492301941,
      "learning_rate": 5.463099816548578e-08,
      "loss": 0.0449,
      "reward": 1.375,
      "reward_std": 0.5175491571426392,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 1.0,
      "step": 940
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07841666666666666,
      "grad_norm": 0.3026413321495056,
      "kl": 1.1142150163650513,
      "learning_rate": 5.283152809578751e-08,
      "loss": 0.0446,
      "reward": 1.625,
      "reward_std": 0.5175491571426392,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.75,
      "step": 941
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0785,
      "grad_norm": 0.2342066615819931,
      "kl": 0.8287395238876343,
      "learning_rate": 5.106187600163987e-08,
      "loss": 0.0331,
      "reward": 1.625,
      "reward_std": 0.7440237998962402,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.75,
      "step": 942
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07858333333333334,
      "grad_norm": 0.06259375810623169,
      "kl": 1.5354900360107422,
      "learning_rate": 4.932206344569562e-08,
      "loss": 0.0614,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 1.0,
      "rewards/format_reward_func": 1.0,
      "step": 943
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07866666666666666,
      "grad_norm": 0.24400244653224945,
      "kl": 1.0855783224105835,
      "learning_rate": 4.761211162702117e-08,
      "loss": 0.0434,
      "reward": 1.5,
      "reward_std": 0.7559289336204529,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.875,
      "step": 944
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07875,
      "grad_norm": 0.23698869347572327,
      "kl": 1.1598446369171143,
      "learning_rate": 4.593204138084006e-08,
      "loss": 0.0464,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 1.0,
      "step": 945
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07883333333333334,
      "grad_norm": 0.02643449977040291,
      "kl": 1.023648738861084,
      "learning_rate": 4.428187317827848e-08,
      "loss": 0.0409,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 1.0,
      "rewards/format_reward_func": 1.0,
      "step": 946
    },
    {
      "completion_length": 229.0,
      "epoch": 0.07891666666666666,
      "grad_norm": 0.3633557856082916,
      "kl": 1.4960824251174927,
      "learning_rate": 4.26616271261146e-08,
      "loss": 0.0598,
      "reward": 1.3333333730697632,
      "reward_std": 0.7346308827400208,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 947
    },
    {
      "completion_length": 250.0,
      "epoch": 0.079,
      "grad_norm": 0.049699533730745316,
      "kl": 1.670642614364624,
      "learning_rate": 4.1071322966535487e-08,
      "loss": 0.0668,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 1.0,
      "rewards/format_reward_func": 1.0,
      "step": 948
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07908333333333334,
      "grad_norm": 0.7215015292167664,
      "kl": 1.0973060131072998,
      "learning_rate": 3.95109800768953e-08,
      "loss": 0.0439,
      "reward": 1.5416667461395264,
      "reward_std": 0.7332792282104492,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 949
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07916666666666666,
      "grad_norm": 0.5393422842025757,
      "kl": 1.3605879545211792,
      "learning_rate": 3.798061746947995e-08,
      "loss": 0.0544,
      "reward": 1.375,
      "reward_std": 0.5175491571426392,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.875,
      "step": 950
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07925,
      "grad_norm": 0.5147884488105774,
      "kl": 0.8889792561531067,
      "learning_rate": 3.648025379127479e-08,
      "loss": 0.0356,
      "reward": 1.5416667461395264,
      "reward_std": 0.501980185508728,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.6666666865348816,
      "step": 951
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07933333333333334,
      "grad_norm": 0.23729416728019714,
      "kl": 0.8729484677314758,
      "learning_rate": 3.5009907323737826e-08,
      "loss": 0.0349,
      "reward": 1.625,
      "reward_std": 0.5175491571426392,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 1.0,
      "step": 952
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07941666666666666,
      "grad_norm": 0.35395750403404236,
      "kl": 1.2410624027252197,
      "learning_rate": 3.3569595982576584e-08,
      "loss": 0.0496,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 1.0,
      "step": 953
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0795,
      "grad_norm": 0.29070597887039185,
      "kl": 1.1642013788223267,
      "learning_rate": 3.2159337317530234e-08,
      "loss": 0.0466,
      "reward": 1.25,
      "reward_std": 0.7071067690849304,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.875,
      "step": 954
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07958333333333334,
      "grad_norm": 0.24920472502708435,
      "kl": 1.0929770469665527,
      "learning_rate": 3.077914851215585e-08,
      "loss": 0.0437,
      "reward": 1.0416667461395264,
      "reward_std": 0.4520675837993622,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 955
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07966666666666666,
      "grad_norm": 0.4327549338340759,
      "kl": 1.9852244853973389,
      "learning_rate": 2.9429046383618042e-08,
      "loss": 0.0794,
      "reward": 0.8333333730697632,
      "reward_std": 0.6424160599708557,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.7083333134651184,
      "step": 956
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07975,
      "grad_norm": 0.27277326583862305,
      "kl": 1.475409984588623,
      "learning_rate": 2.810904738248549e-08,
      "loss": 0.059,
      "reward": 1.9583333730697632,
      "reward_std": 0.11785109341144562,
      "rewards/correctness_reward_func": 1.0,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 957
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07983333333333334,
      "grad_norm": 0.27285173535346985,
      "kl": 1.1164697408676147,
      "learning_rate": 2.681916759252917e-08,
      "loss": 0.0447,
      "reward": 1.9166667461395264,
      "reward_std": 0.23570223152637482,
      "rewards/correctness_reward_func": 1.0,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 958
    },
    {
      "completion_length": 250.0,
      "epoch": 0.07991666666666666,
      "grad_norm": 3.066486358642578,
      "kl": 1.745069980621338,
      "learning_rate": 2.555942273052753e-08,
      "loss": 0.0698,
      "reward": 1.5,
      "reward_std": 0.7559289336204529,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.75,
      "step": 959
    },
    {
      "completion_length": 250.0,
      "epoch": 0.08,
      "grad_norm": 0.3669474124908447,
      "kl": 1.6787079572677612,
      "learning_rate": 2.4329828146074096e-08,
      "loss": 0.0671,
      "reward": 1.3333333730697632,
      "reward_std": 0.7766431570053101,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 960
    },
    {
      "completion_length": 250.0,
      "epoch": 0.08008333333333334,
      "grad_norm": 0.24523121118545532,
      "kl": 1.1602610349655151,
      "learning_rate": 2.313039882139101e-08,
      "loss": 0.0464,
      "reward": 1.5,
      "reward_std": 0.5345224738121033,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 1.0,
      "step": 961
    },
    {
      "completion_length": 250.0,
      "epoch": 0.08016666666666666,
      "grad_norm": 0.2820650041103363,
      "kl": 1.0688502788543701,
      "learning_rate": 2.1961149371145795e-08,
      "loss": 0.0428,
      "reward": 1.5,
      "reward_std": 0.9258201122283936,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.75,
      "step": 962
    },
    {
      "completion_length": 250.0,
      "epoch": 0.08025,
      "grad_norm": 0.34602880477905273,
      "kl": 1.1315749883651733,
      "learning_rate": 2.082209404227403e-08,
      "loss": 0.0453,
      "reward": 1.1666667461395264,
      "reward_std": 0.835710883140564,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.6666666865348816,
      "step": 963
    },
    {
      "completion_length": 250.0,
      "epoch": 0.08033333333333334,
      "grad_norm": 0.25703561305999756,
      "kl": 1.0106827020645142,
      "learning_rate": 1.9713246713805588e-08,
      "loss": 0.0404,
      "reward": 1.4166667461395264,
      "reward_std": 0.7292091846466064,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 964
    },
    {
      "completion_length": 250.0,
      "epoch": 0.08041666666666666,
      "grad_norm": 0.28899118304252625,
      "kl": 0.9755896925926208,
      "learning_rate": 1.8634620896695044e-08,
      "loss": 0.039,
      "reward": 1.25,
      "reward_std": 0.8864052295684814,
      "rewards/correctness_reward_func": 0.5,
      "rewards/format_reward_func": 0.75,
      "step": 965
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0805,
      "grad_norm": 0.29632315039634705,
      "kl": 1.442091464996338,
      "learning_rate": 1.7586229733657646e-08,
      "loss": 0.0577,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 1.0,
      "step": 966
    },
    {
      "completion_length": 250.0,
      "epoch": 0.08058333333333334,
      "grad_norm": 0.21348384022712708,
      "kl": 1.338564395904541,
      "learning_rate": 1.6568085999008886e-08,
      "loss": 0.0535,
      "reward": 1.8333333730697632,
      "reward_std": 0.35634827613830566,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 967
    },
    {
      "completion_length": 250.0,
      "epoch": 0.08066666666666666,
      "grad_norm": 0.24184101819992065,
      "kl": 0.8153730034828186,
      "learning_rate": 1.5580202098509078e-08,
      "loss": 0.0326,
      "reward": 1.125,
      "reward_std": 0.6408699750900269,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.75,
      "step": 968
    },
    {
      "completion_length": 250.0,
      "epoch": 0.08075,
      "grad_norm": 0.526576578617096,
      "kl": 1.7040972709655762,
      "learning_rate": 1.4622590069211517e-08,
      "loss": 0.0682,
      "reward": 1.7083332538604736,
      "reward_std": 0.5756294131278992,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.8333333730697632,
      "step": 969
    },
    {
      "completion_length": 250.0,
      "epoch": 0.08083333333333333,
      "grad_norm": 0.2984718680381775,
      "kl": 1.5154507160186768,
      "learning_rate": 1.3695261579316776e-08,
      "loss": 0.0606,
      "reward": 1.875,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 1.0,
      "rewards/format_reward_func": 0.875,
      "step": 970
    },
    {
      "completion_length": 250.0,
      "epoch": 0.08091666666666666,
      "grad_norm": 1.2827290296554565,
      "kl": 1.4101325273513794,
      "learning_rate": 1.2798227928029483e-08,
      "loss": 0.0564,
      "reward": 1.7916667461395264,
      "reward_std": 0.39591163396835327,
      "rewards/correctness_reward_func": 1.0,
      "rewards/format_reward_func": 0.7916666269302368,
      "step": 971
    },
    {
      "completion_length": 250.0,
      "epoch": 0.081,
      "grad_norm": 0.23937450349330902,
      "kl": 1.6009562015533447,
      "learning_rate": 1.193150004542204e-08,
      "loss": 0.064,
      "reward": 1.5833333730697632,
      "reward_std": 0.49601587653160095,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 972
    },
    {
      "completion_length": 250.0,
      "epoch": 0.08108333333333333,
      "grad_norm": 0.5152274370193481,
      "kl": 0.8297097086906433,
      "learning_rate": 1.109508849230001e-08,
      "loss": 0.0332,
      "reward": 1.5,
      "reward_std": 0.9258201122283936,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.75,
      "step": 973
    },
    {
      "completion_length": 250.0,
      "epoch": 0.08116666666666666,
      "grad_norm": 0.28064191341400146,
      "kl": 1.0859336853027344,
      "learning_rate": 1.0289003460074165e-08,
      "loss": 0.0434,
      "reward": 1.625,
      "reward_std": 0.6283639669418335,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.875,
      "step": 974
    },
    {
      "completion_length": 250.0,
      "epoch": 0.08125,
      "grad_norm": 0.2897964417934418,
      "kl": 1.0955630540847778,
      "learning_rate": 9.513254770636138e-09,
      "loss": 0.0438,
      "reward": 0.875,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.875,
      "step": 975
    },
    {
      "completion_length": 250.0,
      "epoch": 0.08133333333333333,
      "grad_norm": 0.22548621892929077,
      "kl": 0.9993997812271118,
      "learning_rate": 8.767851876239075e-09,
      "loss": 0.04,
      "reward": 1.9583333730697632,
      "reward_std": 0.11785109341144562,
      "rewards/correctness_reward_func": 1.0,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 976
    },
    {
      "completion_length": 250.0,
      "epoch": 0.08141666666666666,
      "grad_norm": 0.326506108045578,
      "kl": 1.3311384916305542,
      "learning_rate": 8.052803859382174e-09,
      "loss": 0.0532,
      "reward": 1.375,
      "reward_std": 0.5175491571426392,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 1.0,
      "step": 977
    },
    {
      "completion_length": 250.0,
      "epoch": 0.0815,
      "grad_norm": 0.26752278208732605,
      "kl": 0.6817623972892761,
      "learning_rate": 7.368119432699383e-09,
      "loss": 0.0273,
      "reward": 1.0,
      "reward_std": 0.7559289336204529,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.75,
      "step": 978
    },
    {
      "completion_length": 250.0,
      "epoch": 0.08158333333333333,
      "grad_norm": 0.3232153058052063,
      "kl": 0.79771888256073,
      "learning_rate": 6.7138069388547614e-09,
      "loss": 0.0319,
      "reward": 1.5416667461395264,
      "reward_std": 0.5019802451133728,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 979
    },
    {
      "completion_length": 250.0,
      "epoch": 0.08166666666666667,
      "grad_norm": 0.35629838705062866,
      "kl": 1.6459451913833618,
      "learning_rate": 6.089874350439507e-09,
      "loss": 0.0658,
      "reward": 1.5416666269302368,
      "reward_std": 0.6651768684387207,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 980
    },
    {
      "completion_length": 250.0,
      "epoch": 0.08175,
      "grad_norm": 0.30297717452049255,
      "kl": 0.822544515132904,
      "learning_rate": 5.4963292698750896e-09,
      "loss": 0.0329,
      "reward": 1.5416667461395264,
      "reward_std": 0.7332792282104492,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 981
    },
    {
      "completion_length": 250.0,
      "epoch": 0.08183333333333333,
      "grad_norm": 0.3641495406627655,
      "kl": 1.5490293502807617,
      "learning_rate": 4.933178929321103e-09,
      "loss": 0.062,
      "reward": 1.6666666269302368,
      "reward_std": 0.6424160599708557,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 982
    },
    {
      "completion_length": 250.0,
      "epoch": 0.08191666666666667,
      "grad_norm": 0.19789476692676544,
      "kl": 1.1928259134292603,
      "learning_rate": 4.400430190586724e-09,
      "loss": 0.0477,
      "reward": 1.0833333730697632,
      "reward_std": 0.38832157850265503,
      "rewards/correctness_reward_func": 0.125,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 983
    },
    {
      "completion_length": 250.0,
      "epoch": 0.082,
      "grad_norm": 1.2451598644256592,
      "kl": 1.1428676843643188,
      "learning_rate": 3.8980895450474455e-09,
      "loss": 0.0457,
      "reward": 1.5833332538604736,
      "reward_std": 0.6362089514732361,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.7083333730697632,
      "step": 984
    },
    {
      "completion_length": 250.0,
      "epoch": 0.08208333333333333,
      "grad_norm": 0.6361198425292969,
      "kl": 0.45185351371765137,
      "learning_rate": 3.4261631135654174e-09,
      "loss": 0.0181,
      "reward": 0.75,
      "reward_std": 0.4629100561141968,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.75,
      "step": 985
    },
    {
      "completion_length": 250.0,
      "epoch": 0.08216666666666667,
      "grad_norm": 0.3087112307548523,
      "kl": 1.8694123029708862,
      "learning_rate": 2.984656646415063e-09,
      "loss": 0.0748,
      "reward": 1.9583333730697632,
      "reward_std": 0.11785109341144562,
      "rewards/correctness_reward_func": 1.0,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 986
    },
    {
      "completion_length": 250.0,
      "epoch": 0.08225,
      "grad_norm": 0.28350523114204407,
      "kl": 0.7043304443359375,
      "learning_rate": 2.573575523213412e-09,
      "loss": 0.0282,
      "reward": 0.7083333730697632,
      "reward_std": 0.4520675241947174,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.7083333730697632,
      "step": 987
    },
    {
      "completion_length": 250.0,
      "epoch": 0.08233333333333333,
      "grad_norm": 0.20463794469833374,
      "kl": 1.8880668878555298,
      "learning_rate": 2.192924752854042e-09,
      "loss": 0.0755,
      "reward": 1.6666667461395264,
      "reward_std": 0.4364357888698578,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.9166667461395264,
      "step": 988
    },
    {
      "completion_length": 250.0,
      "epoch": 0.08241666666666667,
      "grad_norm": 0.1875455379486084,
      "kl": 1.1098848581314087,
      "learning_rate": 1.842708973447127e-09,
      "loss": 0.0444,
      "reward": 1.7916667461395264,
      "reward_std": 0.3535533845424652,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 989
    },
    {
      "completion_length": 209.0,
      "epoch": 0.0825,
      "grad_norm": 0.30843275785446167,
      "kl": 1.1816316843032837,
      "learning_rate": 1.5229324522605949e-09,
      "loss": 0.0473,
      "reward": 2.0,
      "reward_std": 0.0,
      "rewards/correctness_reward_func": 1.0,
      "rewards/format_reward_func": 1.0,
      "step": 990
    },
    {
      "completion_length": 250.0,
      "epoch": 0.08258333333333333,
      "grad_norm": 0.2759556770324707,
      "kl": 0.9381877779960632,
      "learning_rate": 1.2335990856710001e-09,
      "loss": 0.0375,
      "reward": 0.7083333730697632,
      "reward_std": 0.4520675837993622,
      "rewards/correctness_reward_func": 0.0,
      "rewards/format_reward_func": 0.7083333730697632,
      "step": 991
    },
    {
      "completion_length": 250.0,
      "epoch": 0.08266666666666667,
      "grad_norm": 0.28256580233573914,
      "kl": 0.8221601843833923,
      "learning_rate": 9.747123991141193e-10,
      "loss": 0.0329,
      "reward": 1.9583333730697632,
      "reward_std": 0.11785109341144562,
      "rewards/correctness_reward_func": 1.0,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 992
    },
    {
      "completion_length": 250.0,
      "epoch": 0.08275,
      "grad_norm": 0.3341481685638428,
      "kl": 1.0547815561294556,
      "learning_rate": 7.462755470422078e-10,
      "loss": 0.0422,
      "reward": 1.625,
      "reward_std": 0.5175491571426392,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.875,
      "step": 993
    },
    {
      "completion_length": 250.0,
      "epoch": 0.08283333333333333,
      "grad_norm": 0.3639756441116333,
      "kl": 0.9993078708648682,
      "learning_rate": 5.48291312886251e-10,
      "loss": 0.04,
      "reward": 1.0,
      "reward_std": 0.6424161195755005,
      "rewards/correctness_reward_func": 0.25,
      "rewards/format_reward_func": 0.7500000596046448,
      "step": 994
    },
    {
      "completion_length": 250.0,
      "epoch": 0.08291666666666667,
      "grad_norm": 0.25637567043304443,
      "kl": 0.9738581776618958,
      "learning_rate": 3.8076210902182607e-10,
      "loss": 0.039,
      "reward": 1.25,
      "reward_std": 0.7071068286895752,
      "rewards/correctness_reward_func": 0.625,
      "rewards/format_reward_func": 0.625,
      "step": 995
    },
    {
      "completion_length": 158.0,
      "epoch": 0.083,
      "grad_norm": 0.3529271185398102,
      "kl": 0.9513704776763916,
      "learning_rate": 2.43689976739403e-10,
      "loss": 0.0381,
      "reward": 1.75,
      "reward_std": 0.4629100561141968,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 1.0,
      "step": 996
    },
    {
      "completion_length": 250.0,
      "epoch": 0.08308333333333333,
      "grad_norm": 0.34197887778282166,
      "kl": 1.2964738607406616,
      "learning_rate": 1.3707658621964216e-10,
      "loss": 0.0519,
      "reward": 1.75,
      "reward_std": 0.7071067690849304,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.875,
      "step": 997
    },
    {
      "completion_length": 250.0,
      "epoch": 0.08316666666666667,
      "grad_norm": 0.29255440831184387,
      "kl": 0.7699793577194214,
      "learning_rate": 6.092323651313293e-11,
      "loss": 0.0308,
      "reward": 1.8333333730697632,
      "reward_std": 0.47140446305274963,
      "rewards/correctness_reward_func": 0.875,
      "rewards/format_reward_func": 0.9583333730697632,
      "step": 998
    },
    {
      "completion_length": 250.0,
      "epoch": 0.08325,
      "grad_norm": 4.424619197845459,
      "kl": 1.8411613702774048,
      "learning_rate": 1.5230855524017708e-11,
      "loss": 0.0736,
      "reward": 1.25,
      "reward_std": 0.7071067690849304,
      "rewards/correctness_reward_func": 0.375,
      "rewards/format_reward_func": 0.875,
      "step": 999
    },
    {
      "completion_length": 250.0,
      "epoch": 0.08333333333333333,
      "grad_norm": 0.2679225206375122,
      "kl": 0.8978027701377869,
      "learning_rate": 0.0,
      "loss": 0.0359,
      "reward": 1.625,
      "reward_std": 0.7440237998962402,
      "rewards/correctness_reward_func": 0.75,
      "rewards/format_reward_func": 0.875,
      "step": 1000
    }
  ],
  "logging_steps": 1,
  "max_steps": 1000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 250,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}