{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.9994666666666666,
  "eval_steps": 100,
  "global_step": 937,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "clip_ratio": 0.0,
      "completion_length": 721.3750152587891,
      "epoch": 0.0010666666666666667,
      "grad_norm": 0.7148946902118419,
      "kl": 0.0,
      "learning_rate": 3.191489361702128e-08,
      "loss": 0.0,
      "reward": 0.7500000111758709,
      "reward_std": 0.3608439117670059,
      "rewards/accuracy_reward": 0.7500000111758709,
      "rewards/format_reward": 0.0,
      "step": 1
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 560.6666808128357,
      "epoch": 0.005333333333333333,
      "grad_norm": 1.4615535350113826,
      "kl": 9.819865226745605e-05,
      "learning_rate": 1.5957446808510638e-07,
      "loss": 0.0,
      "reward": 0.6041666744276881,
      "reward_std": 0.25259073823690414,
      "rewards/accuracy_reward": 0.6041666744276881,
      "rewards/format_reward": 0.0,
      "step": 5
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 588.8250148773193,
      "epoch": 0.010666666666666666,
      "grad_norm": 53.213496097955556,
      "kl": 0.00019417405128479003,
      "learning_rate": 3.1914893617021275e-07,
      "loss": 0.0,
      "reward": 0.6833333380520343,
      "reward_std": 0.18763883411884308,
      "rewards/accuracy_reward": 0.6833333380520343,
      "rewards/format_reward": 0.0,
      "step": 10
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 552.5083473205566,
      "epoch": 0.016,
      "grad_norm": 2.4855773258124825,
      "kl": 0.0002583146095275879,
      "learning_rate": 4.787234042553192e-07,
      "loss": 0.0,
      "reward": 0.6416666753590107,
      "reward_std": 0.28867512941360474,
      "rewards/accuracy_reward": 0.6416666753590107,
      "rewards/format_reward": 0.0,
      "step": 15
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 586.7083511352539,
      "epoch": 0.021333333333333333,
      "grad_norm": 25.07614059798895,
      "kl": 0.00021169781684875487,
      "learning_rate": 6.382978723404255e-07,
      "loss": 0.0,
      "reward": 0.6083333410322667,
      "reward_std": 0.2742413729429245,
      "rewards/accuracy_reward": 0.6083333410322667,
      "rewards/format_reward": 0.0,
      "step": 20
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 559.4833463668823,
      "epoch": 0.02666666666666667,
      "grad_norm": 1.6163354066965443,
      "kl": 0.0003616809844970703,
      "learning_rate": 7.978723404255319e-07,
      "loss": 0.0,
      "reward": 0.6416666738688945,
      "reward_std": 0.2742413729429245,
      "rewards/accuracy_reward": 0.6416666738688945,
      "rewards/format_reward": 0.0,
      "step": 25
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 595.7666809082032,
      "epoch": 0.032,
      "grad_norm": 6.599361807218988,
      "kl": 0.001885068416595459,
      "learning_rate": 9.574468085106384e-07,
      "loss": 0.0001,
      "reward": 0.5916666761040688,
      "reward_std": 0.33197639882564545,
      "rewards/accuracy_reward": 0.5916666761040688,
      "rewards/format_reward": 0.0,
      "step": 30
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 586.0833473205566,
      "epoch": 0.037333333333333336,
      "grad_norm": 0.9958435532731883,
      "kl": 0.003298938274383545,
      "learning_rate": 1.1170212765957447e-06,
      "loss": 0.0001,
      "reward": 0.6250000081956386,
      "reward_std": 0.303108885884285,
      "rewards/accuracy_reward": 0.6250000081956386,
      "rewards/format_reward": 0.0,
      "step": 35
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 666.2250175476074,
      "epoch": 0.042666666666666665,
      "grad_norm": 0.9670224736847026,
      "kl": 0.0009075284004211425,
      "learning_rate": 1.276595744680851e-06,
      "loss": 0.0,
      "reward": 0.6333333410322666,
      "reward_std": 0.2742413729429245,
      "rewards/accuracy_reward": 0.6333333410322666,
      "rewards/format_reward": 0.0,
      "step": 40
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 606.2083518981933,
      "epoch": 0.048,
      "grad_norm": 4.8736022254558735,
      "kl": 0.005312430858612061,
      "learning_rate": 1.4361702127659576e-06,
      "loss": 0.0002,
      "reward": 0.6416666753590107,
      "reward_std": 0.28867512941360474,
      "rewards/accuracy_reward": 0.6416666753590107,
      "rewards/format_reward": 0.0,
      "step": 45
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 658.9083461761475,
      "epoch": 0.05333333333333334,
      "grad_norm": 10.804243004291305,
      "kl": 0.002775442600250244,
      "learning_rate": 1.5957446808510639e-06,
      "loss": 0.0001,
      "reward": 0.7000000059604645,
      "reward_std": 0.20207259058952332,
      "rewards/accuracy_reward": 0.7000000059604645,
      "rewards/format_reward": 0.0,
      "step": 50
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 646.8000122070313,
      "epoch": 0.058666666666666666,
      "grad_norm": 0.26620562599712166,
      "kl": 0.003197479248046875,
      "learning_rate": 1.7553191489361702e-06,
      "loss": 0.0001,
      "reward": 0.6750000067055225,
      "reward_std": 0.21650634706020355,
      "rewards/accuracy_reward": 0.6750000067055225,
      "rewards/format_reward": 0.0,
      "step": 55
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 692.2500122070312,
      "epoch": 0.064,
      "grad_norm": 0.6575814481909016,
      "kl": 0.002325701713562012,
      "learning_rate": 1.9148936170212767e-06,
      "loss": 0.0001,
      "reward": 0.6583333395421505,
      "reward_std": 0.21650634706020355,
      "rewards/accuracy_reward": 0.6583333395421505,
      "rewards/format_reward": 0.0,
      "step": 60
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 580.9916805267334,
      "epoch": 0.06933333333333333,
      "grad_norm": 11.574621122437701,
      "kl": 0.0074417352676391605,
      "learning_rate": 2.074468085106383e-06,
      "loss": 0.0003,
      "reward": 0.6083333373069764,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.6083333373069764,
      "rewards/format_reward": 0.0,
      "step": 65
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 672.7583469390869,
      "epoch": 0.07466666666666667,
      "grad_norm": 0.6559939371701894,
      "kl": 0.0022436141967773437,
      "learning_rate": 2.2340425531914894e-06,
      "loss": 0.0001,
      "reward": 0.7083333387970925,
      "reward_std": 0.17320507764816284,
      "rewards/accuracy_reward": 0.7083333387970925,
      "rewards/format_reward": 0.0,
      "step": 70
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 618.2250152587891,
      "epoch": 0.08,
      "grad_norm": 0.911060689959152,
      "kl": 0.00368959903717041,
      "learning_rate": 2.3936170212765957e-06,
      "loss": 0.0001,
      "reward": 0.7166666708886623,
      "reward_std": 0.1587713211774826,
      "rewards/accuracy_reward": 0.7166666708886623,
      "rewards/format_reward": 0.0,
      "step": 75
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 660.7583503723145,
      "epoch": 0.08533333333333333,
      "grad_norm": 0.7301371123450753,
      "kl": 0.003092670440673828,
      "learning_rate": 2.553191489361702e-06,
      "loss": 0.0001,
      "reward": 0.7416666708886623,
      "reward_std": 0.17320507764816284,
      "rewards/accuracy_reward": 0.7416666708886623,
      "rewards/format_reward": 0.0,
      "step": 80
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 598.4500175476074,
      "epoch": 0.09066666666666667,
      "grad_norm": 0.3060921026957072,
      "kl": 0.00237274169921875,
      "learning_rate": 2.7127659574468088e-06,
      "loss": 0.0001,
      "reward": 0.6500000044703483,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.6500000044703483,
      "rewards/format_reward": 0.0,
      "step": 85
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 538.7833473205567,
      "epoch": 0.096,
      "grad_norm": 0.31714494836666324,
      "kl": 0.0028713226318359377,
      "learning_rate": 2.872340425531915e-06,
      "loss": 0.0001,
      "reward": 0.7916666693985462,
      "reward_std": 0.08660253882408142,
      "rewards/accuracy_reward": 0.7916666693985462,
      "rewards/format_reward": 0.0,
      "step": 90
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 615.441683959961,
      "epoch": 0.10133333333333333,
      "grad_norm": 0.9408680917110538,
      "kl": 1.2848326683044433,
      "learning_rate": 2.9999895838948146e-06,
      "loss": 0.0515,
      "reward": 0.6666666738688946,
      "reward_std": 0.24537386000156403,
      "rewards/accuracy_reward": 0.6666666738688946,
      "rewards/format_reward": 0.0,
      "step": 95
    },
    {
      "epoch": 0.10666666666666667,
      "grad_norm": 0.5241475522990928,
      "learning_rate": 2.9996250354024346e-06,
      "loss": 0.0004,
      "step": 100
    },
    {
      "epoch": 0.10666666666666667,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 612.3530849609375,
      "eval_kl": 181.0886371582031,
      "eval_loss": 12.212464332580566,
      "eval_reward": 0.6065333513915538,
      "eval_reward_std": 0.24468103866577148,
      "eval_rewards/accuracy_reward": 0.6065333513915538,
      "eval_rewards/format_reward": 0.0,
      "eval_runtime": 6080.0652,
      "eval_samples_per_second": 0.822,
      "eval_steps_per_second": 0.034,
      "step": 100
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 613.6458488464356,
      "epoch": 0.112,
      "grad_norm": 0.3463297768491564,
      "kl": 0.006574392318725586,
      "learning_rate": 2.9987398263020837e-06,
      "loss": 0.0002,
      "reward": 0.7250000052154064,
      "reward_std": 0.18042195588350296,
      "rewards/accuracy_reward": 0.7250000052154064,
      "rewards/format_reward": 0.0,
      "step": 105
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 645.7916801452636,
      "epoch": 0.11733333333333333,
      "grad_norm": 0.8886259095075897,
      "kl": 0.0029788970947265624,
      "learning_rate": 2.997334263932927e-06,
      "loss": 0.0001,
      "reward": 0.7000000067055225,
      "reward_std": 0.21650634706020355,
      "rewards/accuracy_reward": 0.7000000067055225,
      "rewards/format_reward": 0.0,
      "step": 110
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 614.0666831970215,
      "epoch": 0.12266666666666666,
      "grad_norm": 1.1198898648840077,
      "kl": 0.006386947631835937,
      "learning_rate": 2.9954088362975936e-06,
      "loss": 0.0003,
      "reward": 0.7333333387970924,
      "reward_std": 0.18763883411884308,
      "rewards/accuracy_reward": 0.7333333387970924,
      "rewards/format_reward": 0.0,
      "step": 115
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 537.3333446502686,
      "epoch": 0.128,
      "grad_norm": 40.94205497488467,
      "kl": 0.012101554870605468,
      "learning_rate": 2.99296421189274e-06,
      "loss": 0.0005,
      "reward": 0.7750000044703483,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.7750000044703483,
      "rewards/format_reward": 0.0,
      "step": 120
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 614.6333480834961,
      "epoch": 0.13333333333333333,
      "grad_norm": 0.32034952885628715,
      "kl": 0.006664371490478516,
      "learning_rate": 2.9900012394769546e-06,
      "loss": 0.0003,
      "reward": 0.6833333410322666,
      "reward_std": 0.2742413729429245,
      "rewards/accuracy_reward": 0.6833333410322666,
      "rewards/format_reward": 0.0,
      "step": 125
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 584.5750144958496,
      "epoch": 0.13866666666666666,
      "grad_norm": 0.752973255526379,
      "kl": 0.005373382568359375,
      "learning_rate": 2.986520947776075e-06,
      "loss": 0.0002,
      "reward": 0.7666666723787785,
      "reward_std": 0.20207259058952332,
      "rewards/accuracy_reward": 0.7666666723787785,
      "rewards/format_reward": 0.0,
      "step": 130
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 548.7833450317382,
      "epoch": 0.144,
      "grad_norm": 0.2532104242029052,
      "kl": 0.004761695861816406,
      "learning_rate": 2.982524545126018e-06,
      "loss": 0.0002,
      "reward": 0.8333333380520344,
      "reward_std": 0.1587713211774826,
      "rewards/accuracy_reward": 0.8333333380520344,
      "rewards/format_reward": 0.0,
      "step": 135
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 549.5000114440918,
      "epoch": 0.14933333333333335,
      "grad_norm": 0.09291231140770723,
      "kl": 0.004460525512695312,
      "learning_rate": 2.9780134190532553e-06,
      "loss": 0.0002,
      "reward": 0.8583333365619182,
      "reward_std": 0.1154700517654419,
      "rewards/accuracy_reward": 0.8583333365619182,
      "rewards/format_reward": 0.0,
      "step": 140
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 608.5416820526123,
      "epoch": 0.15466666666666667,
      "grad_norm": 0.32170364852520245,
      "kl": 0.004180049896240235,
      "learning_rate": 2.972989135793071e-06,
      "loss": 0.0002,
      "reward": 0.6166666731238365,
      "reward_std": 0.2309401035308838,
      "rewards/accuracy_reward": 0.6166666731238365,
      "rewards/format_reward": 0.0,
      "step": 145
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 618.9750152587891,
      "epoch": 0.16,
      "grad_norm": 0.2025206773963469,
      "kl": 0.005657100677490234,
      "learning_rate": 2.967453439745775e-06,
      "loss": 0.0002,
      "reward": 0.7416666716337204,
      "reward_std": 0.1587713211774826,
      "rewards/accuracy_reward": 0.7416666716337204,
      "rewards/format_reward": 0.0,
      "step": 150
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 611.0750167846679,
      "epoch": 0.16533333333333333,
      "grad_norm": 0.184411613214241,
      "kl": 0.0198455810546875,
      "learning_rate": 2.961408252871058e-06,
      "loss": 0.0008,
      "reward": 0.7666666731238365,
      "reward_std": 0.21650634706020355,
      "rewards/accuracy_reward": 0.7666666731238365,
      "rewards/format_reward": 0.0,
      "step": 155
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 569.2500148773194,
      "epoch": 0.17066666666666666,
      "grad_norm": 0.19077032525046195,
      "kl": 0.005090141296386718,
      "learning_rate": 2.9548556740207e-06,
      "loss": 0.0002,
      "reward": 0.6750000052154064,
      "reward_std": 0.18763883411884308,
      "rewards/accuracy_reward": 0.6750000052154064,
      "rewards/format_reward": 0.0,
      "step": 160
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 589.1916816711425,
      "epoch": 0.176,
      "grad_norm": 0.4638160803395305,
      "kl": 0.005456733703613281,
      "learning_rate": 2.9477979782098592e-06,
      "loss": 0.0002,
      "reward": 0.7416666708886623,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.7416666708886623,
      "rewards/format_reward": 0.0,
      "step": 165
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 614.9333473205567,
      "epoch": 0.18133333333333335,
      "grad_norm": 0.45443884391008643,
      "kl": 0.005468559265136719,
      "learning_rate": 2.9402376158272022e-06,
      "loss": 0.0002,
      "reward": 0.7833333373069763,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.7833333373069763,
      "rewards/format_reward": 0.0,
      "step": 170
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 610.7750144958496,
      "epoch": 0.18666666666666668,
      "grad_norm": 0.40031783341085664,
      "kl": 0.004351997375488281,
      "learning_rate": 2.9321772117841463e-06,
      "loss": 0.0002,
      "reward": 0.7000000052154064,
      "reward_std": 0.18763883411884308,
      "rewards/accuracy_reward": 0.7000000052154064,
      "rewards/format_reward": 0.0,
      "step": 175
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 544.2250152587891,
      "epoch": 0.192,
      "grad_norm": 0.21967968438769525,
      "kl": 0.0079864501953125,
      "learning_rate": 2.923619564603501e-06,
      "loss": 0.0003,
      "reward": 0.8250000037252903,
      "reward_std": 0.12990380823612213,
      "rewards/accuracy_reward": 0.8250000037252903,
      "rewards/format_reward": 0.0,
      "step": 180
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 550.1250141143798,
      "epoch": 0.19733333333333333,
      "grad_norm": 0.44685209999243625,
      "kl": 0.007423973083496094,
      "learning_rate": 2.9145676454478435e-06,
      "loss": 0.0003,
      "reward": 0.7166666716337204,
      "reward_std": 0.17320507764816284,
      "rewards/accuracy_reward": 0.7166666716337204,
      "rewards/format_reward": 0.0,
      "step": 185
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 549.8583499908448,
      "epoch": 0.20266666666666666,
      "grad_norm": 0.7466901778117272,
      "kl": 0.00619049072265625,
      "learning_rate": 2.9050245970879456e-06,
      "loss": 0.0002,
      "reward": 0.8250000044703484,
      "reward_std": 0.1587713211774826,
      "rewards/accuracy_reward": 0.8250000044703484,
      "rewards/format_reward": 0.0,
      "step": 190
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 528.4500106811523,
      "epoch": 0.208,
      "grad_norm": 0.4099308077828794,
      "kl": 0.005546188354492188,
      "learning_rate": 2.8949937328116252e-06,
      "loss": 0.0002,
      "reward": 0.8500000037252903,
      "reward_std": 0.1154700517654419,
      "rewards/accuracy_reward": 0.8500000037252903,
      "rewards/format_reward": 0.0,
      "step": 195
    },
    {
      "epoch": 0.21333333333333335,
      "grad_norm": 0.32264634496767935,
      "learning_rate": 2.884478535273393e-06,
      "loss": 0.0003,
      "step": 200
    },
    {
      "epoch": 0.21333333333333335,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 585.7144854492187,
      "eval_kl": 0.01230205078125,
      "eval_loss": 0.014915091916918755,
      "eval_reward": 0.6674666836738586,
      "eval_reward_std": 0.17562994873523713,
      "eval_rewards/accuracy_reward": 0.6674666836738586,
      "eval_rewards/format_reward": 0.0,
      "eval_runtime": 6022.9643,
      "eval_samples_per_second": 0.83,
      "eval_steps_per_second": 0.035,
      "step": 200
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 544.2750169754029,
      "epoch": 0.21866666666666668,
      "grad_norm": 0.5023905552183052,
      "kl": 0.007254695892333985,
      "learning_rate": 2.8734826552852934e-06,
      "loss": 0.0003,
      "reward": 0.8041666708886623,
      "reward_std": 0.13712068647146225,
      "rewards/accuracy_reward": 0.8041666708886623,
      "rewards/format_reward": 0.0,
      "step": 205
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 561.0333488464355,
      "epoch": 0.224,
      "grad_norm": 0.5434607871254864,
      "kl": 0.01640605926513672,
      "learning_rate": 2.86200991054937e-06,
      "loss": 0.0007,
      "reward": 0.7750000044703483,
      "reward_std": 0.1587713211774826,
      "rewards/accuracy_reward": 0.7750000044703483,
      "rewards/format_reward": 0.0,
      "step": 210
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 555.3666790008544,
      "epoch": 0.22933333333333333,
      "grad_norm": 0.024550981610644177,
      "kl": 0.006365013122558594,
      "learning_rate": 2.850064284332176e-06,
      "loss": 0.0003,
      "reward": 0.8166666693985463,
      "reward_std": 0.08660253882408142,
      "rewards/accuracy_reward": 0.8166666693985463,
      "rewards/format_reward": 0.0,
      "step": 215
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 586.9333484649658,
      "epoch": 0.23466666666666666,
      "grad_norm": 0.41077115319026264,
      "kl": 0.02978935241699219,
      "learning_rate": 2.8376499240818166e-06,
      "loss": 0.0012,
      "reward": 0.6833333395421505,
      "reward_std": 0.20207259058952332,
      "rewards/accuracy_reward": 0.6833333395421505,
      "rewards/format_reward": 0.0,
      "step": 220
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 596.8916847229004,
      "epoch": 0.24,
      "grad_norm": 2.182794026264333,
      "kl": 0.006468582153320313,
      "learning_rate": 2.8247711399879734e-06,
      "loss": 0.0003,
      "reward": 0.7750000022351742,
      "reward_std": 0.08660253882408142,
      "rewards/accuracy_reward": 0.7750000022351742,
      "rewards/format_reward": 0.0,
      "step": 225
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 565.9666809082031,
      "epoch": 0.24533333333333332,
      "grad_norm": 0.27585581380583146,
      "kl": 0.00873394012451172,
      "learning_rate": 2.8114324034854378e-06,
      "loss": 0.0003,
      "reward": 0.8833333365619183,
      "reward_std": 0.10103629529476166,
      "rewards/accuracy_reward": 0.8833333365619183,
      "rewards/format_reward": 0.0,
      "step": 230
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 536.3666790008544,
      "epoch": 0.25066666666666665,
      "grad_norm": 0.23729950863573765,
      "kl": 0.0073108673095703125,
      "learning_rate": 2.7976383457016535e-06,
      "loss": 0.0003,
      "reward": 0.7666666686534882,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.7666666686534882,
      "rewards/format_reward": 0.0,
      "step": 235
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 637.5833518981933,
      "epoch": 0.256,
      "grad_norm": 0.17208585244977956,
      "kl": 0.007070159912109375,
      "learning_rate": 2.7833937558488187e-06,
      "loss": 0.0003,
      "reward": 0.7000000037252903,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.7000000037252903,
      "rewards/format_reward": 0.0,
      "step": 240
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 507.2166820526123,
      "epoch": 0.2613333333333333,
      "grad_norm": 0.3031116441751077,
      "kl": 0.007193946838378906,
      "learning_rate": 2.7687035795611003e-06,
      "loss": 0.0003,
      "reward": 0.8416666708886623,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.8416666708886623,
      "rewards/format_reward": 0.0,
      "step": 245
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 558.5666793823242,
      "epoch": 0.26666666666666666,
      "grad_norm": 13.547581195880626,
      "kl": 0.035246658325195315,
      "learning_rate": 2.7535729171775408e-06,
      "loss": 0.0014,
      "reward": 0.7333333380520344,
      "reward_std": 0.18763883411884308,
      "rewards/accuracy_reward": 0.7333333380520344,
      "rewards/format_reward": 0.0,
      "step": 250
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 581.6166820526123,
      "epoch": 0.272,
      "grad_norm": 0.5656864832529094,
      "kl": 0.007228469848632813,
      "learning_rate": 2.7380070219712514e-06,
      "loss": 0.0003,
      "reward": 0.8583333373069764,
      "reward_std": 0.12990380823612213,
      "rewards/accuracy_reward": 0.8583333373069764,
      "rewards/format_reward": 0.0,
      "step": 255
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 593.0583480834961,
      "epoch": 0.2773333333333333,
      "grad_norm": 0.6148965285931733,
      "kl": 0.00813121795654297,
      "learning_rate": 2.722011298325509e-06,
      "loss": 0.0003,
      "reward": 0.7750000044703483,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.7750000044703483,
      "rewards/format_reward": 0.0,
      "step": 260
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 559.4750144958496,
      "epoch": 0.2826666666666667,
      "grad_norm": 0.5111668603735469,
      "kl": 0.006645774841308594,
      "learning_rate": 2.705591299857385e-06,
      "loss": 0.0003,
      "reward": 0.7250000044703484,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.7250000044703484,
      "rewards/format_reward": 0.0,
      "step": 265
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 606.691682434082,
      "epoch": 0.288,
      "grad_norm": 0.42461394853936735,
      "kl": 0.00601654052734375,
      "learning_rate": 2.6887527274895657e-06,
      "loss": 0.0002,
      "reward": 0.7916666716337204,
      "reward_std": 0.1587713211774826,
      "rewards/accuracy_reward": 0.7916666716337204,
      "rewards/format_reward": 0.0,
      "step": 270
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 521.008349609375,
      "epoch": 0.29333333333333333,
      "grad_norm": 0.02587523894842855,
      "kl": 0.15564346313476562,
      "learning_rate": 2.6715014274710265e-06,
      "loss": 0.0062,
      "reward": 0.8583333373069764,
      "reward_std": 0.12990380823612213,
      "rewards/accuracy_reward": 0.8583333373069764,
      "rewards/format_reward": 0.0,
      "step": 275
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 614.7916824340821,
      "epoch": 0.2986666666666667,
      "grad_norm": 0.014189638152861336,
      "kl": 0.040869140625,
      "learning_rate": 2.65384338934725e-06,
      "loss": 0.0016,
      "reward": 0.7583333373069763,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.7583333373069763,
      "rewards/format_reward": 0.0,
      "step": 280
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 576.7083457946777,
      "epoch": 0.304,
      "grad_norm": 0.84554441688506,
      "kl": 0.0066776275634765625,
      "learning_rate": 2.6357847438806916e-06,
      "loss": 0.0003,
      "reward": 0.7916666701436043,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.7916666701436043,
      "rewards/format_reward": 0.0,
      "step": 285
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 618.333345413208,
      "epoch": 0.30933333333333335,
      "grad_norm": 0.3105742502280914,
      "kl": 0.008008956909179688,
      "learning_rate": 2.617331760922218e-06,
      "loss": 0.0003,
      "reward": 0.7250000029802323,
      "reward_std": 0.1154700517654419,
      "rewards/accuracy_reward": 0.7250000029802323,
      "rewards/format_reward": 0.0,
      "step": 290
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 641.9583492279053,
      "epoch": 0.31466666666666665,
      "grad_norm": 0.7728079687941386,
      "kl": 0.008575248718261718,
      "learning_rate": 2.598490847234253e-06,
      "loss": 0.0003,
      "reward": 0.6833333373069763,
      "reward_std": 0.12990380823612213,
      "rewards/accuracy_reward": 0.6833333373069763,
      "rewards/format_reward": 0.0,
      "step": 295
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.18440635331679817,
      "learning_rate": 2.5792685442663883e-06,
      "loss": 0.0002,
      "step": 300
    },
    {
      "epoch": 0.32,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 576.1156858398438,
      "eval_kl": 0.0124282958984375,
      "eval_loss": 0.015103225596249104,
      "eval_reward": 0.665000018286705,
      "eval_reward_std": 0.1802487503528595,
      "eval_rewards/accuracy_reward": 0.665000018286705,
      "eval_rewards/format_reward": 0.0,
      "eval_runtime": 5982.2541,
      "eval_samples_per_second": 0.836,
      "eval_steps_per_second": 0.035,
      "step": 300
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 556.7458492279053,
      "epoch": 0.3253333333333333,
      "grad_norm": 0.5403363319648429,
      "kl": 0.0075927734375,
      "learning_rate": 2.559671525884232e-06,
      "loss": 0.0004,
      "reward": 0.7541666712611914,
      "reward_std": 0.17320507764816284,
      "rewards/accuracy_reward": 0.7541666712611914,
      "rewards/format_reward": 0.0,
      "step": 305
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 574.9333492279053,
      "epoch": 0.33066666666666666,
      "grad_norm": 0.3724847648939602,
      "kl": 0.006891632080078125,
      "learning_rate": 2.539706596052286e-06,
      "loss": 0.0003,
      "reward": 0.7583333410322666,
      "reward_std": 0.25980761647224426,
      "rewards/accuracy_reward": 0.7583333410322666,
      "rewards/format_reward": 0.0,
      "step": 310
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 474.5166786193848,
      "epoch": 0.336,
      "grad_norm": 0.36557996981307944,
      "kl": 0.011857986450195312,
      "learning_rate": 2.5193806864716466e-06,
      "loss": 0.0005,
      "reward": 0.8333333365619182,
      "reward_std": 0.10103629529476166,
      "rewards/accuracy_reward": 0.8333333365619182,
      "rewards/format_reward": 0.0,
      "step": 315
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 553.7416828155517,
      "epoch": 0.3413333333333333,
      "grad_norm": 0.2438346381823879,
      "kl": 0.008208465576171876,
      "learning_rate": 2.4987008541733663e-06,
      "loss": 0.0003,
      "reward": 0.7833333365619183,
      "reward_std": 0.1154700517654419,
      "rewards/accuracy_reward": 0.7833333365619183,
      "rewards/format_reward": 0.0,
      "step": 320
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 615.3500122070312,
      "epoch": 0.3466666666666667,
      "grad_norm": 0.340457263416433,
      "kl": 0.00625,
      "learning_rate": 2.477674279068291e-06,
      "loss": 0.0003,
      "reward": 0.7250000037252903,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.7250000037252903,
      "rewards/format_reward": 0.0,
      "step": 325
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 603.6416778564453,
      "epoch": 0.352,
      "grad_norm": 0.16359424999897557,
      "kl": 0.0068511962890625,
      "learning_rate": 2.4563082614542412e-06,
      "loss": 0.0003,
      "reward": 0.8333333358168602,
      "reward_std": 0.08660253882408142,
      "rewards/accuracy_reward": 0.8333333358168602,
      "rewards/format_reward": 0.0,
      "step": 330
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 599.6083488464355,
      "epoch": 0.35733333333333334,
      "grad_norm": 0.25279559853298,
      "kl": 0.00695953369140625,
      "learning_rate": 2.4346102194813937e-06,
      "loss": 0.0003,
      "reward": 0.8250000029802322,
      "reward_std": 0.10103629529476166,
      "rewards/accuracy_reward": 0.8250000029802322,
      "rewards/format_reward": 0.0,
      "step": 335
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 526.5416801452636,
      "epoch": 0.3626666666666667,
      "grad_norm": 0.6628547412135258,
      "kl": 0.009409332275390625,
      "learning_rate": 2.4125876865767443e-06,
      "loss": 0.0004,
      "reward": 0.8250000037252903,
      "reward_std": 0.12990380823612213,
      "rewards/accuracy_reward": 0.8250000037252903,
      "rewards/format_reward": 0.0,
      "step": 340
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 622.2250129699707,
      "epoch": 0.368,
      "grad_norm": 0.12252643555238332,
      "kl": 0.009972000122070312,
      "learning_rate": 2.390248308828548e-06,
      "loss": 0.0004,
      "reward": 0.7750000037252903,
      "reward_std": 0.1154700517654419,
      "rewards/accuracy_reward": 0.7750000037252903,
      "rewards/format_reward": 0.0,
      "step": 345
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 561.5333473205567,
      "epoch": 0.37333333333333335,
      "grad_norm": 0.25234822752428143,
      "kl": 0.008985519409179688,
      "learning_rate": 2.367599842331646e-06,
      "loss": 0.0004,
      "reward": 0.8583333373069764,
      "reward_std": 0.12990380823612213,
      "rewards/accuracy_reward": 0.8583333373069764,
      "rewards/format_reward": 0.0,
      "step": 350
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 615.158349609375,
      "epoch": 0.37866666666666665,
      "grad_norm": 0.4811409561182482,
      "kl": 0.0074596405029296875,
      "learning_rate": 2.344650150494596e-06,
      "loss": 0.0003,
      "reward": 0.8083333380520343,
      "reward_std": 0.1587713211774826,
      "rewards/accuracy_reward": 0.8083333380520343,
      "rewards/format_reward": 0.0,
      "step": 355
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 585.7250133514405,
      "epoch": 0.384,
      "grad_norm": 0.24324280894262207,
      "kl": 0.010303878784179687,
      "learning_rate": 2.3214072013095436e-06,
      "loss": 0.0004,
      "reward": 0.7666666701436042,
      "reward_std": 0.1154700517654419,
      "rewards/accuracy_reward": 0.7666666701436042,
      "rewards/format_reward": 0.0,
      "step": 360
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 592.5333507537841,
      "epoch": 0.3893333333333333,
      "grad_norm": 0.6103293670855143,
      "kl": 0.0204681396484375,
      "learning_rate": 2.2978790645857867e-06,
      "loss": 0.0008,
      "reward": 0.7750000074505806,
      "reward_std": 0.24537386000156403,
      "rewards/accuracy_reward": 0.7750000074505806,
      "rewards/format_reward": 0.0,
      "step": 365
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 628.2000106811523,
      "epoch": 0.39466666666666667,
      "grad_norm": 0.46834964962728914,
      "kl": 0.03272857666015625,
      "learning_rate": 2.274073909147986e-06,
      "loss": 0.0013,
      "reward": 0.6916666716337204,
      "reward_std": 0.17320507764816284,
      "rewards/accuracy_reward": 0.6916666716337204,
      "rewards/format_reward": 0.0,
      "step": 370
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 590.9000160217286,
      "epoch": 0.4,
      "grad_norm": 2.0549829286804853,
      "kl": 0.06357192993164062,
      "learning_rate": 2.25e-06,
      "loss": 0.0025,
      "reward": 0.7083333373069763,
      "reward_std": 0.12990380823612213,
      "rewards/accuracy_reward": 0.7083333373069763,
      "rewards/format_reward": 0.0,
      "step": 375
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 585.6750099182129,
      "epoch": 0.4053333333333333,
      "grad_norm": 12.164472239999887,
      "kl": 0.3590213775634766,
      "learning_rate": 2.225665695455325e-06,
      "loss": 0.0143,
      "reward": 0.7000000052154064,
      "reward_std": 0.1587713211774826,
      "rewards/accuracy_reward": 0.7000000052154064,
      "rewards/format_reward": 0.0,
      "step": 380
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 550.1000122070312,
      "epoch": 0.4106666666666667,
      "grad_norm": 1.366348076215836,
      "kl": 0.05910415649414062,
      "learning_rate": 2.20107944423514e-06,
      "loss": 0.0024,
      "reward": 0.8000000067055225,
      "reward_std": 0.20207259058952332,
      "rewards/accuracy_reward": 0.8000000067055225,
      "rewards/format_reward": 0.0,
      "step": 385
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 548.5416797637939,
      "epoch": 0.416,
      "grad_norm": 0.8962462379303796,
      "kl": 0.33824996948242186,
      "learning_rate": 2.1762497825349665e-06,
      "loss": 0.0135,
      "reward": 0.7416666708886623,
      "reward_std": 0.17320507764816284,
      "rewards/accuracy_reward": 0.7416666708886623,
      "rewards/format_reward": 0.0,
      "step": 390
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 578.9750118255615,
      "epoch": 0.42133333333333334,
      "grad_norm": 1.8407040143574982,
      "kl": 1.4021547317504883,
      "learning_rate": 2.1511853310609467e-06,
      "loss": 0.0558,
      "reward": 0.6583333373069763,
      "reward_std": 0.1587713211774826,
      "rewards/accuracy_reward": 0.6583333373069763,
      "rewards/format_reward": 0.0,
      "step": 395
    },
    {
      "epoch": 0.4266666666666667,
      "grad_norm": 1.2731052300370491,
      "learning_rate": 2.1258947920367943e-06,
      "loss": 0.0066,
      "step": 400
    },
    {
      "epoch": 0.4266666666666667,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 569.7938848144531,
      "eval_kl": 13424.193332373046,
      "eval_loss": 583.3372192382812,
      "eval_reward": 0.6630666847705841,
      "eval_reward_std": 0.18186533155441284,
      "eval_rewards/accuracy_reward": 0.6630666847705841,
      "eval_rewards/format_reward": 0.0,
      "eval_runtime": 5981.5778,
      "eval_samples_per_second": 0.836,
      "eval_steps_per_second": 0.035,
      "step": 400
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 569.2000112533569,
      "epoch": 0.432,
      "grad_norm": 0.38484188447051687,
      "kl": 0.11343555450439453,
      "learning_rate": 2.100386946182431e-06,
      "loss": 0.0025,
      "reward": 0.7250000055879354,
      "reward_std": 0.20207259058952332,
      "rewards/accuracy_reward": 0.7250000055879354,
      "rewards/format_reward": 0.0,
      "step": 405
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 554.5666835784912,
      "epoch": 0.43733333333333335,
      "grad_norm": 1.003802162008014,
      "kl": 0.1323028564453125,
      "learning_rate": 2.0746706496653765e-06,
      "loss": 0.0053,
      "reward": 0.7500000044703483,
      "reward_std": 0.17320507764816284,
      "rewards/accuracy_reward": 0.7500000044703483,
      "rewards/format_reward": 0.0,
      "step": 410
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 586.441682434082,
      "epoch": 0.44266666666666665,
      "grad_norm": 1.3927518076538108,
      "kl": 0.047705459594726565,
      "learning_rate": 2.048754831025942e-06,
      "loss": 0.0019,
      "reward": 0.7666666738688945,
      "reward_std": 0.24537386000156403,
      "rewards/accuracy_reward": 0.7666666738688945,
      "rewards/format_reward": 0.0,
      "step": 415
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 558.3500160217285,
      "epoch": 0.448,
      "grad_norm": 2.893427001373877,
      "kl": 0.1003173828125,
      "learning_rate": 2.0226484880772943e-06,
      "loss": 0.004,
      "reward": 0.8250000014901161,
      "reward_std": 0.05773502588272095,
      "rewards/accuracy_reward": 0.8250000014901161,
      "rewards/format_reward": 0.0,
      "step": 420
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 590.9166778564453,
      "epoch": 0.4533333333333333,
      "grad_norm": 0.36645522567137545,
      "kl": 0.13446083068847656,
      "learning_rate": 1.9963606847814702e-06,
      "loss": 0.0054,
      "reward": 0.7416666716337204,
      "reward_std": 0.18763883411884308,
      "rewards/accuracy_reward": 0.7416666716337204,
      "rewards/format_reward": 0.0,
      "step": 425
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 537.2083503723145,
      "epoch": 0.45866666666666667,
      "grad_norm": 0.3671458640275,
      "kl": 0.054613494873046876,
      "learning_rate": 1.9699005481024273e-06,
      "loss": 0.0022,
      "reward": 0.7750000044703483,
      "reward_std": 0.1587713211774826,
      "rewards/accuracy_reward": 0.7750000044703483,
      "rewards/format_reward": 0.0,
      "step": 430
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 601.3833442687989,
      "epoch": 0.464,
      "grad_norm": 1.046879617710471,
      "kl": 0.020965576171875,
      "learning_rate": 1.943277264837214e-06,
      "loss": 0.0008,
      "reward": 0.7333333358168602,
      "reward_std": 0.07216878235340118,
      "rewards/accuracy_reward": 0.7333333358168602,
      "rewards/format_reward": 0.0,
      "step": 435
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 547.3333511352539,
      "epoch": 0.4693333333333333,
      "grad_norm": 0.21409956983248427,
      "kl": 0.018289947509765626,
      "learning_rate": 1.9165000784263734e-06,
      "loss": 0.0007,
      "reward": 0.7666666716337204,
      "reward_std": 0.1587713211774826,
      "rewards/accuracy_reward": 0.7666666716337204,
      "rewards/format_reward": 0.0,
      "step": 440
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 566.5416786193848,
      "epoch": 0.4746666666666667,
      "grad_norm": 0.3456348995650795,
      "kl": 0.03510856628417969,
      "learning_rate": 1.8895782857446754e-06,
      "loss": 0.0014,
      "reward": 0.7916666723787784,
      "reward_std": 0.17320507764816284,
      "rewards/accuracy_reward": 0.7916666723787784,
      "rewards/format_reward": 0.0,
      "step": 445
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 580.8000129699707,
      "epoch": 0.48,
      "grad_norm": 0.9792448320575614,
      "kl": 0.030012130737304688,
      "learning_rate": 1.8625212338733005e-06,
      "loss": 0.0012,
      "reward": 0.7500000044703483,
      "reward_std": 0.1587713211774826,
      "rewards/accuracy_reward": 0.7500000044703483,
      "rewards/format_reward": 0.0,
      "step": 450
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 612.6583484649658,
      "epoch": 0.48533333333333334,
      "grad_norm": 1.9811858834651732,
      "kl": 0.045981216430664065,
      "learning_rate": 1.835338316854588e-06,
      "loss": 0.0018,
      "reward": 0.7083333395421505,
      "reward_std": 0.20207259058952332,
      "rewards/accuracy_reward": 0.7083333395421505,
      "rewards/format_reward": 0.0,
      "step": 455
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 580.3916793823242,
      "epoch": 0.49066666666666664,
      "grad_norm": 0.22045853934983553,
      "kl": 0.022677230834960937,
      "learning_rate": 1.8080389724304863e-06,
      "loss": 0.0009,
      "reward": 0.7833333380520344,
      "reward_std": 0.1587713211774826,
      "rewards/accuracy_reward": 0.7833333380520344,
      "rewards/format_reward": 0.0,
      "step": 460
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 614.6166839599609,
      "epoch": 0.496,
      "grad_norm": 0.29012755281009805,
      "kl": 0.03320999145507812,
      "learning_rate": 1.7806326787658219e-06,
      "loss": 0.0013,
      "reward": 0.7000000067055225,
      "reward_std": 0.21650634706020355,
      "rewards/accuracy_reward": 0.7000000067055225,
      "rewards/format_reward": 0.0,
      "step": 465
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 616.9083450317382,
      "epoch": 0.5013333333333333,
      "grad_norm": 0.45521762259008347,
      "kl": 0.05942230224609375,
      "learning_rate": 1.7531289511575427e-06,
      "loss": 0.0024,
      "reward": 0.6833333410322666,
      "reward_std": 0.25980761647224426,
      "rewards/accuracy_reward": 0.6833333410322666,
      "rewards/format_reward": 0.0,
      "step": 470
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 669.9333499908447,
      "epoch": 0.5066666666666667,
      "grad_norm": 1.2238798671126319,
      "kl": 0.04663505554199219,
      "learning_rate": 1.7255373387310633e-06,
      "loss": 0.0019,
      "reward": 0.6833333395421505,
      "reward_std": 0.21650634706020355,
      "rewards/accuracy_reward": 0.6833333395421505,
      "rewards/format_reward": 0.0,
      "step": 475
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 598.641682434082,
      "epoch": 0.512,
      "grad_norm": 0.6120301813056643,
      "kl": 0.09711380004882812,
      "learning_rate": 1.6978674211248676e-06,
      "loss": 0.0039,
      "reward": 0.7500000037252903,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.7500000037252903,
      "rewards/format_reward": 0.0,
      "step": 480
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 608.883345413208,
      "epoch": 0.5173333333333333,
      "grad_norm": 26.043777462496045,
      "kl": 0.18498878479003905,
      "learning_rate": 1.6701288051645182e-06,
      "loss": 0.0074,
      "reward": 0.6750000044703484,
      "reward_std": 0.1587713211774826,
      "rewards/accuracy_reward": 0.6750000044703484,
      "rewards/format_reward": 0.0,
      "step": 485
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 597.6416805267334,
      "epoch": 0.5226666666666666,
      "grad_norm": 1.3300653593847538,
      "kl": 0.08308296203613282,
      "learning_rate": 1.642331121527223e-06,
      "loss": 0.0033,
      "reward": 0.7750000029802322,
      "reward_std": 0.12990380823612213,
      "rewards/accuracy_reward": 0.7750000029802322,
      "rewards/format_reward": 0.0,
      "step": 490
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 557.4333480834961,
      "epoch": 0.528,
      "grad_norm": 2.4699038123399015,
      "kl": 0.07253971099853515,
      "learning_rate": 1.6144840213981257e-06,
      "loss": 0.0029,
      "reward": 0.7583333380520344,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.7583333380520344,
      "rewards/format_reward": 0.0,
      "step": 495
    },
    {
      "epoch": 0.5333333333333333,
      "grad_norm": 1.2756243338289226,
      "learning_rate": 1.5865971731194738e-06,
      "loss": 0.0097,
      "step": 500
    },
    {
      "epoch": 0.5333333333333333,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 600.5289517089843,
      "eval_kl": 0.145334228515625,
      "eval_loss": 0.03381989896297455,
      "eval_reward": 0.6379333512067795,
      "eval_reward_std": 0.20980908365249634,
      "eval_rewards/accuracy_reward": 0.6379333512067795,
      "eval_rewards/format_reward": 0.0,
      "eval_runtime": 6091.2544,
      "eval_samples_per_second": 0.821,
      "eval_steps_per_second": 0.034,
      "step": 500
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 585.5958461761475,
      "epoch": 0.5386666666666666,
      "grad_norm": 0.9549348299070431,
      "kl": 0.15351810455322265,
      "learning_rate": 1.5586802588338262e-06,
      "loss": 0.0026,
      "reward": 0.7125000048428773,
      "reward_std": 0.18042195588350296,
      "rewards/accuracy_reward": 0.7125000048428773,
      "rewards/format_reward": 0.0,
      "step": 505
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 578.0666816711425,
      "epoch": 0.544,
      "grad_norm": 1.2238718249429645,
      "kl": 0.026650619506835938,
      "learning_rate": 1.5307429711224756e-06,
      "loss": 0.0011,
      "reward": 0.7583333380520344,
      "reward_std": 0.1587713211774826,
      "rewards/accuracy_reward": 0.7583333380520344,
      "rewards/format_reward": 0.0,
      "step": 510
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 592.3000137329102,
      "epoch": 0.5493333333333333,
      "grad_norm": 9.727501760877075,
      "kl": 0.07199592590332031,
      "learning_rate": 1.5027950096402447e-06,
      "loss": 0.0029,
      "reward": 0.7416666731238365,
      "reward_std": 0.21650634706020355,
      "rewards/accuracy_reward": 0.7416666731238365,
      "rewards/format_reward": 0.0,
      "step": 515
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 616.6750164031982,
      "epoch": 0.5546666666666666,
      "grad_norm": 15.439896164361146,
      "kl": 0.05631599426269531,
      "learning_rate": 1.474846077747821e-06,
      "loss": 0.0023,
      "reward": 0.7500000059604645,
      "reward_std": 0.20207259058952332,
      "rewards/accuracy_reward": 0.7500000059604645,
      "rewards/format_reward": 0.0,
      "step": 520
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 613.5250183105469,
      "epoch": 0.56,
      "grad_norm": 0.9960427525825399,
      "kl": 0.05883331298828125,
      "learning_rate": 1.4469058791428154e-06,
      "loss": 0.0024,
      "reward": 0.6916666723787784,
      "reward_std": 0.20207259058952332,
      "rewards/accuracy_reward": 0.6916666723787784,
      "rewards/format_reward": 0.0,
      "step": 525
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 591.8166831970215,
      "epoch": 0.5653333333333334,
      "grad_norm": 3.046337395450479,
      "kl": 0.07379722595214844,
      "learning_rate": 1.4189841144906928e-06,
      "loss": 0.0029,
      "reward": 0.7583333380520344,
      "reward_std": 0.1587713211774826,
      "rewards/accuracy_reward": 0.7583333380520344,
      "rewards/format_reward": 0.0,
      "step": 530
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 542.066683959961,
      "epoch": 0.5706666666666667,
      "grad_norm": 1.340816244971557,
      "kl": 0.04628486633300781,
      "learning_rate": 1.3910904780567642e-06,
      "loss": 0.0019,
      "reward": 0.8250000052154064,
      "reward_std": 0.1587713211774826,
      "rewards/accuracy_reward": 0.8250000052154064,
      "rewards/format_reward": 0.0,
      "step": 535
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 587.141682434082,
      "epoch": 0.576,
      "grad_norm": 2.6344014025933356,
      "kl": 0.041788482666015626,
      "learning_rate": 1.3632346543403946e-06,
      "loss": 0.0017,
      "reward": 0.6916666738688946,
      "reward_std": 0.25980761647224426,
      "rewards/accuracy_reward": 0.6916666738688946,
      "rewards/format_reward": 0.0,
      "step": 540
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 641.9750152587891,
      "epoch": 0.5813333333333334,
      "grad_norm": 4.6049111419007165,
      "kl": 0.12230720520019531,
      "learning_rate": 1.335426314712607e-06,
      "loss": 0.0049,
      "reward": 0.6833333387970925,
      "reward_std": 0.20207259058952332,
      "rewards/accuracy_reward": 0.6833333387970925,
      "rewards/format_reward": 0.0,
      "step": 545
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 688.2666839599609,
      "epoch": 0.5866666666666667,
      "grad_norm": 3.521827139400347,
      "kl": 0.06717300415039062,
      "learning_rate": 1.3076751140582396e-06,
      "loss": 0.0027,
      "reward": 0.6833333402872086,
      "reward_std": 0.24537386000156403,
      "rewards/accuracy_reward": 0.6833333402872086,
      "rewards/format_reward": 0.0,
      "step": 550
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 577.8250099182129,
      "epoch": 0.592,
      "grad_norm": 3.564377427961792,
      "kl": 0.1139495849609375,
      "learning_rate": 1.2799906874238297e-06,
      "loss": 0.0045,
      "reward": 0.7250000029802323,
      "reward_std": 0.10103629529476166,
      "rewards/accuracy_reward": 0.7250000029802323,
      "rewards/format_reward": 0.0,
      "step": 555
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 645.683349609375,
      "epoch": 0.5973333333333334,
      "grad_norm": 0.9903458969279051,
      "kl": 0.12611656188964843,
      "learning_rate": 1.2523826466723843e-06,
      "loss": 0.005,
      "reward": 0.6833333387970925,
      "reward_std": 0.18763883411884308,
      "rewards/accuracy_reward": 0.6833333387970925,
      "rewards/format_reward": 0.0,
      "step": 560
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 582.9333503723144,
      "epoch": 0.6026666666666667,
      "grad_norm": 2.225108665952508,
      "kl": 0.07784194946289062,
      "learning_rate": 1.2248605771462016e-06,
      "loss": 0.0031,
      "reward": 0.6833333387970925,
      "reward_std": 0.18763883411884308,
      "rewards/accuracy_reward": 0.6833333387970925,
      "rewards/format_reward": 0.0,
      "step": 565
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 566.6333442687989,
      "epoch": 0.608,
      "grad_norm": 3.291993199224936,
      "kl": 0.1331024169921875,
      "learning_rate": 1.1974340343388974e-06,
      "loss": 0.0053,
      "reward": 0.7083333395421505,
      "reward_std": 0.24537386000156403,
      "rewards/accuracy_reward": 0.7083333395421505,
      "rewards/format_reward": 0.0,
      "step": 570
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 574.4333473205567,
      "epoch": 0.6133333333333333,
      "grad_norm": 3.912966689921013,
      "kl": 0.22335777282714844,
      "learning_rate": 1.1701125405777965e-06,
      "loss": 0.0089,
      "reward": 0.7500000044703483,
      "reward_std": 0.1587713211774826,
      "rewards/accuracy_reward": 0.7500000044703483,
      "rewards/format_reward": 0.0,
      "step": 575
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 618.2916778564453,
      "epoch": 0.6186666666666667,
      "grad_norm": 21.294549926589646,
      "kl": 1.0905929565429688,
      "learning_rate": 1.142905581717841e-06,
      "loss": 0.0436,
      "reward": 0.7500000067055226,
      "reward_std": 0.2309401035308838,
      "rewards/accuracy_reward": 0.7500000067055226,
      "rewards/format_reward": 0.0,
      "step": 580
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 533.8166828155518,
      "epoch": 0.624,
      "grad_norm": 6.403461046316986,
      "kl": 0.11275444030761719,
      "learning_rate": 1.1158226038481584e-06,
      "loss": 0.0045,
      "reward": 0.8750000037252903,
      "reward_std": 0.1154700517654419,
      "rewards/accuracy_reward": 0.8750000037252903,
      "rewards/format_reward": 0.0,
      "step": 585
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 638.766682434082,
      "epoch": 0.6293333333333333,
      "grad_norm": 0.9273470799146647,
      "kl": 0.7552982330322265,
      "learning_rate": 1.0888730100124355e-06,
      "loss": 0.0302,
      "reward": 0.7083333402872085,
      "reward_std": 0.24537386000156403,
      "rewards/accuracy_reward": 0.7083333402872085,
      "rewards/format_reward": 0.0,
      "step": 590
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 529.8416812896728,
      "epoch": 0.6346666666666667,
      "grad_norm": 15.858090968775276,
      "kl": 0.2991436004638672,
      "learning_rate": 1.062066156944242e-06,
      "loss": 0.012,
      "reward": 0.8333333373069763,
      "reward_std": 0.1587713211774826,
      "rewards/accuracy_reward": 0.8333333373069763,
      "rewards/format_reward": 0.0,
      "step": 595
    },
    {
      "epoch": 0.64,
      "grad_norm": 17.119879704647552,
      "learning_rate": 1.0354113518184304e-06,
      "loss": 0.0045,
      "step": 600
    },
    {
      "epoch": 0.64,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 598.1299530761719,
      "eval_kl": 0.886337255859375,
      "eval_loss": 0.07811599224805832,
      "eval_reward": 0.6349333519935608,
      "eval_reward_std": 0.20807703318595885,
      "eval_rewards/accuracy_reward": 0.6349333519935608,
      "eval_rewards/format_reward": 0.0,
      "eval_runtime": 6102.8046,
      "eval_samples_per_second": 0.819,
      "eval_steps_per_second": 0.034,
      "step": 600
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 618.4583503723145,
      "epoch": 0.6453333333333333,
      "grad_norm": 237.8237245765829,
      "kl": 0.350294303894043,
      "learning_rate": 1.008917849019739e-06,
      "loss": 0.0234,
      "reward": 0.7333333380520344,
      "reward_std": 0.1587713211774826,
      "rewards/accuracy_reward": 0.7333333380520344,
      "rewards/format_reward": 0.0,
      "step": 605
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 583.5416801452636,
      "epoch": 0.6506666666666666,
      "grad_norm": 7.9821732038803805,
      "kl": 0.12260932922363281,
      "learning_rate": 9.825948469297303e-07,
      "loss": 0.0049,
      "reward": 0.7750000044703483,
      "reward_std": 0.18763883411884308,
      "rewards/accuracy_reward": 0.7750000044703483,
      "rewards/format_reward": 0.0,
      "step": 610
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 609.900015258789,
      "epoch": 0.656,
      "grad_norm": 94865.97576667031,
      "kl": 173.92265777587892,
      "learning_rate": 9.564514847331647e-07,
      "loss": 6.9811,
      "reward": 0.7166666716337204,
      "reward_std": 0.18763883411884308,
      "rewards/accuracy_reward": 0.7166666716337204,
      "rewards/format_reward": 0.0,
      "step": 615
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 563.7083461761474,
      "epoch": 0.6613333333333333,
      "grad_norm": 1.7355610026067,
      "kl": 0.3627006530761719,
      "learning_rate": 9.304968392449361e-07,
      "loss": 0.0145,
      "reward": 0.7083333380520344,
      "reward_std": 0.1587713211774826,
      "rewards/accuracy_reward": 0.7083333380520344,
      "rewards/format_reward": 0.0,
      "step": 620
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 650.9000160217286,
      "epoch": 0.6666666666666666,
      "grad_norm": 4.055117700318325,
      "kl": 1.220144271850586,
      "learning_rate": 9.047399217586552e-07,
      "loss": 0.0488,
      "reward": 0.7333333402872085,
      "reward_std": 0.2309401035308838,
      "rewards/accuracy_reward": 0.7333333402872085,
      "rewards/format_reward": 0.0,
      "step": 625
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 596.6833438873291,
      "epoch": 0.672,
      "grad_norm": 3.2951177269303034,
      "kl": 0.484442138671875,
      "learning_rate": 8.791896749179831e-07,
      "loss": 0.0194,
      "reward": 0.6666666716337204,
      "reward_std": 0.1587713211774826,
      "rewards/accuracy_reward": 0.6666666716337204,
      "rewards/format_reward": 0.0,
      "step": 630
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 688.1416854858398,
      "epoch": 0.6773333333333333,
      "grad_norm": 6.185421881006396,
      "kl": 0.8364780426025391,
      "learning_rate": 8.538549696118023e-07,
      "loss": 0.0335,
      "reward": 0.7083333365619182,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.7083333365619182,
      "rewards/format_reward": 0.0,
      "step": 635
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 614.8666843414306,
      "epoch": 0.6826666666666666,
      "grad_norm": 3.6901707366378296,
      "kl": 0.5915939331054687,
      "learning_rate": 8.287446018942973e-07,
      "loss": 0.0236,
      "reward": 0.7416666716337204,
      "reward_std": 0.17320507764816284,
      "rewards/accuracy_reward": 0.7416666716337204,
      "rewards/format_reward": 0.0,
      "step": 640
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 602.1500183105469,
      "epoch": 0.688,
      "grad_norm": 2.298300879666136,
      "kl": 0.34840736389160154,
      "learning_rate": 8.038672899310176e-07,
      "loss": 0.014,
      "reward": 0.6833333380520343,
      "reward_std": 0.20207259058952332,
      "rewards/accuracy_reward": 0.6833333380520343,
      "rewards/format_reward": 0.0,
      "step": 645
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 615.6250175476074,
      "epoch": 0.6933333333333334,
      "grad_norm": 11.20824930878958,
      "kl": 0.19427947998046874,
      "learning_rate": 7.792316709719875e-07,
      "loss": 0.0078,
      "reward": 0.6583333395421505,
      "reward_std": 0.21650634706020355,
      "rewards/accuracy_reward": 0.6583333395421505,
      "rewards/format_reward": 0.0,
      "step": 650
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 594.0416820526123,
      "epoch": 0.6986666666666667,
      "grad_norm": 11.717220592320137,
      "kl": 2.438280487060547,
      "learning_rate": 7.548462983529016e-07,
      "loss": 0.0976,
      "reward": 0.7583333425223827,
      "reward_std": 0.28867512941360474,
      "rewards/accuracy_reward": 0.7583333425223827,
      "rewards/format_reward": 0.0,
      "step": 655
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 607.308352279663,
      "epoch": 0.704,
      "grad_norm": 1.5198877689737873,
      "kl": 0.19807205200195313,
      "learning_rate": 7.307196385254621e-07,
      "loss": 0.0079,
      "reward": 0.7416666723787785,
      "reward_std": 0.20207259058952332,
      "rewards/accuracy_reward": 0.7416666723787785,
      "rewards/format_reward": 0.0,
      "step": 660
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 612.7500148773194,
      "epoch": 0.7093333333333334,
      "grad_norm": 1.2366765264367552,
      "kl": 0.3959392547607422,
      "learning_rate": 7.068600681178772e-07,
      "loss": 0.0158,
      "reward": 0.8000000052154064,
      "reward_std": 0.17320507764816284,
      "rewards/accuracy_reward": 0.8000000052154064,
      "rewards/format_reward": 0.0,
      "step": 665
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 627.3750144958497,
      "epoch": 0.7146666666666667,
      "grad_norm": 1.26819472034522,
      "kl": 0.4778144836425781,
      "learning_rate": 6.832758710265492e-07,
      "loss": 0.0191,
      "reward": 0.6666666716337204,
      "reward_std": 0.18763883411884308,
      "rewards/accuracy_reward": 0.6666666716337204,
      "rewards/format_reward": 0.0,
      "step": 670
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 619.6833473205567,
      "epoch": 0.72,
      "grad_norm": 4.274976105654847,
      "kl": 0.11606101989746094,
      "learning_rate": 6.599752355399538e-07,
      "loss": 0.0046,
      "reward": 0.7000000052154064,
      "reward_std": 0.18763883411884308,
      "rewards/accuracy_reward": 0.7000000052154064,
      "rewards/format_reward": 0.0,
      "step": 675
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 638.4916831970215,
      "epoch": 0.7253333333333334,
      "grad_norm": 0.36858027198187077,
      "kl": 0.18754081726074218,
      "learning_rate": 6.369662514957191e-07,
      "loss": 0.0075,
      "reward": 0.7166666738688946,
      "reward_std": 0.24537386000156403,
      "rewards/accuracy_reward": 0.7166666738688946,
      "rewards/format_reward": 0.0,
      "step": 680
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 608.3666835784912,
      "epoch": 0.7306666666666667,
      "grad_norm": 3.047545343694443,
      "kl": 0.05216217041015625,
      "learning_rate": 6.142569074718818e-07,
      "loss": 0.0021,
      "reward": 0.7500000059604645,
      "reward_std": 0.20207259058952332,
      "rewards/accuracy_reward": 0.7500000059604645,
      "rewards/format_reward": 0.0,
      "step": 685
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 662.0166839599609,
      "epoch": 0.736,
      "grad_norm": 0.45904383752278927,
      "kl": 0.04991302490234375,
      "learning_rate": 5.918550880133018e-07,
      "loss": 0.002,
      "reward": 0.5833333417773247,
      "reward_std": 0.28867512941360474,
      "rewards/accuracy_reward": 0.5833333417773247,
      "rewards/format_reward": 0.0,
      "step": 690
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 565.958348083496,
      "epoch": 0.7413333333333333,
      "grad_norm": 0.616371610316275,
      "kl": 1.7408302307128907,
      "learning_rate": 5.697685708941996e-07,
      "loss": 0.0696,
      "reward": 0.7166666708886623,
      "reward_std": 0.1587713211774826,
      "rewards/accuracy_reward": 0.7166666708886623,
      "rewards/format_reward": 0.0,
      "step": 695
    },
    {
      "epoch": 0.7466666666666667,
      "grad_norm": 1.148258838235239,
      "learning_rate": 5.480050244177573e-07,
      "loss": 0.0044,
      "step": 700
    },
    {
      "epoch": 0.7466666666666667,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 599.234618359375,
      "eval_kl": 155189.75018701173,
      "eval_loss": 8703.8037109375,
      "eval_reward": 0.6249333506584167,
      "eval_reward_std": 0.2200859182357788,
      "eval_rewards/accuracy_reward": 0.6249333506584167,
      "eval_rewards/format_reward": 0.0,
      "eval_runtime": 6119.4517,
      "eval_samples_per_second": 0.817,
      "eval_steps_per_second": 0.034,
      "step": 700
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 594.833348083496,
      "epoch": 0.752,
      "grad_norm": 33.42924134136288,
      "kl": 0.2813268661499023,
      "learning_rate": 5.265720047537318e-07,
      "loss": 0.0181,
      "reward": 0.6875000059604645,
      "reward_std": 0.20207259058952332,
      "rewards/accuracy_reward": 0.6875000059604645,
      "rewards/format_reward": 0.0,
      "step": 705
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 599.6500148773193,
      "epoch": 0.7573333333333333,
      "grad_norm": 31.602691481649085,
      "kl": 0.2062408447265625,
      "learning_rate": 5.054769533149999e-07,
      "loss": 0.0083,
      "reward": 0.8000000044703484,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.8000000044703484,
      "rewards/format_reward": 0.0,
      "step": 710
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 563.0916854858399,
      "epoch": 0.7626666666666667,
      "grad_norm": 14.824445401418682,
      "kl": 0.5208763122558594,
      "learning_rate": 4.847271941739458e-07,
      "loss": 0.0209,
      "reward": 0.6583333395421505,
      "reward_std": 0.2309401035308838,
      "rewards/accuracy_reward": 0.6583333395421505,
      "rewards/format_reward": 0.0,
      "step": 715
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 575.7666816711426,
      "epoch": 0.768,
      "grad_norm": 3.361014733027139,
      "kl": 0.14543685913085938,
      "learning_rate": 4.643299315195855e-07,
      "loss": 0.0058,
      "reward": 0.7083333395421505,
      "reward_std": 0.20207259058952332,
      "rewards/accuracy_reward": 0.7083333395421505,
      "rewards/format_reward": 0.0,
      "step": 720
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 593.8666786193847,
      "epoch": 0.7733333333333333,
      "grad_norm": 0.49783824002899163,
      "kl": 0.14712867736816407,
      "learning_rate": 4.442922471563205e-07,
      "loss": 0.0059,
      "reward": 0.7250000067055226,
      "reward_std": 0.21650634706020355,
      "rewards/accuracy_reward": 0.7250000067055226,
      "rewards/format_reward": 0.0,
      "step": 725
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 660.7500198364257,
      "epoch": 0.7786666666666666,
      "grad_norm": 1.3968867213585785,
      "kl": 11.599226379394532,
      "learning_rate": 4.24621098045175e-07,
      "loss": 0.4664,
      "reward": 0.6833333380520343,
      "reward_std": 0.18763883411884308,
      "rewards/accuracy_reward": 0.6833333380520343,
      "rewards/format_reward": 0.0,
      "step": 730
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 633.0583499908447,
      "epoch": 0.784,
      "grad_norm": 1.7330543134117584,
      "kl": 0.2003498077392578,
      "learning_rate": 4.053233138883835e-07,
      "loss": 0.008,
      "reward": 0.6333333395421505,
      "reward_std": 0.2309401035308838,
      "rewards/accuracy_reward": 0.6333333395421505,
      "rewards/format_reward": 0.0,
      "step": 735
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 607.7166835784913,
      "epoch": 0.7893333333333333,
      "grad_norm": 2.1665020676583495,
      "kl": 0.12012977600097656,
      "learning_rate": 3.864055947581605e-07,
      "loss": 0.0048,
      "reward": 0.6583333402872086,
      "reward_std": 0.24537386000156403,
      "rewards/accuracy_reward": 0.6583333402872086,
      "rewards/format_reward": 0.0,
      "step": 740
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 669.0750186920166,
      "epoch": 0.7946666666666666,
      "grad_norm": 1.1622261596005705,
      "kl": 0.07356147766113282,
      "learning_rate": 3.6787450877047543e-07,
      "loss": 0.0029,
      "reward": 0.6333333387970924,
      "reward_std": 0.17320507764816284,
      "rewards/accuracy_reward": 0.6333333387970924,
      "rewards/format_reward": 0.0,
      "step": 745
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 578.5916860580444,
      "epoch": 0.8,
      "grad_norm": 42.60513773493881,
      "kl": 0.33280181884765625,
      "learning_rate": 3.4973648980464454e-07,
      "loss": 0.0133,
      "reward": 0.6833333395421505,
      "reward_std": 0.20207259058952332,
      "rewards/accuracy_reward": 0.6833333395421505,
      "rewards/format_reward": 0.0,
      "step": 750
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 572.9250129699707,
      "epoch": 0.8053333333333333,
      "grad_norm": 0.5348584171724263,
      "kl": 0.2312854766845703,
      "learning_rate": 3.3199783526952656e-07,
      "loss": 0.0092,
      "reward": 0.7000000059604645,
      "reward_std": 0.2309401035308838,
      "rewards/accuracy_reward": 0.7000000059604645,
      "rewards/format_reward": 0.0,
      "step": 755
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 618.1166831970215,
      "epoch": 0.8106666666666666,
      "grad_norm": 1.0994184328283247,
      "kl": 0.5087726593017579,
      "learning_rate": 3.146647039171002e-07,
      "loss": 0.0203,
      "reward": 0.6500000089406968,
      "reward_std": 0.303108885884285,
      "rewards/accuracy_reward": 0.6500000089406968,
      "rewards/format_reward": 0.0,
      "step": 760
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 580.0750160217285,
      "epoch": 0.816,
      "grad_norm": 0.4374571849706074,
      "kl": 0.1738201141357422,
      "learning_rate": 2.977431137041848e-07,
      "loss": 0.0069,
      "reward": 0.7666666731238365,
      "reward_std": 0.20207259058952332,
      "rewards/accuracy_reward": 0.7666666731238365,
      "rewards/format_reward": 0.0,
      "step": 765
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 605.3416835784913,
      "epoch": 0.8213333333333334,
      "grad_norm": 4.308504111793084,
      "kl": 0.3406654357910156,
      "learning_rate": 2.8123893970304154e-07,
      "loss": 0.0136,
      "reward": 0.7416666723787785,
      "reward_std": 0.20207259058952332,
      "rewards/accuracy_reward": 0.7416666723787785,
      "rewards/format_reward": 0.0,
      "step": 770
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 605.7750175476074,
      "epoch": 0.8266666666666667,
      "grad_norm": 4.226173869297776,
      "kl": 0.3512901306152344,
      "learning_rate": 2.651579120615855e-07,
      "loss": 0.014,
      "reward": 0.7333333395421505,
      "reward_std": 0.21650634706020355,
      "rewards/accuracy_reward": 0.7333333395421505,
      "rewards/format_reward": 0.0,
      "step": 775
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 630.9083503723144,
      "epoch": 0.832,
      "grad_norm": 2.7537487444245845,
      "kl": 0.2918212890625,
      "learning_rate": 2.495056140139119e-07,
      "loss": 0.0117,
      "reward": 0.6833333402872086,
      "reward_std": 0.21650634706020355,
      "rewards/accuracy_reward": 0.6833333402872086,
      "rewards/format_reward": 0.0,
      "step": 780
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 699.4166809082031,
      "epoch": 0.8373333333333334,
      "grad_norm": 2.403342890055738,
      "kl": 0.37193450927734373,
      "learning_rate": 2.3428747994183364e-07,
      "loss": 0.0149,
      "reward": 0.6416666746139527,
      "reward_std": 0.2742413729429245,
      "rewards/accuracy_reward": 0.6416666746139527,
      "rewards/format_reward": 0.0,
      "step": 785
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 585.433345413208,
      "epoch": 0.8426666666666667,
      "grad_norm": 2.286592494028236,
      "kl": 0.18648300170898438,
      "learning_rate": 2.1950879348809548e-07,
      "loss": 0.0074,
      "reward": 0.6416666723787785,
      "reward_std": 0.20207259058952332,
      "rewards/accuracy_reward": 0.6416666723787785,
      "rewards/format_reward": 0.0,
      "step": 790
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 657.300016784668,
      "epoch": 0.848,
      "grad_norm": 16.438686897747974,
      "kl": 0.27127418518066404,
      "learning_rate": 2.0517468572192632e-07,
      "loss": 0.0109,
      "reward": 0.7416666731238365,
      "reward_std": 0.20207259058952332,
      "rewards/accuracy_reward": 0.7416666731238365,
      "rewards/format_reward": 0.0,
      "step": 795
    },
    {
      "epoch": 0.8533333333333334,
      "grad_norm": 0.8259215940647905,
      "learning_rate": 1.9129013335756317e-07,
      "loss": 0.0058,
      "step": 800
    },
    {
      "epoch": 0.8533333333333334,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 595.2233535644531,
      "eval_kl": 0.593589892578125,
      "eval_loss": 0.06349216401576996,
      "eval_reward": 0.6285333512663841,
      "eval_reward_std": 0.22216437902450561,
      "eval_rewards/accuracy_reward": 0.6285333512663841,
      "eval_rewards/format_reward": 0.0,
      "eval_runtime": 6111.5827,
      "eval_samples_per_second": 0.818,
      "eval_steps_per_second": 0.034,
      "step": 800
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 593.562516784668,
      "epoch": 0.8586666666666667,
      "grad_norm": 0.4214347379103132,
      "kl": 0.13609142303466798,
      "learning_rate": 1.7785995702636698e-07,
      "loss": 0.0051,
      "reward": 0.7166666727513075,
      "reward_std": 0.20207259058952332,
      "rewards/accuracy_reward": 0.7166666727513075,
      "rewards/format_reward": 0.0,
      "step": 805
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 633.9166858673095,
      "epoch": 0.864,
      "grad_norm": 55.27072438894511,
      "kl": 0.23999671936035155,
      "learning_rate": 1.64888819603129e-07,
      "loss": 0.0096,
      "reward": 0.7333333410322667,
      "reward_std": 0.24537386000156403,
      "rewards/accuracy_reward": 0.7333333410322667,
      "rewards/format_reward": 0.0,
      "step": 810
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 553.4083469390869,
      "epoch": 0.8693333333333333,
      "grad_norm": 0.33509715227443615,
      "kl": 0.4740461349487305,
      "learning_rate": 1.5238122458714925e-07,
      "loss": 0.019,
      "reward": 0.8166666723787784,
      "reward_std": 0.18763883411884308,
      "rewards/accuracy_reward": 0.8166666723787784,
      "rewards/format_reward": 0.0,
      "step": 815
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 622.3166831970215,
      "epoch": 0.8746666666666667,
      "grad_norm": 5.11412403288406,
      "kl": 0.2153860092163086,
      "learning_rate": 1.4034151453864846e-07,
      "loss": 0.0086,
      "reward": 0.7000000074505806,
      "reward_std": 0.24537386000156403,
      "rewards/accuracy_reward": 0.7000000074505806,
      "rewards/format_reward": 0.0,
      "step": 820
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 605.7666816711426,
      "epoch": 0.88,
      "grad_norm": 0.4543276386621551,
      "kl": 0.3385311126708984,
      "learning_rate": 1.287738695710592e-07,
      "loss": 0.0136,
      "reward": 0.7416666746139526,
      "reward_std": 0.2742413729429245,
      "rewards/accuracy_reward": 0.7416666746139526,
      "rewards/format_reward": 0.0,
      "step": 825
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 645.6416862487793,
      "epoch": 0.8853333333333333,
      "grad_norm": 4.187663668914122,
      "kl": 0.4212055206298828,
      "learning_rate": 1.1768230589971457e-07,
      "loss": 0.0168,
      "reward": 0.7083333395421505,
      "reward_std": 0.24537386000156403,
      "rewards/accuracy_reward": 0.7083333395421505,
      "rewards/format_reward": 0.0,
      "step": 830
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 557.1166831970215,
      "epoch": 0.8906666666666667,
      "grad_norm": 0.7419623861693787,
      "kl": 0.22484512329101564,
      "learning_rate": 1.0707067444744439e-07,
      "loss": 0.009,
      "reward": 0.8250000052154064,
      "reward_std": 0.18763883411884308,
      "rewards/accuracy_reward": 0.8250000052154064,
      "rewards/format_reward": 0.0,
      "step": 835
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 576.6416793823242,
      "epoch": 0.896,
      "grad_norm": 7.202147799954427,
      "kl": 0.22338714599609374,
      "learning_rate": 9.69426595075566e-08,
      "loss": 0.0089,
      "reward": 0.6833333387970925,
      "reward_std": 0.17320507764816284,
      "rewards/accuracy_reward": 0.6833333387970925,
      "rewards/format_reward": 0.0,
      "step": 840
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 652.1083518981934,
      "epoch": 0.9013333333333333,
      "grad_norm": 0.604632511176017,
      "kl": 0.1972179412841797,
      "learning_rate": 8.730177746467616e-08,
      "loss": 0.0079,
      "reward": 0.6500000074505806,
      "reward_std": 0.25980761647224426,
      "rewards/accuracy_reward": 0.6500000074505806,
      "rewards/format_reward": 0.0,
      "step": 845
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 594.641679763794,
      "epoch": 0.9066666666666666,
      "grad_norm": 5.532928736058938,
      "kl": 0.34342117309570314,
      "learning_rate": 7.81513755738742e-08,
      "loss": 0.0137,
      "reward": 0.6916666723787784,
      "reward_std": 0.20207259058952332,
      "rewards/accuracy_reward": 0.6916666723787784,
      "rewards/format_reward": 0.0,
      "step": 850
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 591.6250190734863,
      "epoch": 0.912,
      "grad_norm": 2.930096657150403,
      "kl": 0.7959453582763671,
      "learning_rate": 6.949463079852491e-08,
      "loss": 0.0319,
      "reward": 0.7666666738688945,
      "reward_std": 0.21650634706020355,
      "rewards/accuracy_reward": 0.7666666738688945,
      "rewards/format_reward": 0.0,
      "step": 855
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 583.5083526611328,
      "epoch": 0.9173333333333333,
      "grad_norm": 1.0029555883021177,
      "kl": 0.09391098022460938,
      "learning_rate": 6.133454870728111e-08,
      "loss": 0.0038,
      "reward": 0.8333333395421505,
      "reward_std": 0.18763883411884308,
      "rewards/accuracy_reward": 0.8333333395421505,
      "rewards/format_reward": 0.0,
      "step": 860
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 619.716682434082,
      "epoch": 0.9226666666666666,
      "grad_norm": 6.476959419244453,
      "kl": 1.3393241882324218,
      "learning_rate": 5.367396243056022e-08,
      "loss": 0.0536,
      "reward": 0.6666666761040687,
      "reward_std": 0.303108885884285,
      "rewards/accuracy_reward": 0.6666666761040687,
      "rewards/format_reward": 0.0,
      "step": 865
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 649.6083534240722,
      "epoch": 0.928,
      "grad_norm": 10.21710384011178,
      "kl": 0.2799686431884766,
      "learning_rate": 4.6515531676899316e-08,
      "loss": 0.0112,
      "reward": 0.7250000067055226,
      "reward_std": 0.21650634706020355,
      "rewards/accuracy_reward": 0.7250000067055226,
      "rewards/format_reward": 0.0,
      "step": 870
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 642.5583480834961,
      "epoch": 0.9333333333333333,
      "grad_norm": 2.2223793495325506,
      "kl": 0.41688003540039065,
      "learning_rate": 3.986174180951896e-08,
      "loss": 0.0167,
      "reward": 0.7000000059604645,
      "reward_std": 0.20207259058952332,
      "rewards/accuracy_reward": 0.7000000059604645,
      "rewards/format_reward": 0.0,
      "step": 875
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 627.0166820526123,
      "epoch": 0.9386666666666666,
      "grad_norm": 0.9639105805168805,
      "kl": 0.21553115844726561,
      "learning_rate": 3.3714902983421944e-08,
      "loss": 0.0086,
      "reward": 0.8083333402872086,
      "reward_std": 0.21650634706020355,
      "rewards/accuracy_reward": 0.8083333402872086,
      "rewards/format_reward": 0.0,
      "step": 880
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 612.1166828155517,
      "epoch": 0.944,
      "grad_norm": 2.9700295445501137,
      "kl": 0.363385009765625,
      "learning_rate": 2.807714934332073e-08,
      "loss": 0.0145,
      "reward": 0.6666666738688946,
      "reward_std": 0.25980761647224426,
      "rewards/accuracy_reward": 0.6666666738688946,
      "rewards/format_reward": 0.0,
      "step": 885
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 607.191682434082,
      "epoch": 0.9493333333333334,
      "grad_norm": 1.5280325145682865,
      "kl": 0.478509521484375,
      "learning_rate": 2.2950438282676455e-08,
      "loss": 0.0191,
      "reward": 0.7500000059604645,
      "reward_std": 0.20207259058952332,
      "rewards/accuracy_reward": 0.7500000059604645,
      "rewards/format_reward": 0.0,
      "step": 890
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 595.3250190734864,
      "epoch": 0.9546666666666667,
      "grad_norm": 1.3220444396009707,
      "kl": 0.19265098571777345,
      "learning_rate": 1.8336549764102594e-08,
      "loss": 0.0077,
      "reward": 0.7833333380520344,
      "reward_std": 0.1587713211774826,
      "rewards/accuracy_reward": 0.7833333380520344,
      "rewards/format_reward": 0.0,
      "step": 895
    },
    {
      "epoch": 0.96,
      "grad_norm": 2.367573715833922,
      "learning_rate": 1.4237085701374109e-08,
      "loss": 0.0039,
      "step": 900
    },
    {
      "epoch": 0.96,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 597.8314856933594,
      "eval_kl": 0.409832080078125,
      "eval_loss": 0.04817482829093933,
      "eval_reward": 0.633200018286705,
      "eval_reward_std": 0.20888532328605652,
      "eval_rewards/accuracy_reward": 0.633200018286705,
      "eval_rewards/format_reward": 0.0,
      "eval_runtime": 6071.9836,
      "eval_samples_per_second": 0.823,
      "eval_steps_per_second": 0.034,
      "step": 900
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 574.0916843414307,
      "epoch": 0.9653333333333334,
      "grad_norm": 5.414436257998155,
      "kl": 0.3074363708496094,
      "learning_rate": 1.0653469403252015e-08,
      "loss": 0.0207,
      "reward": 0.7250000070780516,
      "reward_std": 0.2381569817662239,
      "rewards/accuracy_reward": 0.7250000070780516,
      "rewards/format_reward": 0.0,
      "step": 905
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 623.0000164031983,
      "epoch": 0.9706666666666667,
      "grad_norm": 4.617084054859332,
      "kl": 0.23618698120117188,
      "learning_rate": 7.586945079319673e-09,
      "loss": 0.0094,
      "reward": 0.6833333410322666,
      "reward_std": 0.25980761647224426,
      "rewards/accuracy_reward": 0.6833333410322666,
      "rewards/format_reward": 0.0,
      "step": 910
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 635.7666885375977,
      "epoch": 0.976,
      "grad_norm": 4.6029934543244755,
      "kl": 0.3018619537353516,
      "learning_rate": 5.038577408000844e-09,
      "loss": 0.0121,
      "reward": 0.7166666731238365,
      "reward_std": 0.2309401035308838,
      "rewards/accuracy_reward": 0.7166666731238365,
      "rewards/format_reward": 0.0,
      "step": 915
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 551.4250095367431,
      "epoch": 0.9813333333333333,
      "grad_norm": 3.163010566375475,
      "kl": 0.25188522338867186,
      "learning_rate": 3.009251166909699e-09,
      "loss": 0.0101,
      "reward": 0.7416666708886623,
      "reward_std": 0.14433756470680237,
      "rewards/accuracy_reward": 0.7416666708886623,
      "rewards/format_reward": 0.0,
      "step": 920
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 610.1583431243896,
      "epoch": 0.9866666666666667,
      "grad_norm": 0.16665497610442914,
      "kl": 0.0295257568359375,
      "learning_rate": 1.4996709256617225e-09,
      "loss": 0.0012,
      "reward": 0.6750000052154064,
      "reward_std": 0.17320507764816284,
      "rewards/accuracy_reward": 0.6750000052154064,
      "rewards/format_reward": 0.0,
      "step": 925
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 609.3500144958496,
      "epoch": 0.992,
      "grad_norm": 0.8617998481481968,
      "kl": 0.2718994140625,
      "learning_rate": 5.103608012512195e-10,
      "loss": 0.0109,
      "reward": 0.7166666723787785,
      "reward_std": 0.20207259058952332,
      "rewards/accuracy_reward": 0.7166666723787785,
      "rewards/format_reward": 0.0,
      "step": 930
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 632.933349609375,
      "epoch": 0.9973333333333333,
      "grad_norm": 5.070012098805089,
      "kl": 0.15453033447265624,
      "learning_rate": 4.1664276081376796e-11,
      "loss": 0.0062,
      "reward": 0.7333333387970924,
      "reward_std": 0.21650634706020355,
      "rewards/accuracy_reward": 0.7333333387970924,
      "rewards/format_reward": 0.0,
      "step": 935
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 568.4375152587891,
      "epoch": 0.9994666666666666,
      "kl": 0.20409584045410156,
      "reward": 0.7916666734963655,
      "reward_std": 0.25259073823690414,
      "rewards/accuracy_reward": 0.7916666734963655,
      "rewards/format_reward": 0.0,
      "step": 937,
      "total_flos": 0.0,
      "train_loss": 0.04672712115020638,
      "train_runtime": 102271.8167,
      "train_samples_per_second": 0.073,
      "train_steps_per_second": 0.009
    }
  ],
  "logging_steps": 5,
  "max_steps": 937,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": false,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}