Qwen-2.5-7B-Simple-RL / trainer_state.json

Model save

5b5cd2c verified 3 months ago

54.5 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9984,
	"eval_steps": 100,
	"global_step": 468,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"completion_length": 638.4285987854004,
	"epoch": 0.010666666666666666,
	"grad_norm": 2.42055344581604,
	"kl": 0.00011775493621826171,
	"learning_rate": 3.1914893617021275e-07,
	"loss": 0.0,
	"reward": 1.1089806377887725,
	"reward_std": 0.8793896824121475,
	"rewards/accuracy_reward": 0.5767857443541289,
	"rewards/cosine_scaled_reward": 0.25779010977130384,
	"rewards/format_reward": 0.00357142873108387,
	"rewards/reasoning_steps_reward": 0.270833354908973,
	"step": 5
	},
	{
	"completion_length": 611.7714553833008,
	"epoch": 0.021333333333333333,
	"grad_norm": 1.2694348096847534,
	"kl": 0.00021342039108276367,
	"learning_rate": 6.382978723404255e-07,
	"loss": 0.0,
	"reward": 1.1431605055928231,
	"reward_std": 0.8805145360529423,
	"rewards/accuracy_reward": 0.5892857421189547,
	"rewards/cosine_scaled_reward": 0.3008985619725536,
	"rewards/format_reward": 0.001785714365541935,
	"rewards/reasoning_steps_reward": 0.25119049232453106,
	"step": 10
	},
	{
	"completion_length": 603.9625274658204,
	"epoch": 0.032,
	"grad_norm": 4.813971042633057,
	"kl": 0.00024839639663696287,
	"learning_rate": 9.574468085106384e-07,
	"loss": 0.0,
	"reward": 1.2853217244148254,
	"reward_std": 0.8000296212732791,
	"rewards/accuracy_reward": 0.6535714577883482,
	"rewards/cosine_scaled_reward": 0.3317502578254789,
	"rewards/format_reward": 0.00357142873108387,
	"rewards/reasoning_steps_reward": 0.2964285886846483,
	"step": 15
	},
	{
	"completion_length": 595.6982391357421,
	"epoch": 0.042666666666666665,
	"grad_norm": 0.9142511487007141,
	"kl": 0.00047616958618164064,
	"learning_rate": 1.276595744680851e-06,
	"loss": 0.0,
	"reward": 1.2075286597013473,
	"reward_std": 0.7695159167051315,
	"rewards/accuracy_reward": 0.6428571730852127,
	"rewards/cosine_scaled_reward": 0.3247905206750147,
	"rewards/format_reward": 0.0,
	"rewards/reasoning_steps_reward": 0.23988096807152032,
	"step": 20
	},
	{
	"completion_length": 644.2071708679199,
	"epoch": 0.05333333333333334,
	"grad_norm": 0.7305999994277954,
	"kl": 0.0009862899780273438,
	"learning_rate": 1.5957446808510639e-06,
	"loss": 0.0,
	"reward": 1.2186039187014104,
	"reward_std": 0.7756468575447798,
	"rewards/accuracy_reward": 0.6339286027476192,
	"rewards/cosine_scaled_reward": 0.3200919725000858,
	"rewards/format_reward": 0.0008928571827709675,
	"rewards/reasoning_steps_reward": 0.26369049586355686,
	"step": 25
	},
	{
	"completion_length": 669.2125297546387,
	"epoch": 0.064,
	"grad_norm": 0.9431222677230835,
	"kl": 0.0020453929901123047,
	"learning_rate": 1.9148936170212767e-06,
	"loss": 0.0001,
	"reward": 1.3601950403302907,
	"reward_std": 0.760306540131569,
	"rewards/accuracy_reward": 0.6732143152505159,
	"rewards/cosine_scaled_reward": 0.3795402319636196,
	"rewards/format_reward": 0.0008928571827709675,
	"rewards/reasoning_steps_reward": 0.3065476375631988,
	"step": 30
	},
	{
	"completion_length": 643.0696685791015,
	"epoch": 0.07466666666666667,
	"grad_norm": 48319720.0,
	"kl": 6272.004669189453,
	"learning_rate": 2.2340425531914894e-06,
	"loss": 250.5145,
	"reward": 1.289367458410561,
	"reward_std": 0.7266312446445227,
	"rewards/accuracy_reward": 0.676785746589303,
	"rewards/cosine_scaled_reward": 0.3441293075971771,
	"rewards/format_reward": 0.001785714365541935,
	"rewards/reasoning_steps_reward": 0.26666668280959127,
	"step": 35
	},
	{
	"completion_length": 669.8018165588379,
	"epoch": 0.08533333333333333,
	"grad_norm": 0.4609315097332001,
	"kl": 0.018144559860229493,
	"learning_rate": 2.553191489361702e-06,
	"loss": 0.0007,
	"reward": 1.4497444801032544,
	"reward_std": 0.6942832075059414,
	"rewards/accuracy_reward": 0.6982143171131611,
	"rewards/cosine_scaled_reward": 0.41283965120092037,
	"rewards/format_reward": 0.0,
	"rewards/reasoning_steps_reward": 0.3386905025690794,
	"step": 40
	},
	{
	"completion_length": 642.2321701049805,
	"epoch": 0.096,
	"grad_norm": 1.9606070518493652,
	"kl": 0.004248189926147461,
	"learning_rate": 2.872340425531915e-06,
	"loss": 0.0002,
	"reward": 1.4603484645485878,
	"reward_std": 0.7034628570079804,
	"rewards/accuracy_reward": 0.7232143163681031,
	"rewards/cosine_scaled_reward": 0.4335627053398639,
	"rewards/format_reward": 0.0,
	"rewards/reasoning_steps_reward": 0.3035714477300644,
	"step": 45
	},
	{
	"completion_length": 659.8625274658203,
	"epoch": 0.10666666666666667,
	"grad_norm": 1.5518417358398438,
	"kl": 0.004150962829589844,
	"learning_rate": 2.9996241442585123e-06,
	"loss": 0.0002,
	"reward": 1.5205835647881032,
	"reward_std": 0.7311159037053585,
	"rewards/accuracy_reward": 0.7303571753203869,
	"rewards/cosine_scaled_reward": 0.4155239976942539,
	"rewards/format_reward": 0.0008928571827709675,
	"rewards/reasoning_steps_reward": 0.37380955144762995,
	"step": 50
	},
	{
	"completion_length": 638.6232460021972,
	"epoch": 0.11733333333333333,
	"grad_norm": 1.3417630195617676,
	"kl": 0.01309032440185547,
	"learning_rate": 2.9973279301399446e-06,
	"loss": 0.0005,
	"reward": 1.4900454580783844,
	"reward_std": 0.7109502237290144,
	"rewards/accuracy_reward": 0.7035714603960515,
	"rewards/cosine_scaled_reward": 0.3855811151210219,
	"rewards/format_reward": 0.0026785715483129023,
	"rewards/reasoning_steps_reward": 0.3982143113389611,
	"step": 55
	},
	{
	"completion_length": 637.7786003112793,
	"epoch": 0.128,
	"grad_norm": 0.7655097842216492,
	"kl": 0.005014801025390625,
	"learning_rate": 2.992947502998804e-06,
	"loss": 0.0002,
	"reward": 1.5817858844995498,
	"reward_std": 0.7063489355146885,
	"rewards/accuracy_reward": 0.7285714685916901,
	"rewards/cosine_scaled_reward": 0.4130358204245567,
	"rewards/format_reward": 0.0026785715483129023,
	"rewards/reasoning_steps_reward": 0.43750002793967724,
	"step": 60
	},
	{
	"completion_length": 619.2321716308594,
	"epoch": 0.13866666666666666,
	"grad_norm": 0.6214168667793274,
	"kl": 0.006450653076171875,
	"learning_rate": 2.9864889601923268e-06,
	"loss": 0.0003,
	"reward": 1.618351523578167,
	"reward_std": 0.6625145003199577,
	"rewards/accuracy_reward": 0.7232143163681031,
	"rewards/cosine_scaled_reward": 0.4254943021107465,
	"rewards/format_reward": 0.00357142873108387,
	"rewards/reasoning_steps_reward": 0.4660714641213417,
	"step": 65
	},
	{
	"completion_length": 620.4696716308594,
	"epoch": 0.14933333333333335,
	"grad_norm": 1.1358349323272705,
	"kl": 0.007819366455078126,
	"learning_rate": 2.977961291721137e-06,
	"loss": 0.0003,
	"reward": 1.809953036904335,
	"reward_std": 0.685565372928977,
	"rewards/accuracy_reward": 0.7589285969734192,
	"rewards/cosine_scaled_reward": 0.47126249115681274,
	"rewards/format_reward": 0.00714285746216774,
	"rewards/reasoning_steps_reward": 0.5726190894842148,
	"step": 70
	},
	{
	"completion_length": 591.2000267028809,
	"epoch": 0.16,
	"grad_norm": 0.9748697876930237,
	"kl": 0.01055145263671875,
	"learning_rate": 2.9673763677155655e-06,
	"loss": 0.0004,
	"reward": 1.801955761015415,
	"reward_std": 0.6809038281440735,
	"rewards/accuracy_reward": 0.7410714589059353,
	"rewards/cosine_scaled_reward": 0.4311223858210724,
	"rewards/format_reward": 0.0053571430966258046,
	"rewards/reasoning_steps_reward": 0.6244048129767179,
	"step": 75
	},
	{
	"completion_length": 604.2036003112793,
	"epoch": 0.17066666666666666,
	"grad_norm": 0.41957351565361023,
	"kl": 0.01427001953125,
	"learning_rate": 2.9547489219129666e-06,
	"loss": 0.0006,
	"reward": 1.9645369604229928,
	"reward_std": 0.5586295232176781,
	"rewards/accuracy_reward": 0.8053571732714773,
	"rewards/cosine_scaled_reward": 0.4785249759210274,
	"rewards/format_reward": 0.0026785715483129023,
	"rewards/reasoning_steps_reward": 0.6779762431979179,
	"step": 80
	},
	{
	"completion_length": 654.9571723937988,
	"epoch": 0.18133333333333335,
	"grad_norm": 0.5244520306587219,
	"kl": 0.01689453125,
	"learning_rate": 2.9400965311490175e-06,
	"loss": 0.0007,
	"reward": 1.9714522436261177,
	"reward_std": 0.654699632152915,
	"rewards/accuracy_reward": 0.7232143158093095,
	"rewards/cosine_scaled_reward": 0.4538926437497139,
	"rewards/format_reward": 0.0026785715483129023,
	"rewards/reasoning_steps_reward": 0.7916667237877846,
	"step": 85
	},
	{
	"completion_length": 635.4571701049805,
	"epoch": 0.192,
	"grad_norm": 0.5995980501174927,
	"kl": 0.0202392578125,
	"learning_rate": 2.9234395908915565e-06,
	"loss": 0.0008,
	"reward": 1.9059573337435722,
	"reward_std": 0.6402278915047646,
	"rewards/accuracy_reward": 0.6857143208384514,
	"rewards/cosine_scaled_reward": 0.3851239001378417,
	"rewards/format_reward": 0.001785714365541935,
	"rewards/reasoning_steps_reward": 0.8333333969116211,
	"step": 90
	},
	{
	"completion_length": 646.8857414245606,
	"epoch": 0.20266666666666666,
	"grad_norm": 0.3573947846889496,
	"kl": 0.02309417724609375,
	"learning_rate": 2.904801286851009e-06,
	"loss": 0.0009,
	"reward": 2.067735290527344,
	"reward_std": 0.5824727656319737,
	"rewards/accuracy_reward": 0.739285740442574,
	"rewards/cosine_scaled_reward": 0.45374711682088675,
	"rewards/format_reward": 0.0026785715483129023,
	"rewards/reasoning_steps_reward": 0.8720238715410232,
	"step": 95
	},
	{
	"completion_length": 617.1839553833008,
	"epoch": 0.21333333333333335,
	"grad_norm": 0.4597730338573456,
	"kl": 0.0259674072265625,
	"learning_rate": 2.884207562706925e-06,
	"loss": 0.001,
	"reward": 2.1270981818437575,
	"reward_std": 0.5901715014129877,
	"rewards/accuracy_reward": 0.7750000283122063,
	"rewards/cosine_scaled_reward": 0.49138382682576776,
	"rewards/format_reward": 0.001785714365541935,
	"rewards/reasoning_steps_reward": 0.858928632736206,
	"step": 100
	},
	{
	"epoch": 0.21333333333333335,
	"eval_completion_length": 645.8245434692383,
	"eval_kl": 0.0286726806640625,
	"eval_loss": 0.0011589155765250325,
	"eval_reward": 1.9586333739757538,
	"eval_reward_std": 0.6544256884813309,
	"eval_rewards/accuracy_reward": 0.667685743278265,
	"eval_rewards/cosine_scaled_reward": 0.38711901631861545,
	"eval_rewards/format_reward": 0.0034000001534819605,
	"eval_rewards/reasoning_steps_reward": 0.9004286315560341,
	"eval_runtime": 30593.3304,
	"eval_samples_per_second": 0.163,
	"eval_steps_per_second": 0.012,
	"step": 100
	},
	{
	"completion_length": 666.8482437133789,
	"epoch": 0.224,
	"grad_norm": 0.3493061065673828,
	"kl": 0.027435302734375,
	"learning_rate": 2.8616870839955444e-06,
	"loss": 0.0011,
	"reward": 2.089837631583214,
	"reward_std": 0.6151095872744918,
	"rewards/accuracy_reward": 0.7214286036789417,
	"rewards/cosine_scaled_reward": 0.44727803440764546,
	"rewards/format_reward": 0.0026785715483129023,
	"rewards/reasoning_steps_reward": 0.9184524416923523,
	"step": 105
	},
	{
	"completion_length": 689.3928901672364,
	"epoch": 0.23466666666666666,
	"grad_norm": 0.7455374002456665,
	"kl": 0.0316131591796875,
	"learning_rate": 2.837271198208662e-06,
	"loss": 0.0013,
	"reward": 2.129907730221748,
	"reward_std": 0.5857493598014116,
	"rewards/accuracy_reward": 0.7428571671247483,
	"rewards/cosine_scaled_reward": 0.47633622232824563,
	"rewards/format_reward": 0.001785714365541935,
	"rewards/reasoning_steps_reward": 0.9089286178350449,
	"step": 110
	},
	{
	"completion_length": 648.7071731567382,
	"epoch": 0.24533333333333332,
	"grad_norm": 0.423718124628067,
	"kl": 0.0330322265625,
	"learning_rate": 2.8109938911593322e-06,
	"loss": 0.0013,
	"reward": 2.1340139895677566,
	"reward_std": 0.5813389342278242,
	"rewards/accuracy_reward": 0.7232143152505159,
	"rewards/cosine_scaled_reward": 0.4527639038278721,
	"rewards/format_reward": 0.008035714644938708,
	"rewards/reasoning_steps_reward": 0.9500000536441803,
	"step": 115
	},
	{
	"completion_length": 669.1518165588379,
	"epoch": 0.256,
	"grad_norm": 0.5140184760093689,
	"kl": 0.0355621337890625,
	"learning_rate": 2.7828917396751474e-06,
	"loss": 0.0015,
	"reward": 2.123083771765232,
	"reward_std": 0.6066710935905576,
	"rewards/accuracy_reward": 0.7285714626312256,
	"rewards/cosine_scaled_reward": 0.4486789128568489,
	"rewards/format_reward": 0.00357142873108387,
	"rewards/reasoning_steps_reward": 0.9422619551420212,
	"step": 120
	},
	{
	"completion_length": 651.8714584350586,
	"epoch": 0.26666666666666666,
	"grad_norm": 14.626392364501953,
	"kl": 0.054949951171875,
	"learning_rate": 2.753003860684943e-06,
	"loss": 0.0022,
	"reward": 2.238000822067261,
	"reward_std": 0.6136660899966955,
	"rewards/accuracy_reward": 0.7803571730852127,
	"rewards/cosine_scaled_reward": 0.5305602598935366,
	"rewards/format_reward": 0.00625000037252903,
	"rewards/reasoning_steps_reward": 0.9208333969116211,
	"step": 125
	},
	{
	"completion_length": 687.6518211364746,
	"epoch": 0.2773333333333333,
	"grad_norm": 0.4999578297138214,
	"kl": 0.0349700927734375,
	"learning_rate": 2.721371856769793e-06,
	"loss": 0.0014,
	"reward": 2.085830058157444,
	"reward_std": 0.5865108415484428,
	"rewards/accuracy_reward": 0.6946428868919611,
	"rewards/cosine_scaled_reward": 0.4269014226272702,
	"rewards/format_reward": 0.010714286193251609,
	"rewards/reasoning_steps_reward": 0.9535714745521545,
	"step": 130
	},
	{
	"completion_length": 625.8964546203613,
	"epoch": 0.288,
	"grad_norm": 0.5372105240821838,
	"kl": 0.039947509765625,
	"learning_rate": 2.688039758254093e-06,
	"loss": 0.0016,
	"reward": 2.243368774652481,
	"reward_std": 0.6026589145883918,
	"rewards/accuracy_reward": 0.7750000316649676,
	"rewards/cosine_scaled_reward": 0.4892020009458065,
	"rewards/format_reward": 0.01428571492433548,
	"rewards/reasoning_steps_reward": 0.9648810073733329,
	"step": 135
	},
	{
	"completion_length": 657.5696739196777,
	"epoch": 0.2986666666666667,
	"grad_norm": 0.6321460008621216,
	"kl": 0.0416748046875,
	"learning_rate": 2.65305396191733e-06,
	"loss": 0.0017,
	"reward": 2.1084320515394213,
	"reward_std": 0.7091156661510467,
	"rewards/accuracy_reward": 0.7071428887546063,
	"rewards/cosine_scaled_reward": 0.42956293127499523,
	"rewards/format_reward": 0.01696428647264838,
	"rewards/reasoning_steps_reward": 0.9547619611024857,
	"step": 140
	},
	{
	"completion_length": 669.2839614868165,
	"epoch": 0.30933333333333335,
	"grad_norm": 0.4815462529659271,
	"kl": 0.0447967529296875,
	"learning_rate": 2.61646316641186e-06,
	"loss": 0.0018,
	"reward": 2.022332654893398,
	"reward_std": 0.6810956679284572,
	"rewards/accuracy_reward": 0.6750000305473804,
	"rewards/cosine_scaled_reward": 0.4035826030303724,
	"rewards/format_reward": 0.009821429010480642,
	"rewards/reasoning_steps_reward": 0.9339286148548126,
	"step": 145
	},
	{
	"completion_length": 647.9393119812012,
	"epoch": 0.32,
	"grad_norm": 0.4961049556732178,
	"kl": 0.0510009765625,
	"learning_rate": 2.5783183044765715e-06,
	"loss": 0.002,
	"reward": 1.9679424732923507,
	"reward_std": 0.7103641763329506,
	"rewards/accuracy_reward": 0.6678571719676256,
	"rewards/cosine_scaled_reward": 0.3926447768812068,
	"rewards/format_reward": 0.008035714644938708,
	"rewards/reasoning_steps_reward": 0.8994048193097115,
	"step": 150
	},
	{
	"completion_length": 625.0803840637207,
	"epoch": 0.33066666666666666,
	"grad_norm": 0.5056385397911072,
	"kl": 0.06827392578125,
	"learning_rate": 2.5386724720408135e-06,
	"loss": 0.0027,
	"reward": 2.0651650190353394,
	"reward_std": 0.6431151006370783,
	"rewards/accuracy_reward": 0.7375000286847353,
	"rewards/cosine_scaled_reward": 0.45712922792881727,
	"rewards/format_reward": 0.009821429010480642,
	"rewards/reasoning_steps_reward": 0.860714353621006,
	"step": 155
	},
	{
	"completion_length": 611.2964599609375,
	"epoch": 0.3413333333333333,
	"grad_norm": 0.4566061794757843,
	"kl": 0.08109130859375,
	"learning_rate": 2.49758085431725e-06,
	"loss": 0.0032,
	"reward": 2.0270636796951296,
	"reward_std": 0.6181262265890837,
	"rewards/accuracy_reward": 0.7464285964146257,
	"rewards/cosine_scaled_reward": 0.43301601126149764,
	"rewards/format_reward": 0.012500000558793545,
	"rewards/reasoning_steps_reward": 0.8351191088557244,
	"step": 160
	},
	{
	"completion_length": 643.8536026000977,
	"epoch": 0.352,
	"grad_norm": 0.3811902403831482,
	"kl": 0.12118072509765625,
	"learning_rate": 2.455100648986533e-06,
	"loss": 0.0048,
	"reward": 1.9545473739504815,
	"reward_std": 0.7556829001754523,
	"rewards/accuracy_reward": 0.6857143171131611,
	"rewards/cosine_scaled_reward": 0.40722584864124656,
	"rewards/format_reward": 0.008035714644938708,
	"rewards/reasoning_steps_reward": 0.8535714909434319,
	"step": 165
	},
	{
	"completion_length": 666.0553924560547,
	"epoch": 0.3626666666666667,
	"grad_norm": 0.5245673656463623,
	"kl": 0.1458251953125,
	"learning_rate": 2.4112909865807053e-06,
	"loss": 0.0058,
	"reward": 1.7782447993755341,
	"reward_std": 0.7516406249254942,
	"rewards/accuracy_reward": 0.6017857398837805,
	"rewards/cosine_scaled_reward": 0.32050663968548176,
	"rewards/format_reward": 0.008928571827709675,
	"rewards/reasoning_steps_reward": 0.8470238700509072,
	"step": 170
	},
	{
	"completion_length": 656.5375297546386,
	"epoch": 0.37333333333333335,
	"grad_norm": 0.3452568054199219,
	"kl": 0.100311279296875,
	"learning_rate": 2.366212848176164e-06,
	"loss": 0.004,
	"reward": 2.048972634971142,
	"reward_std": 0.706931572034955,
	"rewards/accuracy_reward": 0.7178571790456771,
	"rewards/cosine_scaled_reward": 0.4686154007911682,
	"rewards/format_reward": 0.0053571430966258046,
	"rewards/reasoning_steps_reward": 0.8571429222822189,
	"step": 175
	},
	{
	"completion_length": 625.3053825378418,
	"epoch": 0.384,
	"grad_norm": 0.7150533199310303,
	"kl": 0.1327392578125,
	"learning_rate": 2.319928980510752e-06,
	"loss": 0.0053,
	"reward": 1.9931991159915925,
	"reward_std": 0.7508711714297533,
	"rewards/accuracy_reward": 0.7053571753203869,
	"rewards/cosine_scaled_reward": 0.4312942801974714,
	"rewards/format_reward": 0.012500000651925802,
	"rewards/reasoning_steps_reward": 0.8440476790070534,
	"step": 180
	},
	{
	"completion_length": 662.8018127441406,
	"epoch": 0.39466666666666667,
	"grad_norm": 0.5048078894615173,
	"kl": 0.2526092529296875,
	"learning_rate": 2.272503808643123e-06,
	"loss": 0.0101,
	"reward": 1.6179989255964755,
	"reward_std": 0.826694194227457,
	"rewards/accuracy_reward": 0.5803571738302707,
	"rewards/cosine_scaled_reward": 0.283177447039634,
	"rewards/format_reward": 0.009821429010480642,
	"rewards/reasoning_steps_reward": 0.7446429103612899,
	"step": 185
	},
	{
	"completion_length": 612.7518165588378,
	"epoch": 0.4053333333333333,
	"grad_norm": 15.008540153503418,
	"kl": 0.2234375,
	"learning_rate": 2.2240033462759628e-06,
	"loss": 0.0089,
	"reward": 1.8689126953482629,
	"reward_std": 0.8196798441931605,
	"rewards/accuracy_reward": 0.6892857480794191,
	"rewards/cosine_scaled_reward": 0.38706737738102676,
	"rewards/format_reward": 0.0062500002793967726,
	"rewards/reasoning_steps_reward": 0.786309577524662,
	"step": 190
	},
	{
	"completion_length": 636.9143135070801,
	"epoch": 0.416,
	"grad_norm": 1.8482682704925537,
	"kl": 0.1047210693359375,
	"learning_rate": 2.1744951038678905e-06,
	"loss": 0.0042,
	"reward": 2.1131999254226685,
	"reward_std": 0.6497842017561197,
	"rewards/accuracy_reward": 0.7464286003261804,
	"rewards/cosine_scaled_reward": 0.475997456186451,
	"rewards/format_reward": 0.011607143562287092,
	"rewards/reasoning_steps_reward": 0.8791667327284813,
	"step": 195
	},
	{
	"completion_length": 643.9375305175781,
	"epoch": 0.4266666666666667,
	"grad_norm": 1.6493088006973267,
	"kl": 0.1329986572265625,
	"learning_rate": 2.124047994661941e-06,
	"loss": 0.0053,
	"reward": 2.1098326206207276,
	"reward_std": 0.6796215798705816,
	"rewards/accuracy_reward": 0.7250000312924385,
	"rewards/cosine_scaled_reward": 0.4544754126574844,
	"rewards/format_reward": 0.019642858114093543,
	"rewards/reasoning_steps_reward": 0.9107143446803093,
	"step": 200
	},
	{
	"epoch": 0.4266666666666667,
	"eval_completion_length": 658.4622008789063,
	"eval_kl": 0.16044462890625,
	"eval_loss": 0.006352806463837624,
	"eval_reward": 2.0124860629320143,
	"eval_reward_std": 0.7236331352472305,
	"eval_rewards/accuracy_reward": 0.6609143146038056,
	"eval_rewards/cosine_scaled_reward": 0.3881764653600403,
	"eval_rewards/format_reward": 0.03644285902827978,
	"eval_rewards/reasoning_steps_reward": 0.9269524365663528,
	"eval_runtime": 39396.7661,
	"eval_samples_per_second": 0.127,
	"eval_steps_per_second": 0.009,
	"step": 200
	},
	{
	"completion_length": 664.1589576721192,
	"epoch": 0.43733333333333335,
	"grad_norm": 0.5569435358047485,
	"kl": 0.1752899169921875,
	"learning_rate": 2.072732238761434e-06,
	"loss": 0.007,
	"reward": 2.151426687836647,
	"reward_std": 0.6980113681405783,
	"rewards/accuracy_reward": 0.732142886519432,
	"rewards/cosine_scaled_reward": 0.4615456376457587,
	"rewards/format_reward": 0.03750000176951289,
	"rewards/reasoning_steps_reward": 0.9202381521463394,
	"step": 205
	},
	{
	"completion_length": 638.1839584350586,
	"epoch": 0.448,
	"grad_norm": 0.8609623312950134,
	"kl": 0.1427032470703125,
	"learning_rate": 2.0206192653867536e-06,
	"loss": 0.0057,
	"reward": 2.260927739739418,
	"reward_std": 0.6022655628621578,
	"rewards/accuracy_reward": 0.7767857406288385,
	"rewards/cosine_scaled_reward": 0.5171776844188571,
	"rewards/format_reward": 0.045535716507583854,
	"rewards/reasoning_steps_reward": 0.9214286223053932,
	"step": 210
	},
	{
	"completion_length": 723.9089622497559,
	"epoch": 0.45866666666666667,
	"grad_norm": 1.7239713668823242,
	"kl": 0.304364013671875,
	"learning_rate": 1.967781613449095e-06,
	"loss": 0.0122,
	"reward": 1.6578506268560886,
	"reward_std": 0.8106920622289181,
	"rewards/accuracy_reward": 0.5500000214204193,
	"rewards/cosine_scaled_reward": 0.2706481910310686,
	"rewards/format_reward": 0.020535715389996767,
	"rewards/reasoning_steps_reward": 0.8166667185723782,
	"step": 215
	},
	{
	"completion_length": 722.1321716308594,
	"epoch": 0.4693333333333333,
	"grad_norm": 3.4466731548309326,
	"kl": 0.541461181640625,
	"learning_rate": 1.9142928305795637e-06,
	"loss": 0.0217,
	"reward": 1.1115448012948037,
	"reward_std": 0.9772109590470791,
	"rewards/accuracy_reward": 0.3910714492201805,
	"rewards/cosine_scaled_reward": 0.09517570563766639,
	"rewards/format_reward": 0.01339285783469677,
	"rewards/reasoning_steps_reward": 0.6119048058986664,
	"step": 220
	},
	{
	"completion_length": 655.9178810119629,
	"epoch": 0.48,
	"grad_norm": 0.7818121910095215,
	"kl": 0.38446044921875,
	"learning_rate": 1.8602273707541886e-06,
	"loss": 0.0154,
	"reward": 1.443753632903099,
	"reward_std": 1.1735275402665137,
	"rewards/accuracy_reward": 0.5517857423052192,
	"rewards/cosine_scaled_reward": 0.263098827842623,
	"rewards/format_reward": 0.022321429569274187,
	"rewards/reasoning_steps_reward": 0.6065476641058922,
	"step": 225
	},
	{
	"completion_length": 669.6357391357421,
	"epoch": 0.49066666666666664,
	"grad_norm": 0.3009130656719208,
	"kl": 0.186187744140625,
	"learning_rate": 1.8056604906573418e-06,
	"loss": 0.0074,
	"reward": 1.8981928735971452,
	"reward_std": 0.8392410669475794,
	"rewards/accuracy_reward": 0.6964286047965288,
	"rewards/cosine_scaled_reward": 0.438073761574924,
	"rewards/format_reward": 0.012500000558793545,
	"rewards/reasoning_steps_reward": 0.7511905305087566,
	"step": 230
	},
	{
	"completion_length": 653.5732406616211,
	"epoch": 0.5013333333333333,
	"grad_norm": 4.625399589538574,
	"kl": 0.05731353759765625,
	"learning_rate": 1.7506681449278226e-06,
	"loss": 0.0023,
	"reward": 2.11394245326519,
	"reward_std": 0.6526154175400734,
	"rewards/accuracy_reward": 0.7375000312924385,
	"rewards/cosine_scaled_reward": 0.4865614231675863,
	"rewards/format_reward": 0.021428572479635477,
	"rewards/reasoning_steps_reward": 0.8684524416923523,
	"step": 235
	},
	{
	"completion_length": 645.69467086792,
	"epoch": 0.512,
	"grad_norm": 0.2851395606994629,
	"kl": 0.050042724609375,
	"learning_rate": 1.6953268804334257e-06,
	"loss": 0.002,
	"reward": 2.228366295993328,
	"reward_std": 0.5444579780101776,
	"rewards/accuracy_reward": 0.7642857372760773,
	"rewards/cosine_scaled_reward": 0.514675722271204,
	"rewards/format_reward": 0.03392857322469354,
	"rewards/reasoning_steps_reward": 0.9154762506484986,
	"step": 240
	},
	{
	"completion_length": 632.8053848266602,
	"epoch": 0.5226666666666666,
	"grad_norm": 0.34539249539375305,
	"kl": 0.0962860107421875,
	"learning_rate": 1.6397137297211436e-06,
	"loss": 0.0039,
	"reward": 2.337542861700058,
	"reward_std": 0.557469642162323,
	"rewards/accuracy_reward": 0.8142857376486063,
	"rewards/cosine_scaled_reward": 0.553614255785942,
	"rewards/format_reward": 0.041071430593729016,
	"rewards/reasoning_steps_reward": 0.9285714775323868,
	"step": 245
	},
	{
	"completion_length": 659.1518135070801,
	"epoch": 0.5333333333333333,
	"grad_norm": 0.30278754234313965,
	"kl": 0.0599609375,
	"learning_rate": 1.5839061037913395e-06,
	"loss": 0.0024,
	"reward": 2.421455779671669,
	"reward_std": 0.5301560776308178,
	"rewards/accuracy_reward": 0.8410714566707611,
	"rewards/cosine_scaled_reward": 0.6059795372188092,
	"rewards/format_reward": 0.028571429941803218,
	"rewards/reasoning_steps_reward": 0.9458333805203438,
	"step": 250
	},
	{
	"completion_length": 713.3518188476562,
	"epoch": 0.544,
	"grad_norm": 0.3068905770778656,
	"kl": 0.0843505859375,
	"learning_rate": 1.527981684345115e-06,
	"loss": 0.0034,
	"reward": 2.1079654544591904,
	"reward_std": 0.6414080807939172,
	"rewards/accuracy_reward": 0.7000000279396772,
	"rewards/cosine_scaled_reward": 0.4207629946060479,
	"rewards/format_reward": 0.03482143022119999,
	"rewards/reasoning_steps_reward": 0.9523809969425201,
	"step": 255
	},
	{
	"completion_length": 707.9411071777344,
	"epoch": 0.5546666666666666,
	"grad_norm": 0.33481159806251526,
	"kl": 0.07261962890625,
	"learning_rate": 1.4720183156548855e-06,
	"loss": 0.0029,
	"reward": 2.2514570981264113,
	"reward_std": 0.6310873694717885,
	"rewards/accuracy_reward": 0.7321428906172514,
	"rewards/cosine_scaled_reward": 0.5041355590336025,
	"rewards/format_reward": 0.05089285969734192,
	"rewards/reasoning_steps_reward": 0.9642857611179352,
	"step": 260
	},
	{
	"completion_length": 718.3107444763184,
	"epoch": 0.5653333333333334,
	"grad_norm": 0.38096827268600464,
	"kl": 0.08720703125,
	"learning_rate": 1.4160938962086612e-06,
	"loss": 0.0035,
	"reward": 2.1334225252270698,
	"reward_std": 0.6659108363091946,
	"rewards/accuracy_reward": 0.7035714538767934,
	"rewards/cosine_scaled_reward": 0.44383912505581974,
	"rewards/format_reward": 0.04732143105939031,
	"rewards/reasoning_steps_reward": 0.9386905342340469,
	"step": 265
	},
	{
	"completion_length": 691.2268180847168,
	"epoch": 0.576,
	"grad_norm": 0.28566083312034607,
	"kl": 0.088311767578125,
	"learning_rate": 1.3602862702788567e-06,
	"loss": 0.0035,
	"reward": 2.2702409833669663,
	"reward_std": 0.6507027853280306,
	"rewards/accuracy_reward": 0.7500000327825547,
	"rewards/cosine_scaled_reward": 0.508336108038202,
	"rewards/format_reward": 0.057142859976738694,
	"rewards/reasoning_steps_reward": 0.9547619566321373,
	"step": 270
	},
	{
	"completion_length": 688.7464607238769,
	"epoch": 0.5866666666666667,
	"grad_norm": 0.35180163383483887,
	"kl": 0.0841522216796875,
	"learning_rate": 1.3046731195665748e-06,
	"loss": 0.0034,
	"reward": 2.3181463330984116,
	"reward_std": 0.6268971297889948,
	"rewards/accuracy_reward": 0.7696428872644901,
	"rewards/cosine_scaled_reward": 0.5246938619762659,
	"rewards/format_reward": 0.06785714644938708,
	"rewards/reasoning_steps_reward": 0.9559524253010749,
	"step": 275
	},
	{
	"completion_length": 687.6589630126953,
	"epoch": 0.5973333333333334,
	"grad_norm": 0.3075723648071289,
	"kl": 0.0902801513671875,
	"learning_rate": 1.2493318550721775e-06,
	"loss": 0.0036,
	"reward": 2.242439457774162,
	"reward_std": 0.6110217805951834,
	"rewards/accuracy_reward": 0.7375000305473804,
	"rewards/cosine_scaled_reward": 0.49422508366405965,
	"rewards/format_reward": 0.0678571461699903,
	"rewards/reasoning_steps_reward": 0.9428571984171867,
	"step": 280
	},
	{
	"completion_length": 702.2446731567383,
	"epoch": 0.608,
	"grad_norm": 0.3365749716758728,
	"kl": 0.1429901123046875,
	"learning_rate": 1.1943395093426585e-06,
	"loss": 0.0057,
	"reward": 2.236051079630852,
	"reward_std": 0.6939984124153853,
	"rewards/accuracy_reward": 0.7464286036789417,
	"rewards/cosine_scaled_reward": 0.515515277441591,
	"rewards/format_reward": 0.06517857508733868,
	"rewards/reasoning_steps_reward": 0.9089286342263222,
	"step": 285
	},
	{
	"completion_length": 667.2232437133789,
	"epoch": 0.6186666666666667,
	"grad_norm": 0.3665401041507721,
	"kl": 0.1312591552734375,
	"learning_rate": 1.1397726292458115e-06,
	"loss": 0.0053,
	"reward": 2.2684289827942847,
	"reward_std": 0.6653882045298815,
	"rewards/accuracy_reward": 0.751785746589303,
	"rewards/cosine_scaled_reward": 0.5151550889015197,
	"rewards/format_reward": 0.07410714691504836,
	"rewards/reasoning_steps_reward": 0.927381020784378,
	"step": 290
	},
	{
	"completion_length": 723.4911033630372,
	"epoch": 0.6293333333333333,
	"grad_norm": 0.25975558161735535,
	"kl": 0.14805908203125,
	"learning_rate": 1.085707169420437e-06,
	"loss": 0.0059,
	"reward": 2.1135958269238473,
	"reward_std": 0.6525055527687073,
	"rewards/accuracy_reward": 0.6732143115252256,
	"rewards/cosine_scaled_reward": 0.4448457522317767,
	"rewards/format_reward": 0.08660714710131287,
	"rewards/reasoning_steps_reward": 0.9089286252856255,
	"step": 295
	},
	{
	"completion_length": 685.9928894042969,
	"epoch": 0.64,
	"grad_norm": 0.32239413261413574,
	"kl": 0.1186309814453125,
	"learning_rate": 1.0322183865509054e-06,
	"loss": 0.0047,
	"reward": 2.3491215094923974,
	"reward_std": 0.6740828949958086,
	"rewards/accuracy_reward": 0.7928571742027998,
	"rewards/cosine_scaled_reward": 0.5387047556228935,
	"rewards/format_reward": 0.11339286286383868,
	"rewards/reasoning_steps_reward": 0.9041667297482491,
	"step": 300
	},
	{
	"epoch": 0.64,
	"eval_completion_length": 692.8417169921875,
	"eval_kl": 0.126764990234375,
	"eval_loss": 0.005116811487823725,
	"eval_reward": 2.1439696138501168,
	"eval_reward_std": 0.7277915328145027,
	"eval_rewards/accuracy_reward": 0.6845143143117428,
	"eval_rewards/cosine_scaled_reward": 0.44376001094253736,
	"eval_rewards/format_reward": 0.10977143388986588,
	"eval_rewards/reasoning_steps_reward": 0.9059238699197769,
	"eval_runtime": 39599.431,
	"eval_samples_per_second": 0.126,
	"eval_steps_per_second": 0.009,
	"step": 300
	},
	{
	"completion_length": 699.3339584350585,
	"epoch": 0.6506666666666666,
	"grad_norm": 0.3004523515701294,
	"kl": 0.1110198974609375,
	"learning_rate": 9.793807346132464e-07,
	"loss": 0.0044,
	"reward": 2.2790004700422286,
	"reward_std": 0.7021285973489284,
	"rewards/accuracy_reward": 0.7607143171131611,
	"rewards/cosine_scaled_reward": 0.5272146660834551,
	"rewards/format_reward": 0.09107143292203546,
	"rewards/reasoning_steps_reward": 0.9000000640749931,
	"step": 305
	},
	{
	"completion_length": 699.3411010742187,
	"epoch": 0.6613333333333333,
	"grad_norm": 0.29891085624694824,
	"kl": 0.13359375,
	"learning_rate": 9.272677612385667e-07,
	"loss": 0.0053,
	"reward": 2.1629825204610826,
	"reward_std": 0.6936808105558157,
	"rewards/accuracy_reward": 0.7142857410013675,
	"rewards/cosine_scaled_reward": 0.46447055372409524,
	"rewards/format_reward": 0.097321433480829,
	"rewards/reasoning_steps_reward": 0.8869048282504082,
	"step": 310
	},
	{
	"completion_length": 706.1196708679199,
	"epoch": 0.672,
	"grad_norm": 0.3089028596878052,
	"kl": 0.1456146240234375,
	"learning_rate": 8.759520053380591e-07,
	"loss": 0.0058,
	"reward": 2.1019979074597357,
	"reward_std": 0.740777799114585,
	"rewards/accuracy_reward": 0.6803571773692966,
	"rewards/cosine_scaled_reward": 0.44158115636964795,
	"rewards/format_reward": 0.08839286118745804,
	"rewards/reasoning_steps_reward": 0.8916667312383652,
	"step": 315
	},
	{
	"completion_length": 669.9286071777344,
	"epoch": 0.6826666666666666,
	"grad_norm": 0.6965083479881287,
	"kl": 0.145257568359375,
	"learning_rate": 8.255048961321088e-07,
	"loss": 0.0058,
	"reward": 2.272875265777111,
	"reward_std": 0.7233634147793054,
	"rewards/accuracy_reward": 0.7553571749478578,
	"rewards/cosine_scaled_reward": 0.5264466149732471,
	"rewards/format_reward": 0.10892857704311609,
	"rewards/reasoning_steps_reward": 0.8821429207921028,
	"step": 320
	},
	{
	"completion_length": 692.9786003112793,
	"epoch": 0.6933333333333334,
	"grad_norm": 0.33192208409309387,
	"kl": 0.1722869873046875,
	"learning_rate": 7.759966537240373e-07,
	"loss": 0.0069,
	"reward": 2.169807307422161,
	"reward_std": 0.8210989892482757,
	"rewards/accuracy_reward": 0.7089285964146257,
	"rewards/cosine_scaled_reward": 0.4582000946626067,
	"rewards/format_reward": 0.11160714961588383,
	"rewards/reasoning_steps_reward": 0.8910714894533157,
	"step": 325
	},
	{
	"completion_length": 705.5911056518555,
	"epoch": 0.704,
	"grad_norm": 0.5306978821754456,
	"kl": 0.24217529296875,
	"learning_rate": 7.274961913568773e-07,
	"loss": 0.0097,
	"reward": 2.0500947162508965,
	"reward_std": 0.8266730591654777,
	"rewards/accuracy_reward": 0.667857170663774,
	"rewards/cosine_scaled_reward": 0.44116610190831124,
	"rewards/format_reward": 0.11071429131552576,
	"rewards/reasoning_steps_reward": 0.8303571999073028,
	"step": 330
	},
	{
	"completion_length": 731.1839591979981,
	"epoch": 0.7146666666666667,
	"grad_norm": 0.4849264919757843,
	"kl": 0.2579345703125,
	"learning_rate": 6.800710194892484e-07,
	"loss": 0.0103,
	"reward": 1.9499552190303802,
	"reward_std": 0.9148915704339743,
	"rewards/accuracy_reward": 0.6428571701049804,
	"rewards/cosine_scaled_reward": 0.3943003877531737,
	"rewards/format_reward": 0.10267857694998384,
	"rewards/reasoning_steps_reward": 0.8101191118359565,
	"step": 335
	},
	{
	"completion_length": 733.7321731567383,
	"epoch": 0.7253333333333334,
	"grad_norm": 0.6697672009468079,
	"kl": 0.3463623046875,
	"learning_rate": 6.33787151823836e-07,
	"loss": 0.0139,
	"reward": 1.6754619617015123,
	"reward_std": 1.0652375385165214,
	"rewards/accuracy_reward": 0.5571428790688515,
	"rewards/cosine_scaled_reward": 0.29867618879216024,
	"rewards/format_reward": 0.07500000381842256,
	"rewards/reasoning_steps_reward": 0.7446429077535868,
	"step": 340
	},
	{
	"completion_length": 708.6964599609375,
	"epoch": 0.736,
	"grad_norm": 0.342541366815567,
	"kl": 0.3625,
	"learning_rate": 5.887090134192947e-07,
	"loss": 0.0145,
	"reward": 1.7074500739574432,
	"reward_std": 1.06461516097188,
	"rewards/accuracy_reward": 0.5910714540630579,
	"rewards/cosine_scaled_reward": 0.3163785987533629,
	"rewards/format_reward": 0.07321428908035159,
	"rewards/reasoning_steps_reward": 0.7267857655882836,
	"step": 345
	},
	{
	"completion_length": 741.1839630126954,
	"epoch": 0.7466666666666667,
	"grad_norm": 0.5499653816223145,
	"kl": 0.4493896484375,
	"learning_rate": 5.448993510134669e-07,
	"loss": 0.018,
	"reward": 1.4979531578719616,
	"reward_std": 1.063758409768343,
	"rewards/accuracy_reward": 0.5339285928755999,
	"rewards/cosine_scaled_reward": 0.2485483249882236,
	"rewards/format_reward": 0.06071428917348385,
	"rewards/reasoning_steps_reward": 0.6547619514167309,
	"step": 350
	},
	{
	"completion_length": 718.5732467651367,
	"epoch": 0.7573333333333333,
	"grad_norm": 0.8918161988258362,
	"kl": 0.5351806640625,
	"learning_rate": 5.024191456827498e-07,
	"loss": 0.0214,
	"reward": 1.2987217612564563,
	"reward_std": 1.1655599363148212,
	"rewards/accuracy_reward": 0.49464288353919983,
	"rewards/cosine_scaled_reward": 0.19366217765491456,
	"rewards/format_reward": 0.04017857378348708,
	"rewards/reasoning_steps_reward": 0.5702381379902363,
	"step": 355
	},
	{
	"completion_length": 703.1107444763184,
	"epoch": 0.768,
	"grad_norm": 0.3764072358608246,
	"kl": 0.4150390625,
	"learning_rate": 4.6132752795918667e-07,
	"loss": 0.0166,
	"reward": 1.4548213778063654,
	"reward_std": 1.117940279096365,
	"rewards/accuracy_reward": 0.5250000219792128,
	"rewards/cosine_scaled_reward": 0.25392846008762715,
	"rewards/format_reward": 0.054464288800954816,
	"rewards/reasoning_steps_reward": 0.6214286223053932,
	"step": 360
	},
	{
	"completion_length": 702.7321716308594,
	"epoch": 0.7786666666666666,
	"grad_norm": 0.536405086517334,
	"kl": 0.2932281494140625,
	"learning_rate": 4.2168169552342905e-07,
	"loss": 0.0117,
	"reward": 1.7472290426492691,
	"reward_std": 1.064868475496769,
	"rewards/accuracy_reward": 0.614285746589303,
	"rewards/cosine_scaled_reward": 0.35437183200847355,
	"rewards/format_reward": 0.06071428880095482,
	"rewards/reasoning_steps_reward": 0.7178571954369545,
	"step": 365
	},
	{
	"completion_length": 667.4143173217774,
	"epoch": 0.7893333333333333,
	"grad_norm": 1.1500115394592285,
	"kl": 0.255450439453125,
	"learning_rate": 3.8353683358814046e-07,
	"loss": 0.0102,
	"reward": 1.826224359869957,
	"reward_std": 0.9232858289033175,
	"rewards/accuracy_reward": 0.6482143169268966,
	"rewards/cosine_scaled_reward": 0.3732480947277509,
	"rewards/format_reward": 0.06607143199071289,
	"rewards/reasoning_steps_reward": 0.7386905357241631,
	"step": 370
	},
	{
	"completion_length": 681.9518119812012,
	"epoch": 0.8,
	"grad_norm": 0.8492513298988342,
	"kl": 0.2910614013671875,
	"learning_rate": 3.469460380826697e-07,
	"loss": 0.0117,
	"reward": 1.7300246395170689,
	"reward_std": 0.9816528409719467,
	"rewards/accuracy_reward": 0.6125000230967999,
	"rewards/cosine_scaled_reward": 0.3600841243751347,
	"rewards/format_reward": 0.052678574342280626,
	"rewards/reasoning_steps_reward": 0.7047619506716728,
	"step": 375
	},
	{
	"completion_length": 683.8536003112793,
	"epoch": 0.8106666666666666,
	"grad_norm": 0.43946385383605957,
	"kl": 0.35491943359375,
	"learning_rate": 3.119602417459075e-07,
	"loss": 0.0142,
	"reward": 1.6164295073598622,
	"reward_std": 1.0403125062584877,
	"rewards/accuracy_reward": 0.5767857421189546,
	"rewards/cosine_scaled_reward": 0.29619133038795553,
	"rewards/format_reward": 0.0482142879627645,
	"rewards/reasoning_steps_reward": 0.6952381365001201,
	"step": 380
	},
	{
	"completion_length": 661.137525177002,
	"epoch": 0.8213333333333334,
	"grad_norm": 0.5927759408950806,
	"kl": 0.251336669921875,
	"learning_rate": 2.786281432302071e-07,
	"loss": 0.0101,
	"reward": 1.8459785029292106,
	"reward_std": 0.8845801506191492,
	"rewards/accuracy_reward": 0.6821428865194321,
	"rewards/cosine_scaled_reward": 0.3781212717294693,
	"rewards/format_reward": 0.06428571781143547,
	"rewards/reasoning_steps_reward": 0.7214286215603352,
	"step": 385
	},
	{
	"completion_length": 700.2768203735352,
	"epoch": 0.832,
	"grad_norm": 0.5752273797988892,
	"kl": 0.379559326171875,
	"learning_rate": 2.46996139315057e-07,
	"loss": 0.0152,
	"reward": 1.6465823888778686,
	"reward_std": 1.0167622987180949,
	"rewards/accuracy_reward": 0.6142857445403933,
	"rewards/cosine_scaled_reward": 0.31146327857859435,
	"rewards/format_reward": 0.07500000344589353,
	"rewards/reasoning_steps_reward": 0.6458333857357502,
	"step": 390
	},
	{
	"completion_length": 688.6482421875,
	"epoch": 0.8426666666666667,
	"grad_norm": 0.41832882165908813,
	"kl": 0.379150390625,
	"learning_rate": 2.1710826032485286e-07,
	"loss": 0.0152,
	"reward": 1.6644656013697385,
	"reward_std": 0.9824759595096111,
	"rewards/accuracy_reward": 0.6250000283122062,
	"rewards/cosine_scaled_reward": 0.3260727058397606,
	"rewards/format_reward": 0.054464288614690305,
	"rewards/reasoning_steps_reward": 0.658928620070219,
	"step": 395
	},
	{
	"completion_length": 719.937533569336,
	"epoch": 0.8533333333333334,
	"grad_norm": 0.5534791350364685,
	"kl": 0.382177734375,
	"learning_rate": 1.8900610884066817e-07,
	"loss": 0.0153,
	"reward": 1.4879010431468487,
	"reward_std": 1.0550432510674,
	"rewards/accuracy_reward": 0.5410714585334062,
	"rewards/cosine_scaled_reward": 0.2453414467825496,
	"rewards/format_reward": 0.0491071455180645,
	"rewards/reasoning_steps_reward": 0.6523810014128685,
	"step": 400
	},
	{
	"epoch": 0.8533333333333334,
	"eval_completion_length": 695.8426594726562,
	"eval_kl": 0.383571875,
	"eval_loss": 0.015375643037259579,
	"eval_reward": 1.5146705395892262,
	"eval_reward_std": 1.0417588331997394,
	"eval_rewards/accuracy_reward": 0.5409714534372091,
	"eval_rewards/cosine_scaled_reward": 0.24984666706966235,
	"eval_rewards/format_reward": 0.060157146042585374,
	"eval_rewards/reasoning_steps_reward": 0.66369528632164,
	"eval_runtime": 40348.1586,
	"eval_samples_per_second": 0.124,
	"eval_steps_per_second": 0.009,
	"step": 400
	},
	{
	"completion_length": 709.2018096923828,
	"epoch": 0.864,
	"grad_norm": 0.37454745173454285,
	"kl": 0.43958740234375,
	"learning_rate": 1.627288017913383e-07,
	"loss": 0.0176,
	"reward": 1.5630248546600343,
	"reward_std": 1.0267837572842837,
	"rewards/accuracy_reward": 0.5678571719676256,
	"rewards/cosine_scaled_reward": 0.28772715290542694,
	"rewards/format_reward": 0.04910714561119676,
	"rewards/reasoning_steps_reward": 0.6583333760499954,
	"step": 405
	},
	{
	"completion_length": 715.1696792602539,
	"epoch": 0.8746666666666667,
	"grad_norm": 0.5133277773857117,
	"kl": 0.399395751953125,
	"learning_rate": 1.3831291600445573e-07,
	"loss": 0.016,
	"reward": 1.5371075724251568,
	"reward_std": 1.0601157665252685,
	"rewards/accuracy_reward": 0.553571455925703,
	"rewards/cosine_scaled_reward": 0.28829799513332544,
	"rewards/format_reward": 0.053571431431919336,
	"rewards/reasoning_steps_reward": 0.6416667148470878,
	"step": 410
	},
	{
	"completion_length": 693.0446723937988,
	"epoch": 0.8853333333333333,
	"grad_norm": 0.7482662200927734,
	"kl": 0.376470947265625,
	"learning_rate": 1.1579243729307487e-07,
	"loss": 0.0151,
	"reward": 1.516674379259348,
	"reward_std": 0.9749270871281623,
	"rewards/accuracy_reward": 0.560714315250516,
	"rewards/cosine_scaled_reward": 0.27411481700837614,
	"rewards/format_reward": 0.043750001955777405,
	"rewards/reasoning_steps_reward": 0.638095286488533,
	"step": 415
	},
	{
	"completion_length": 708.925032043457,
	"epoch": 0.896,
	"grad_norm": 0.38554155826568604,
	"kl": 0.4101318359375,
	"learning_rate": 9.519871314899092e-08,
	"loss": 0.0164,
	"reward": 1.5347512325271964,
	"reward_std": 1.034306138008833,
	"rewards/accuracy_reward": 0.585714316368103,
	"rewards/cosine_scaled_reward": 0.2793940259842202,
	"rewards/format_reward": 0.05000000260770321,
	"rewards/reasoning_steps_reward": 0.6196429081261158,
	"step": 420
	},
	{
	"completion_length": 692.3571731567383,
	"epoch": 0.9066666666666666,
	"grad_norm": 0.390541672706604,
	"kl": 0.294134521484375,
	"learning_rate": 7.656040910844358e-08,
	"loss": 0.0118,
	"reward": 1.7413318648934364,
	"reward_std": 0.9963843055069447,
	"rewards/accuracy_reward": 0.6285714589059352,
	"rewards/cosine_scaled_reward": 0.3463913181563839,
	"rewards/format_reward": 0.04732143124565482,
	"rewards/reasoning_steps_reward": 0.7190476730465889,
	"step": 425
	},
	{
	"completion_length": 683.8750282287598,
	"epoch": 0.9173333333333333,
	"grad_norm": 0.5177262425422668,
	"kl": 0.330364990234375,
	"learning_rate": 5.990346885098235e-08,
	"loss": 0.0132,
	"reward": 1.6970172494649887,
	"reward_std": 1.0683425880968571,
	"rewards/accuracy_reward": 0.6142857454717159,
	"rewards/cosine_scaled_reward": 0.3476124212145805,
	"rewards/format_reward": 0.057142860256135464,
	"rewards/reasoning_steps_reward": 0.6779762372374535,
	"step": 430
	},
	{
	"completion_length": 693.9232406616211,
	"epoch": 0.928,
	"grad_norm": 0.41641440987586975,
	"kl": 0.335888671875,
	"learning_rate": 4.5251078087033493e-08,
	"loss": 0.0134,
	"reward": 1.7540825940668583,
	"reward_std": 1.0200565621256827,
	"rewards/accuracy_reward": 0.6160714615136385,
	"rewards/cosine_scaled_reward": 0.35378490211442115,
	"rewards/format_reward": 0.06875000363215804,
	"rewards/reasoning_steps_reward": 0.7154762402176857,
	"step": 435
	},
	{
	"completion_length": 684.9786003112793,
	"epoch": 0.9386666666666666,
	"grad_norm": 0.6882645487785339,
	"kl": 0.365093994140625,
	"learning_rate": 3.262363228443427e-08,
	"loss": 0.0146,
	"reward": 1.6049893379211426,
	"reward_std": 0.9915731698274612,
	"rewards/accuracy_reward": 0.6035714587196708,
	"rewards/cosine_scaled_reward": 0.3165964335203171,
	"rewards/format_reward": 0.04732143105939031,
	"rewards/reasoning_steps_reward": 0.6375000439584255,
	"step": 440
	},
	{
	"completion_length": 713.3928909301758,
	"epoch": 0.9493333333333334,
	"grad_norm": 0.48911258578300476,
	"kl": 0.3521331787109375,
	"learning_rate": 2.2038708278862952e-08,
	"loss": 0.0141,
	"reward": 1.5449063807725907,
	"reward_std": 0.9845283433794976,
	"rewards/accuracy_reward": 0.5500000244006514,
	"rewards/cosine_scaled_reward": 0.28419203840894625,
	"rewards/format_reward": 0.05178571678698063,
	"rewards/reasoning_steps_reward": 0.6589286208152771,
	"step": 445
	},
	{
	"completion_length": 672.1143127441406,
	"epoch": 0.96,
	"grad_norm": 0.5151104927062988,
	"kl": 0.319622802734375,
	"learning_rate": 1.3511039807673209e-08,
	"loss": 0.0128,
	"reward": 1.7190548315644265,
	"reward_std": 1.052689327299595,
	"rewards/accuracy_reward": 0.6339285988360643,
	"rewards/cosine_scaled_reward": 0.3443523827940226,
	"rewards/format_reward": 0.0562500024214387,
	"rewards/reasoning_steps_reward": 0.6845238626003265,
	"step": 450
	},
	{
	"completion_length": 676.0714645385742,
	"epoch": 0.9706666666666667,
	"grad_norm": 0.6873491406440735,
	"kl": 0.286529541015625,
	"learning_rate": 7.0524970011963675e-09,
	"loss": 0.0115,
	"reward": 1.8955881476402283,
	"reward_std": 0.9624031879007816,
	"rewards/accuracy_reward": 0.682142891176045,
	"rewards/cosine_scaled_reward": 0.4223737971391529,
	"rewards/format_reward": 0.07857143282890319,
	"rewards/reasoning_steps_reward": 0.7125000573694706,
	"step": 455
	},
	{
	"completion_length": 679.2321739196777,
	"epoch": 0.9813333333333333,
	"grad_norm": 0.3787095546722412,
	"kl": 0.304974365234375,
	"learning_rate": 2.6720698600553595e-09,
	"loss": 0.0122,
	"reward": 1.7936133489012718,
	"reward_std": 1.0248655170202254,
	"rewards/accuracy_reward": 0.6535714577883482,
	"rewards/cosine_scaled_reward": 0.38111327985534443,
	"rewards/format_reward": 0.08214286155998707,
	"rewards/reasoning_steps_reward": 0.6767857633531094,
	"step": 460
	},
	{
	"completion_length": 696.1339584350586,
	"epoch": 0.992,
	"grad_norm": 0.40489259362220764,
	"kl": 0.3529052734375,
	"learning_rate": 3.7585574148779613e-10,
	"loss": 0.0141,
	"reward": 1.6771088674664498,
	"reward_std": 1.0866830073297025,
	"rewards/accuracy_reward": 0.5982143137603998,
	"rewards/cosine_scaled_reward": 0.3318706821650267,
	"rewards/format_reward": 0.053571431525051595,
	"rewards/reasoning_steps_reward": 0.6934524282813073,
	"step": 465
	},
	{
	"completion_length": 688.1964645385742,
	"epoch": 0.9984,
	"kl": 0.2928059895833333,
	"reward": 1.8073695426185925,
	"reward_std": 1.0462930103143055,
	"rewards/accuracy_reward": 0.6517857536673546,
	"rewards/cosine_scaled_reward": 0.40607976416746777,
	"rewards/format_reward": 0.049107145673284926,
	"rewards/reasoning_steps_reward": 0.700396885474523,
	"step": 468,
	"total_flos": 0.0,
	"train_loss": 2.683533102224817,
	"train_runtime": 211196.195,
	"train_samples_per_second": 0.036,
	"train_steps_per_second": 0.002
	}
	],
	"logging_steps": 5,
	"max_steps": 468,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": false,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}