Qwen-2.5-7B-Simple-RL / trainer_state.json

Model save

4189a2c verified 3 months ago

54.3 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9984,
	"eval_steps": 100,
	"global_step": 468,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"completion_length": 626.9428821563721,
	"epoch": 0.010666666666666666,
	"grad_norm": 3.135220183260807,
	"kl": 0.00012028217315673828,
	"learning_rate": 3.1914893617021275e-07,
	"loss": 0.0,
	"reward": 1.1311939403414726,
	"reward_std": 0.9199116222560406,
	"rewards/accuracy_reward": 0.5946428846567869,
	"rewards/cosine_scaled_reward": 0.28655105652287605,
	"rewards/format_reward": 0.00714285746216774,
	"rewards/reasoning_steps_reward": 0.2428571599535644,
	"step": 5
	},
	{
	"completion_length": 610.6661018371582,
	"epoch": 0.021333333333333333,
	"grad_norm": 5.7259660177649625,
	"kl": 0.0001917600631713867,
	"learning_rate": 6.382978723404255e-07,
	"loss": 0.0,
	"reward": 1.2825231447815895,
	"reward_std": 0.8677008092403412,
	"rewards/accuracy_reward": 0.6535714611411094,
	"rewards/cosine_scaled_reward": 0.33728500208817425,
	"rewards/format_reward": 0.001785714365541935,
	"rewards/reasoning_steps_reward": 0.28988096918910744,
	"step": 10
	},
	{
	"completion_length": 609.1125274658203,
	"epoch": 0.032,
	"grad_norm": 1.0344908113531213,
	"kl": 0.00023615360260009766,
	"learning_rate": 9.574468085106384e-07,
	"loss": 0.0,
	"reward": 1.3210706368088723,
	"reward_std": 0.8099735792726278,
	"rewards/accuracy_reward": 0.6767857499420643,
	"rewards/cosine_scaled_reward": 0.3460705999750644,
	"rewards/format_reward": 0.001785714365541935,
	"rewards/reasoning_steps_reward": 0.29642859203740957,
	"step": 15
	},
	{
	"completion_length": 611.9785972595215,
	"epoch": 0.042666666666666665,
	"grad_norm": 1.2756183417905018,
	"kl": 0.0007787942886352539,
	"learning_rate": 1.276595744680851e-06,
	"loss": 0.0,
	"reward": 1.2778369441628457,
	"reward_std": 0.7753925062716007,
	"rewards/accuracy_reward": 0.6625000327825546,
	"rewards/cosine_scaled_reward": 0.35878926496952773,
	"rewards/format_reward": 0.001785714365541935,
	"rewards/reasoning_steps_reward": 0.2547619211487472,
	"step": 20
	},
	{
	"completion_length": 644.8321746826172,
	"epoch": 0.05333333333333334,
	"grad_norm": 12.666142241785211,
	"kl": 0.002669668197631836,
	"learning_rate": 1.5957446808510639e-06,
	"loss": 0.0001,
	"reward": 1.2453887628391385,
	"reward_std": 0.7985292233526706,
	"rewards/accuracy_reward": 0.641071455925703,
	"rewards/cosine_scaled_reward": 0.34419824378564956,
	"rewards/format_reward": 0.00357142873108387,
	"rewards/reasoning_steps_reward": 0.25654763616621495,
	"step": 25
	},
	{
	"completion_length": 664.1107467651367,
	"epoch": 0.064,
	"grad_norm": 2.039644155087791,
	"kl": 0.0030992507934570314,
	"learning_rate": 1.9148936170212767e-06,
	"loss": 0.0001,
	"reward": 1.3286324340850115,
	"reward_std": 0.7313086107373238,
	"rewards/accuracy_reward": 0.6696428894996643,
	"rewards/cosine_scaled_reward": 0.3649419266730547,
	"rewards/format_reward": 0.001785714365541935,
	"rewards/reasoning_steps_reward": 0.2922619292512536,
	"step": 30
	},
	{
	"completion_length": 646.792887878418,
	"epoch": 0.07466666666666667,
	"grad_norm": 1.110778707013103,
	"kl": 0.004967975616455078,
	"learning_rate": 2.2340425531914894e-06,
	"loss": 0.0002,
	"reward": 1.2785038705915213,
	"reward_std": 0.732379237562418,
	"rewards/accuracy_reward": 0.6642857423052192,
	"rewards/cosine_scaled_reward": 0.335646699834615,
	"rewards/format_reward": 0.001785714365541935,
	"rewards/reasoning_steps_reward": 0.276785734295845,
	"step": 35
	},
	{
	"completion_length": 657.1143142700196,
	"epoch": 0.08533333333333333,
	"grad_norm": 0.9844730773757054,
	"kl": 0.014885807037353515,
	"learning_rate": 2.553191489361702e-06,
	"loss": 0.0006,
	"reward": 1.5404972655698657,
	"reward_std": 0.6586654607206583,
	"rewards/accuracy_reward": 0.7446428902447224,
	"rewards/cosine_scaled_reward": 0.4643067395314574,
	"rewards/format_reward": 0.001785714365541935,
	"rewards/reasoning_steps_reward": 0.329761927947402,
	"step": 40
	},
	{
	"completion_length": 617.8857398986817,
	"epoch": 0.096,
	"grad_norm": 0.7427114343652937,
	"kl": 0.010532951354980469,
	"learning_rate": 2.872340425531915e-06,
	"loss": 0.0004,
	"reward": 1.3987550295889377,
	"reward_std": 0.6983755130320788,
	"rewards/accuracy_reward": 0.7196428939700127,
	"rewards/cosine_scaled_reward": 0.39756449486594647,
	"rewards/format_reward": 0.0,
	"rewards/reasoning_steps_reward": 0.28154764492064716,
	"step": 45
	},
	{
	"completion_length": 658.5303855895996,
	"epoch": 0.10666666666666667,
	"grad_norm": 1.6404392956435,
	"kl": 0.00817718505859375,
	"learning_rate": 2.9996241442585123e-06,
	"loss": 0.0003,
	"reward": 1.5072809681296349,
	"reward_std": 0.7857246264815331,
	"rewards/accuracy_reward": 0.7125000357627869,
	"rewards/cosine_scaled_reward": 0.41680470630526545,
	"rewards/format_reward": 0.0,
	"rewards/reasoning_steps_reward": 0.37797621842473744,
	"step": 50
	},
	{
	"completion_length": 633.0089584350586,
	"epoch": 0.11733333333333333,
	"grad_norm": 1.4925006192982901,
	"kl": 0.005891990661621094,
	"learning_rate": 2.9973279301399446e-06,
	"loss": 0.0002,
	"reward": 1.3728282183408738,
	"reward_std": 0.7632799297571182,
	"rewards/accuracy_reward": 0.6642857462167739,
	"rewards/cosine_scaled_reward": 0.3627091235946864,
	"rewards/format_reward": 0.0,
	"rewards/reasoning_steps_reward": 0.3458333555608988,
	"step": 55
	},
	{
	"completion_length": 612.4803871154785,
	"epoch": 0.128,
	"grad_norm": 0.6602171934295183,
	"kl": 0.005200958251953125,
	"learning_rate": 2.992947502998804e-06,
	"loss": 0.0002,
	"reward": 1.550386269390583,
	"reward_std": 0.7166643626987934,
	"rewards/accuracy_reward": 0.7267857551574707,
	"rewards/cosine_scaled_reward": 0.40752905812114476,
	"rewards/format_reward": 0.0,
	"rewards/reasoning_steps_reward": 0.4160714574158192,
	"step": 60
	},
	{
	"completion_length": 637.0893135070801,
	"epoch": 0.13866666666666666,
	"grad_norm": 0.7395014891892754,
	"kl": 0.005736923217773438,
	"learning_rate": 2.9864889601923268e-06,
	"loss": 0.0002,
	"reward": 1.548742873966694,
	"reward_std": 0.7250724889338016,
	"rewards/accuracy_reward": 0.6928571745753288,
	"rewards/cosine_scaled_reward": 0.40052852691151203,
	"rewards/format_reward": 0.0,
	"rewards/reasoning_steps_reward": 0.4553571745753288,
	"step": 65
	},
	{
	"completion_length": 624.2607398986817,
	"epoch": 0.14933333333333335,
	"grad_norm": 1.3446269002594227,
	"kl": 0.00745697021484375,
	"learning_rate": 2.977961291721137e-06,
	"loss": 0.0003,
	"reward": 1.726818972826004,
	"reward_std": 0.7127795048058033,
	"rewards/accuracy_reward": 0.7500000286847353,
	"rewards/cosine_scaled_reward": 0.4518189021851867,
	"rewards/format_reward": 0.0,
	"rewards/reasoning_steps_reward": 0.5250000316649676,
	"step": 70
	},
	{
	"completion_length": 582.6161026000976,
	"epoch": 0.16,
	"grad_norm": 1.6339747436033418,
	"kl": 0.01014862060546875,
	"learning_rate": 2.9673763677155655e-06,
	"loss": 0.0004,
	"reward": 1.7601879060268402,
	"reward_std": 0.6540568165481091,
	"rewards/accuracy_reward": 0.7571428894996644,
	"rewards/cosine_scaled_reward": 0.44530690894462166,
	"rewards/format_reward": 0.0,
	"rewards/reasoning_steps_reward": 0.5577381297945976,
	"step": 75
	},
	{
	"completion_length": 604.8535972595215,
	"epoch": 0.17066666666666666,
	"grad_norm": 0.5255090188980472,
	"kl": 0.011274337768554688,
	"learning_rate": 2.9547489219129666e-06,
	"loss": 0.0005,
	"reward": 1.8713448494672775,
	"reward_std": 0.6472877942025661,
	"rewards/accuracy_reward": 0.7910714626312256,
	"rewards/cosine_scaled_reward": 0.46479713870212436,
	"rewards/format_reward": 0.001785714365541935,
	"rewards/reasoning_steps_reward": 0.6136905208230019,
	"step": 80
	},
	{
	"completion_length": 652.2661026000976,
	"epoch": 0.18133333333333335,
	"grad_norm": 0.9972915077162576,
	"kl": 0.030218505859375,
	"learning_rate": 2.9400965311490175e-06,
	"loss": 0.0012,
	"reward": 1.8985693082213402,
	"reward_std": 0.6914638102054596,
	"rewards/accuracy_reward": 0.7303571823984385,
	"rewards/cosine_scaled_reward": 0.4414263550657779,
	"rewards/format_reward": 0.00714285746216774,
	"rewards/reasoning_steps_reward": 0.7196429148316383,
	"step": 85
	},
	{
	"completion_length": 639.8696754455566,
	"epoch": 0.192,
	"grad_norm": 0.6349460842058491,
	"kl": 0.021417236328125,
	"learning_rate": 2.9234395908915565e-06,
	"loss": 0.0009,
	"reward": 1.8425026133656501,
	"reward_std": 0.6659979414194822,
	"rewards/accuracy_reward": 0.6660714538767933,
	"rewards/cosine_scaled_reward": 0.37762160785496235,
	"rewards/format_reward": 0.008928571827709675,
	"rewards/reasoning_steps_reward": 0.7898810163140297,
	"step": 90
	},
	{
	"completion_length": 653.3714622497558,
	"epoch": 0.20266666666666666,
	"grad_norm": 0.7068217863673739,
	"kl": 0.0266326904296875,
	"learning_rate": 2.904801286851009e-06,
	"loss": 0.0011,
	"reward": 2.013348326086998,
	"reward_std": 0.6553943566977978,
	"rewards/accuracy_reward": 0.7017857439815998,
	"rewards/cosine_scaled_reward": 0.41513395444490014,
	"rewards/format_reward": 0.06785714626312256,
	"rewards/reasoning_steps_reward": 0.8285714961588383,
	"step": 95
	},
	{
	"completion_length": 677.8946754455567,
	"epoch": 0.21333333333333335,
	"grad_norm": 2.9570623395086475,
	"kl": 0.0402923583984375,
	"learning_rate": 2.884207562706925e-06,
	"loss": 0.0016,
	"reward": 2.5119238168001177,
	"reward_std": 0.8375062063336373,
	"rewards/accuracy_reward": 0.7125000339001417,
	"rewards/cosine_scaled_reward": 0.4250189420999959,
	"rewards/format_reward": 0.5553571665659547,
	"rewards/reasoning_steps_reward": 0.8190476760268212,
	"step": 100
	},
	{
	"epoch": 0.21333333333333335,
	"eval_completion_length": 717.3023177124023,
	"eval_kl": 0.045336328125,
	"eval_loss": 0.0018938997527584434,
	"eval_reward": 2.535167279243469,
	"eval_reward_std": 0.8789399468839169,
	"eval_rewards/accuracy_reward": 0.5740285987168551,
	"eval_rewards/cosine_scaled_reward": 0.29340527021205964,
	"eval_rewards/format_reward": 0.8470000272035598,
	"eval_rewards/reasoning_steps_reward": 0.8207333937764167,
	"eval_runtime": 34268.8498,
	"eval_samples_per_second": 0.146,
	"eval_steps_per_second": 0.01,
	"step": 100
	},
	{
	"completion_length": 724.1053909301758,
	"epoch": 0.224,
	"grad_norm": 1.1690466064365364,
	"kl": 0.1235015869140625,
	"learning_rate": 2.8616870839955444e-06,
	"loss": 0.0049,
	"reward": 2.752804014086723,
	"reward_std": 0.8537621341645718,
	"rewards/accuracy_reward": 0.6767857506871223,
	"rewards/cosine_scaled_reward": 0.4045896364772489,
	"rewards/format_reward": 0.8553571686148643,
	"rewards/reasoning_steps_reward": 0.816071481257677,
	"step": 105
	},
	{
	"completion_length": 768.4839645385742,
	"epoch": 0.23466666666666666,
	"grad_norm": 14.95234115514868,
	"kl": 0.0612457275390625,
	"learning_rate": 2.837271198208662e-06,
	"loss": 0.0025,
	"reward": 2.6233972758054733,
	"reward_std": 0.8962277337908745,
	"rewards/accuracy_reward": 0.6214286016300321,
	"rewards/cosine_scaled_reward": 0.340063818404451,
	"rewards/format_reward": 0.8839285984635353,
	"rewards/reasoning_steps_reward": 0.7779762476682663,
	"step": 110
	},
	{
	"completion_length": 731.7893173217774,
	"epoch": 0.24533333333333332,
	"grad_norm": 0.7880946164162693,
	"kl": 0.163909912109375,
	"learning_rate": 2.8109938911593322e-06,
	"loss": 0.0066,
	"reward": 2.6163390249013903,
	"reward_std": 0.9033554136753082,
	"rewards/accuracy_reward": 0.6589286033064127,
	"rewards/cosine_scaled_reward": 0.3818151192739606,
	"rewards/format_reward": 0.7267857484519482,
	"rewards/reasoning_steps_reward": 0.8488095819950103,
	"step": 115
	},
	{
	"completion_length": 759.9339622497558,
	"epoch": 0.256,
	"grad_norm": 1.7990639203312269,
	"kl": 0.042535400390625,
	"learning_rate": 2.7828917396751474e-06,
	"loss": 0.0017,
	"reward": 2.6672952473163605,
	"reward_std": 0.8769947469234467,
	"rewards/accuracy_reward": 0.6535714585334063,
	"rewards/cosine_scaled_reward": 0.384557047416456,
	"rewards/format_reward": 0.7732143148779869,
	"rewards/reasoning_steps_reward": 0.8559524476528168,
	"step": 120
	},
	{
	"completion_length": 760.0518188476562,
	"epoch": 0.26666666666666666,
	"grad_norm": 0.525125891329557,
	"kl": 0.048138427734375,
	"learning_rate": 2.753003860684943e-06,
	"loss": 0.0019,
	"reward": 3.015795236825943,
	"reward_std": 0.7571237944066525,
	"rewards/accuracy_reward": 0.7303571730852128,
	"rewards/cosine_scaled_reward": 0.47650940530002117,
	"rewards/format_reward": 0.9767857253551483,
	"rewards/reasoning_steps_reward": 0.832142922282219,
	"step": 125
	},
	{
	"completion_length": 787.3678970336914,
	"epoch": 0.2773333333333333,
	"grad_norm": 1.6324108230600705,
	"kl": 0.0462982177734375,
	"learning_rate": 2.721371856769793e-06,
	"loss": 0.0019,
	"reward": 2.96227542757988,
	"reward_std": 0.7570989470928907,
	"rewards/accuracy_reward": 0.6714286040514708,
	"rewards/cosine_scaled_reward": 0.40870389440096916,
	"rewards/format_reward": 0.9892857193946838,
	"rewards/reasoning_steps_reward": 0.8928571999073028,
	"step": 130
	},
	{
	"completion_length": 739.2839584350586,
	"epoch": 0.288,
	"grad_norm": 1.2279064196254164,
	"kl": 0.0569366455078125,
	"learning_rate": 2.688039758254093e-06,
	"loss": 0.0023,
	"reward": 3.0940194368362426,
	"reward_std": 0.7407944872975349,
	"rewards/accuracy_reward": 0.748214321769774,
	"rewards/cosine_scaled_reward": 0.4910431296331808,
	"rewards/format_reward": 0.9946428596973419,
	"rewards/reasoning_steps_reward": 0.8601191073656083,
	"step": 135
	},
	{
	"completion_length": 742.6107498168946,
	"epoch": 0.2986666666666667,
	"grad_norm": 1.142989559294876,
	"kl": 0.0421722412109375,
	"learning_rate": 2.65305396191733e-06,
	"loss": 0.0017,
	"reward": 3.0360836148262025,
	"reward_std": 0.7486013866961002,
	"rewards/accuracy_reward": 0.7267857477068901,
	"rewards/cosine_scaled_reward": 0.44679776607081295,
	"rewards/format_reward": 0.9785714343190193,
	"rewards/reasoning_steps_reward": 0.8839286372065545,
	"step": 140
	},
	{
	"completion_length": 708.2089630126953,
	"epoch": 0.30933333333333335,
	"grad_norm": 0.5591745022956734,
	"kl": 0.0389068603515625,
	"learning_rate": 2.61646316641186e-06,
	"loss": 0.0016,
	"reward": 3.039272406697273,
	"reward_std": 0.6369190786033869,
	"rewards/accuracy_reward": 0.7375000305473804,
	"rewards/cosine_scaled_reward": 0.4565341799054295,
	"rewards/format_reward": 0.9928571462631226,
	"rewards/reasoning_steps_reward": 0.85238102003932,
	"step": 145
	},
	{
	"completion_length": 693.1196723937989,
	"epoch": 0.32,
	"grad_norm": 0.8445904699258806,
	"kl": 0.04276123046875,
	"learning_rate": 2.5783183044765715e-06,
	"loss": 0.0017,
	"reward": 3.065075045824051,
	"reward_std": 0.6227528784424067,
	"rewards/accuracy_reward": 0.7553571730852127,
	"rewards/cosine_scaled_reward": 0.48888447135686874,
	"rewards/format_reward": 0.980357152223587,
	"rewards/reasoning_steps_reward": 0.8404762536287308,
	"step": 150
	},
	{
	"completion_length": 666.7178871154786,
	"epoch": 0.33066666666666666,
	"grad_norm": 0.6870106883522581,
	"kl": 0.041412353515625,
	"learning_rate": 2.5386724720408135e-06,
	"loss": 0.0017,
	"reward": 3.156706044077873,
	"reward_std": 0.6447003319859504,
	"rewards/accuracy_reward": 0.798214316740632,
	"rewards/cosine_scaled_reward": 0.5305154274217785,
	"rewards/format_reward": 0.9821428656578064,
	"rewards/reasoning_steps_reward": 0.8458333984017372,
	"step": 155
	},
	{
	"completion_length": 723.2357452392578,
	"epoch": 0.3413333333333333,
	"grad_norm": 0.598319397397006,
	"kl": 0.0435455322265625,
	"learning_rate": 2.49758085431725e-06,
	"loss": 0.0017,
	"reward": 3.0701630294322966,
	"reward_std": 0.6298764709383249,
	"rewards/accuracy_reward": 0.7410714581608773,
	"rewards/cosine_scaled_reward": 0.463615276478231,
	"rewards/format_reward": 0.9696428686380386,
	"rewards/reasoning_steps_reward": 0.895833395421505,
	"step": 160
	},
	{
	"completion_length": 799.8250381469727,
	"epoch": 0.352,
	"grad_norm": 0.6301042631581175,
	"kl": 0.0475830078125,
	"learning_rate": 2.455100648986533e-06,
	"loss": 0.0019,
	"reward": 2.9756604552268984,
	"reward_std": 0.7367240894585848,
	"rewards/accuracy_reward": 0.6785714585334063,
	"rewards/cosine_scaled_reward": 0.4125651277601719,
	"rewards/format_reward": 0.9535714492201806,
	"rewards/reasoning_steps_reward": 0.9309524342417717,
	"step": 165
	},
	{
	"completion_length": 826.1500366210937,
	"epoch": 0.3626666666666667,
	"grad_norm": 0.8610873292738485,
	"kl": 0.054132080078125,
	"learning_rate": 2.4112909865807053e-06,
	"loss": 0.0022,
	"reward": 2.680763456225395,
	"reward_std": 0.8146794062107802,
	"rewards/accuracy_reward": 0.5303571671247482,
	"rewards/cosine_scaled_reward": 0.2390966679668054,
	"rewards/format_reward": 0.9714285835623742,
	"rewards/reasoning_steps_reward": 0.9398810014128685,
	"step": 170
	},
	{
	"completion_length": 800.7339706420898,
	"epoch": 0.37333333333333335,
	"grad_norm": 0.7079176746358598,
	"kl": 0.067926025390625,
	"learning_rate": 2.366212848176164e-06,
	"loss": 0.0027,
	"reward": 2.7596707075834273,
	"reward_std": 0.8444030195474624,
	"rewards/accuracy_reward": 0.5714285975322128,
	"rewards/cosine_scaled_reward": 0.3090753515250981,
	"rewards/format_reward": 0.9732142984867096,
	"rewards/reasoning_steps_reward": 0.9059524446725845,
	"step": 175
	},
	{
	"completion_length": 778.9928909301758,
	"epoch": 0.384,
	"grad_norm": 1.1001119066854874,
	"kl": 0.0932373046875,
	"learning_rate": 2.319928980510752e-06,
	"loss": 0.0037,
	"reward": 2.765022465586662,
	"reward_std": 0.8211875937879085,
	"rewards/accuracy_reward": 0.5821428883820772,
	"rewards/cosine_scaled_reward": 0.32335569793358443,
	"rewards/format_reward": 0.9732142984867096,
	"rewards/reasoning_steps_reward": 0.8863095760345459,
	"step": 180
	},
	{
	"completion_length": 792.8321823120117,
	"epoch": 0.39466666666666667,
	"grad_norm": 0.621075404533647,
	"kl": 0.170367431640625,
	"learning_rate": 2.272503808643123e-06,
	"loss": 0.0068,
	"reward": 2.6604900896549224,
	"reward_std": 0.7879154846072197,
	"rewards/accuracy_reward": 0.5410714561119676,
	"rewards/cosine_scaled_reward": 0.26644235964631663,
	"rewards/format_reward": 0.9892857193946838,
	"rewards/reasoning_steps_reward": 0.8636905372142791,
	"step": 185
	},
	{
	"completion_length": 734.221459197998,
	"epoch": 0.4053333333333333,
	"grad_norm": 2.6622395485180066,
	"kl": 0.1951171875,
	"learning_rate": 2.2240033462759628e-06,
	"loss": 0.0078,
	"reward": 2.9028186976909636,
	"reward_std": 0.7853110164403916,
	"rewards/accuracy_reward": 0.6750000350177288,
	"rewards/cosine_scaled_reward": 0.41293763257563115,
	"rewards/format_reward": 0.9767857238650322,
	"rewards/reasoning_steps_reward": 0.8380952909588814,
	"step": 190
	},
	{
	"completion_length": 757.7036010742188,
	"epoch": 0.416,
	"grad_norm": 1.9232019767182387,
	"kl": 0.197918701171875,
	"learning_rate": 2.1744951038678905e-06,
	"loss": 0.0079,
	"reward": 2.847309911251068,
	"reward_std": 0.8383581660687923,
	"rewards/accuracy_reward": 0.6553571727126837,
	"rewards/cosine_scaled_reward": 0.3895717078819871,
	"rewards/format_reward": 0.9660714402794838,
	"rewards/reasoning_steps_reward": 0.836309588700533,
	"step": 195
	},
	{
	"completion_length": 704.6071769714356,
	"epoch": 0.4266666666666667,
	"grad_norm": 2.187135193267794,
	"kl": 0.2211669921875,
	"learning_rate": 2.124047994661941e-06,
	"loss": 0.0088,
	"reward": 2.8649386018514633,
	"reward_std": 0.8465140253305435,
	"rewards/accuracy_reward": 0.6785714600235224,
	"rewards/cosine_scaled_reward": 0.4107717891223729,
	"rewards/format_reward": 0.9767857253551483,
	"rewards/reasoning_steps_reward": 0.7988095879554749,
	"step": 200
	},
	{
	"epoch": 0.4266666666666667,
	"eval_completion_length": 726.0360606079101,
	"eval_kl": 0.4157892578125,
	"eval_loss": 0.016393402591347694,
	"eval_reward": 2.668296795749664,
	"eval_reward_std": 0.848984938377142,
	"eval_rewards/accuracy_reward": 0.5848571698188781,
	"eval_rewards/cosine_scaled_reward": 0.31035383035842096,
	"eval_rewards/format_reward": 0.9741428675889969,
	"eval_rewards/reasoning_steps_reward": 0.7989429181694985,
	"eval_runtime": 34304.9807,
	"eval_samples_per_second": 0.146,
	"eval_steps_per_second": 0.01,
	"step": 200
	},
	{
	"completion_length": 711.1785987854004,
	"epoch": 0.43733333333333335,
	"grad_norm": 13.425767555167974,
	"kl": 0.522259521484375,
	"learning_rate": 2.072732238761434e-06,
	"loss": 0.0209,
	"reward": 2.5607248514890673,
	"reward_std": 0.8997476093471051,
	"rewards/accuracy_reward": 0.5821428846567869,
	"rewards/cosine_scaled_reward": 0.29524860471719877,
	"rewards/format_reward": 0.9446428805589676,
	"rewards/reasoning_steps_reward": 0.7386905312538147,
	"step": 205
	},
	{
	"completion_length": 703.9107421875,
	"epoch": 0.448,
	"grad_norm": 1.9515561067024476,
	"kl": 0.407659912109375,
	"learning_rate": 2.0206192653867536e-06,
	"loss": 0.0163,
	"reward": 2.5372259259223937,
	"reward_std": 1.0205993868410588,
	"rewards/accuracy_reward": 0.6178571723401547,
	"rewards/cosine_scaled_reward": 0.334844835329568,
	"rewards/format_reward": 0.887500025331974,
	"rewards/reasoning_steps_reward": 0.6970238521695137,
	"step": 210
	},
	{
	"completion_length": 743.6161041259766,
	"epoch": 0.45866666666666667,
	"grad_norm": 3.1537839868905078,
	"kl": 0.660333251953125,
	"learning_rate": 1.967781613449095e-06,
	"loss": 0.0264,
	"reward": 1.9156419575214385,
	"reward_std": 1.1042504251003264,
	"rewards/accuracy_reward": 0.4267857324331999,
	"rewards/cosine_scaled_reward": 0.1459990169329103,
	"rewards/format_reward": 0.7571428924798965,
	"rewards/reasoning_steps_reward": 0.5857143320143223,
	"step": 215
	},
	{
	"completion_length": 776.1553909301758,
	"epoch": 0.4693333333333333,
	"grad_norm": 4.038362237813945,
	"kl": 0.3061279296875,
	"learning_rate": 1.9142928305795637e-06,
	"loss": 0.0122,
	"reward": 2.4867064505815506,
	"reward_std": 0.9735465314239263,
	"rewards/accuracy_reward": 0.5696428786963225,
	"rewards/cosine_scaled_reward": 0.2962301469407976,
	"rewards/format_reward": 0.9053571730852127,
	"rewards/reasoning_steps_reward": 0.7154762424528599,
	"step": 220
	},
	{
	"completion_length": 729.4678955078125,
	"epoch": 0.48,
	"grad_norm": 3.1439180898202466,
	"kl": 0.28773193359375,
	"learning_rate": 1.8602273707541886e-06,
	"loss": 0.0115,
	"reward": 2.7534320563077928,
	"reward_std": 0.9354146108031273,
	"rewards/accuracy_reward": 0.671428600884974,
	"rewards/cosine_scaled_reward": 0.4331938370829448,
	"rewards/format_reward": 0.9357143059372902,
	"rewards/reasoning_steps_reward": 0.7130952820181846,
	"step": 225
	},
	{
	"completion_length": 753.7571792602539,
	"epoch": 0.49066666666666664,
	"grad_norm": 9.742972287112453,
	"kl": 0.672515869140625,
	"learning_rate": 1.8056604906573418e-06,
	"loss": 0.0269,
	"reward": 2.4900094658136367,
	"reward_std": 1.071580182760954,
	"rewards/accuracy_reward": 0.6053571721538902,
	"rewards/cosine_scaled_reward": 0.3417950821574777,
	"rewards/format_reward": 0.900000023841858,
	"rewards/reasoning_steps_reward": 0.6428571917116642,
	"step": 230
	},
	{
	"completion_length": 769.7821792602539,
	"epoch": 0.5013333333333333,
	"grad_norm": 12.748394988794061,
	"kl": 0.615447998046875,
	"learning_rate": 1.7506681449278226e-06,
	"loss": 0.0246,
	"reward": 2.4423232048749925,
	"reward_std": 1.0899774149060248,
	"rewards/accuracy_reward": 0.6035714549943805,
	"rewards/cosine_scaled_reward": 0.3429183505475521,
	"rewards/format_reward": 0.8517857506871224,
	"rewards/reasoning_steps_reward": 0.6440476708114147,
	"step": 235
	},
	{
	"completion_length": 721.4928901672363,
	"epoch": 0.512,
	"grad_norm": 316.5564758948846,
	"kl": 2.6417724609375,
	"learning_rate": 1.6953268804334257e-06,
	"loss": 0.1056,
	"reward": 2.6406149938702583,
	"reward_std": 0.9681473188102245,
	"rewards/accuracy_reward": 0.6732143137603999,
	"rewards/cosine_scaled_reward": 0.43644821029156444,
	"rewards/format_reward": 0.833928607404232,
	"rewards/reasoning_steps_reward": 0.6970238670706749,
	"step": 240
	},
	{
	"completion_length": 699.0089614868164,
	"epoch": 0.5226666666666666,
	"grad_norm": 144932.71498560338,
	"kl": 41.92372436523438,
	"learning_rate": 1.6397137297211436e-06,
	"loss": 1.677,
	"reward": 2.9064596563577654,
	"reward_std": 0.8081207755953074,
	"rewards/accuracy_reward": 0.7678571745753289,
	"rewards/cosine_scaled_reward": 0.5046738618053496,
	"rewards/format_reward": 0.9178571611642837,
	"rewards/reasoning_steps_reward": 0.7160714864730835,
	"step": 245
	},
	{
	"completion_length": 719.6250274658203,
	"epoch": 0.5333333333333333,
	"grad_norm": 12.128586542505051,
	"kl": 13.330413818359375,
	"learning_rate": 1.5839061037913395e-06,
	"loss": 0.5321,
	"reward": 2.8467082887887956,
	"reward_std": 0.8377620510756969,
	"rewards/accuracy_reward": 0.7500000335276127,
	"rewards/cosine_scaled_reward": 0.4984938623383641,
	"rewards/format_reward": 0.8803571656346321,
	"rewards/reasoning_steps_reward": 0.7178571961820126,
	"step": 250
	},
	{
	"completion_length": 740.6482467651367,
	"epoch": 0.544,
	"grad_norm": 21.125458441852672,
	"kl": 0.171630859375,
	"learning_rate": 1.527981684345115e-06,
	"loss": 0.0069,
	"reward": 2.7478116720914842,
	"reward_std": 0.8047603815793991,
	"rewards/accuracy_reward": 0.6946428874507546,
	"rewards/cosine_scaled_reward": 0.4323353324783966,
	"rewards/format_reward": 0.9214285910129547,
	"rewards/reasoning_steps_reward": 0.6994048036634922,
	"step": 255
	},
	{
	"completion_length": 741.4857482910156,
	"epoch": 0.5546666666666666,
	"grad_norm": 24.989348854776196,
	"kl": 0.7936920166015625,
	"learning_rate": 1.4720183156548855e-06,
	"loss": 0.0317,
	"reward": 2.8889215648174287,
	"reward_std": 0.8046084839850665,
	"rewards/accuracy_reward": 0.7053571708500386,
	"rewards/cosine_scaled_reward": 0.4633262232731795,
	"rewards/format_reward": 0.9500000178813934,
	"rewards/reasoning_steps_reward": 0.7702381610870361,
	"step": 260
	},
	{
	"completion_length": 742.701823425293,
	"epoch": 0.5653333333333334,
	"grad_norm": 31.341677037958075,
	"kl": 0.67542724609375,
	"learning_rate": 1.4160938962086612e-06,
	"loss": 0.027,
	"reward": 2.8618105918169023,
	"reward_std": 0.756641275063157,
	"rewards/accuracy_reward": 0.7321428785100579,
	"rewards/cosine_scaled_reward": 0.4826438320800662,
	"rewards/format_reward": 0.9267857372760773,
	"rewards/reasoning_steps_reward": 0.7202381417155266,
	"step": 265
	},
	{
	"completion_length": 741.5803863525391,
	"epoch": 0.576,
	"grad_norm": 208.94608010239415,
	"kl": 0.9906982421875,
	"learning_rate": 1.3602862702788567e-06,
	"loss": 0.0396,
	"reward": 2.706931698322296,
	"reward_std": 0.9525154523551465,
	"rewards/accuracy_reward": 0.6732143200933933,
	"rewards/cosine_scaled_reward": 0.43609824670711533,
	"rewards/format_reward": 0.8946428880095482,
	"rewards/reasoning_steps_reward": 0.7029762521386147,
	"step": 270
	},
	{
	"completion_length": 732.1143157958984,
	"epoch": 0.5866666666666667,
	"grad_norm": 38.275566557137644,
	"kl": 1.51126708984375,
	"learning_rate": 1.3046731195665748e-06,
	"loss": 0.0605,
	"reward": 2.7598373025655745,
	"reward_std": 0.9775024671107531,
	"rewards/accuracy_reward": 0.7053571678698063,
	"rewards/cosine_scaled_reward": 0.45864667696878314,
	"rewards/format_reward": 0.8839286029338836,
	"rewards/reasoning_steps_reward": 0.7119048096239566,
	"step": 275
	},
	{
	"completion_length": 766.3411087036133,
	"epoch": 0.5973333333333334,
	"grad_norm": 34.400362223993966,
	"kl": 0.446759033203125,
	"learning_rate": 1.2493318550721775e-06,
	"loss": 0.0179,
	"reward": 2.80095117688179,
	"reward_std": 0.9185693945735693,
	"rewards/accuracy_reward": 0.701785746216774,
	"rewards/cosine_scaled_reward": 0.44499868620187044,
	"rewards/format_reward": 0.9017857417464257,
	"rewards/reasoning_steps_reward": 0.7523810148239136,
	"step": 280
	},
	{
	"completion_length": 745.8839614868164,
	"epoch": 0.608,
	"grad_norm": 70.23076333110882,
	"kl": 3.24036865234375,
	"learning_rate": 1.1943395093426585e-06,
	"loss": 0.1296,
	"reward": 2.9303120017051696,
	"reward_std": 0.7858256082981825,
	"rewards/accuracy_reward": 0.7339286036789417,
	"rewards/cosine_scaled_reward": 0.5118595488369465,
	"rewards/format_reward": 0.9214285984635353,
	"rewards/reasoning_steps_reward": 0.7630952894687653,
	"step": 285
	},
	{
	"completion_length": 729.6464584350585,
	"epoch": 0.6186666666666667,
	"grad_norm": 51.01572887577541,
	"kl": 2.792974853515625,
	"learning_rate": 1.1397726292458115e-06,
	"loss": 0.1118,
	"reward": 2.8507910460233687,
	"reward_std": 0.8466649554669857,
	"rewards/accuracy_reward": 0.7142857432365417,
	"rewards/cosine_scaled_reward": 0.46924334414070473,
	"rewards/format_reward": 0.9303571686148644,
	"rewards/reasoning_steps_reward": 0.7369048215448857,
	"step": 290
	},
	{
	"completion_length": 758.4518173217773,
	"epoch": 0.6293333333333333,
	"grad_norm": 21.800940990494052,
	"kl": 3.139178466796875,
	"learning_rate": 1.085707169420437e-06,
	"loss": 0.1259,
	"reward": 2.687264183163643,
	"reward_std": 0.8229550156742335,
	"rewards/accuracy_reward": 0.6535714585334063,
	"rewards/cosine_scaled_reward": 0.4211926580406725,
	"rewards/format_reward": 0.8946428805589676,
	"rewards/reasoning_steps_reward": 0.7178571917116642,
	"step": 295
	},
	{
	"completion_length": 736.9268188476562,
	"epoch": 0.64,
	"grad_norm": 8.05056275297732,
	"kl": 0.720037841796875,
	"learning_rate": 1.0322183865509054e-06,
	"loss": 0.0288,
	"reward": 2.7745183438062666,
	"reward_std": 0.9824469141662121,
	"rewards/accuracy_reward": 0.7232143133878708,
	"rewards/cosine_scaled_reward": 0.46856586267240347,
	"rewards/format_reward": 0.9071428790688515,
	"rewards/reasoning_steps_reward": 0.6755952909588814,
	"step": 300
	},
	{
	"epoch": 0.64,
	"eval_completion_length": 756.2787765625,
	"eval_kl": 2.815593212890625,
	"eval_loss": 0.11271046847105026,
	"eval_reward": 2.6679908989191055,
	"eval_reward_std": 0.9292156134605408,
	"eval_rewards/accuracy_reward": 0.6384000294238329,
	"eval_rewards/cosine_scaled_reward": 0.386524124888191,
	"eval_rewards/format_reward": 0.9171143096089364,
	"eval_rewards/reasoning_steps_reward": 0.7259524360120296,
	"eval_runtime": 34511.2614,
	"eval_samples_per_second": 0.145,
	"eval_steps_per_second": 0.01,
	"step": 300
	},
	{
	"completion_length": 760.3768211364746,
	"epoch": 0.6506666666666666,
	"grad_norm": 16.434699024651234,
	"kl": 0.956842041015625,
	"learning_rate": 9.793807346132464e-07,
	"loss": 0.0383,
	"reward": 2.901669743657112,
	"reward_std": 0.8654729023575782,
	"rewards/accuracy_reward": 0.7464286040514707,
	"rewards/cosine_scaled_reward": 0.5034553268924356,
	"rewards/format_reward": 0.9392857357859612,
	"rewards/reasoning_steps_reward": 0.7125000521540642,
	"step": 305
	},
	{
	"completion_length": 780.1018203735351,
	"epoch": 0.6613333333333333,
	"grad_norm": 9.30628937439928,
	"kl": 0.76141357421875,
	"learning_rate": 9.272677612385667e-07,
	"loss": 0.0305,
	"reward": 2.715619903802872,
	"reward_std": 0.9227011248469352,
	"rewards/accuracy_reward": 0.6767857443541289,
	"rewards/cosine_scaled_reward": 0.4328816962428391,
	"rewards/format_reward": 0.9000000298023224,
	"rewards/reasoning_steps_reward": 0.7059524297714234,
	"step": 310
	},
	{
	"completion_length": 768.9500411987304,
	"epoch": 0.672,
	"grad_norm": 1.7983007811573581,
	"kl": 0.573968505859375,
	"learning_rate": 8.759520053380591e-07,
	"loss": 0.023,
	"reward": 2.786320286989212,
	"reward_std": 0.7833445437252522,
	"rewards/accuracy_reward": 0.6910714630037547,
	"rewards/cosine_scaled_reward": 0.4357249645516276,
	"rewards/format_reward": 0.9464285910129547,
	"rewards/reasoning_steps_reward": 0.7130952931940555,
	"step": 315
	},
	{
	"completion_length": 723.1536033630371,
	"epoch": 0.6826666666666666,
	"grad_norm": 12.691694660091667,
	"kl": 0.486602783203125,
	"learning_rate": 8.255048961321088e-07,
	"loss": 0.0194,
	"reward": 2.831101644039154,
	"reward_std": 0.8475235715508461,
	"rewards/accuracy_reward": 0.7071428868919611,
	"rewards/cosine_scaled_reward": 0.46919678517151625,
	"rewards/format_reward": 0.930357164144516,
	"rewards/reasoning_steps_reward": 0.7244048148393631,
	"step": 320
	},
	{
	"completion_length": 723.8268165588379,
	"epoch": 0.6933333333333334,
	"grad_norm": 4.135287895650402,
	"kl": 1.668939208984375,
	"learning_rate": 7.759966537240373e-07,
	"loss": 0.0664,
	"reward": 3.0232764929533005,
	"reward_std": 0.7830160673707723,
	"rewards/accuracy_reward": 0.7607143174856901,
	"rewards/cosine_scaled_reward": 0.5054192344192415,
	"rewards/format_reward": 0.9696428701281548,
	"rewards/reasoning_steps_reward": 0.7875000596046448,
	"step": 325
	},
	{
	"completion_length": 743.2911071777344,
	"epoch": 0.704,
	"grad_norm": 2.428880550991712,
	"kl": 0.23929443359375,
	"learning_rate": 7.274961913568773e-07,
	"loss": 0.0096,
	"reward": 2.980492576956749,
	"reward_std": 0.7519855977967381,
	"rewards/accuracy_reward": 0.7517857424914837,
	"rewards/cosine_scaled_reward": 0.5114448417443782,
	"rewards/format_reward": 0.9589285865426064,
	"rewards/reasoning_steps_reward": 0.7583333984017372,
	"step": 330
	},
	{
	"completion_length": 777.944676208496,
	"epoch": 0.7146666666666667,
	"grad_norm": 10.667405755387346,
	"kl": 0.491375732421875,
	"learning_rate": 6.800710194892484e-07,
	"loss": 0.0197,
	"reward": 2.9669879227876663,
	"reward_std": 0.7909464325755835,
	"rewards/accuracy_reward": 0.7285714603960514,
	"rewards/cosine_scaled_reward": 0.4985354314424967,
	"rewards/format_reward": 0.9696428716182709,
	"rewards/reasoning_steps_reward": 0.7702381551265717,
	"step": 335
	},
	{
	"completion_length": 783.7107513427734,
	"epoch": 0.7253333333333334,
	"grad_norm": 20.401487806762606,
	"kl": 1.50914306640625,
	"learning_rate": 6.33787151823836e-07,
	"loss": 0.0604,
	"reward": 2.733260214328766,
	"reward_std": 0.9950653843581676,
	"rewards/accuracy_reward": 0.6535714577883482,
	"rewards/cosine_scaled_reward": 0.4219506177818403,
	"rewards/format_reward": 0.9071428775787354,
	"rewards/reasoning_steps_reward": 0.7505952984094619,
	"step": 340
	},
	{
	"completion_length": 747.0571807861328,
	"epoch": 0.736,
	"grad_norm": 3.8988932597998756,
	"kl": 0.765008544921875,
	"learning_rate": 5.887090134192947e-07,
	"loss": 0.0306,
	"reward": 2.950327825546265,
	"reward_std": 0.7912764519453048,
	"rewards/accuracy_reward": 0.7142857464030385,
	"rewards/cosine_scaled_reward": 0.4931848540902138,
	"rewards/format_reward": 0.9553571596741677,
	"rewards/reasoning_steps_reward": 0.7875000700354576,
	"step": 345
	},
	{
	"completion_length": 768.9161071777344,
	"epoch": 0.7466666666666667,
	"grad_norm": 5.964808758728403,
	"kl": 0.8441162109375,
	"learning_rate": 5.448993510134669e-07,
	"loss": 0.0338,
	"reward": 2.7927453070878983,
	"reward_std": 0.8378362115472555,
	"rewards/accuracy_reward": 0.6892857491970062,
	"rewards/cosine_scaled_reward": 0.44631660780869425,
	"rewards/format_reward": 0.9250000208616257,
	"rewards/reasoning_steps_reward": 0.7321429125964641,
	"step": 350
	},
	{
	"completion_length": 771.8000366210938,
	"epoch": 0.7573333333333333,
	"grad_norm": 19.67075460524417,
	"kl": 1.37095947265625,
	"learning_rate": 5.024191456827498e-07,
	"loss": 0.0549,
	"reward": 2.757797637581825,
	"reward_std": 0.9828206066042184,
	"rewards/accuracy_reward": 0.6946428813040256,
	"rewards/cosine_scaled_reward": 0.4447022658772767,
	"rewards/format_reward": 0.900000023841858,
	"rewards/reasoning_steps_reward": 0.7184524320065975,
	"step": 355
	},
	{
	"completion_length": 764.0839599609375,
	"epoch": 0.768,
	"grad_norm": 20.908101755536627,
	"kl": 1.678790283203125,
	"learning_rate": 4.6132752795918667e-07,
	"loss": 0.0672,
	"reward": 2.710779735445976,
	"reward_std": 0.9775115817785263,
	"rewards/accuracy_reward": 0.6642857462167739,
	"rewards/cosine_scaled_reward": 0.40601770151406524,
	"rewards/format_reward": 0.9107143133878708,
	"rewards/reasoning_steps_reward": 0.7297619603574276,
	"step": 360
	},
	{
	"completion_length": 763.6000320434571,
	"epoch": 0.7786666666666666,
	"grad_norm": 12.87435288128971,
	"kl": 2.571148681640625,
	"learning_rate": 4.2168169552342905e-07,
	"loss": 0.1028,
	"reward": 2.6531503438949584,
	"reward_std": 0.9446496672928333,
	"rewards/accuracy_reward": 0.6321428865194321,
	"rewards/cosine_scaled_reward": 0.38410261063836515,
	"rewards/format_reward": 0.9035714536905288,
	"rewards/reasoning_steps_reward": 0.7333333849906921,
	"step": 365
	},
	{
	"completion_length": 743.5286102294922,
	"epoch": 0.7893333333333333,
	"grad_norm": 9.936371570504198,
	"kl": 1.2698486328125,
	"learning_rate": 3.8353683358814046e-07,
	"loss": 0.0508,
	"reward": 2.7013536602258683,
	"reward_std": 0.862298522144556,
	"rewards/accuracy_reward": 0.6571428874507547,
	"rewards/cosine_scaled_reward": 0.4073059491813183,
	"rewards/format_reward": 0.9000000208616257,
	"rewards/reasoning_steps_reward": 0.7369048207998276,
	"step": 370
	},
	{
	"completion_length": 759.3643180847168,
	"epoch": 0.8,
	"grad_norm": 23.218570111303308,
	"kl": 2.2372650146484374,
	"learning_rate": 3.469460380826697e-07,
	"loss": 0.0895,
	"reward": 2.7877288803458216,
	"reward_std": 0.9023670472204686,
	"rewards/accuracy_reward": 0.6785714600235224,
	"rewards/cosine_scaled_reward": 0.4454668462276459,
	"rewards/format_reward": 0.9142857402563095,
	"rewards/reasoning_steps_reward": 0.7494048178195953,
	"step": 375
	},
	{
	"completion_length": 747.8786026000977,
	"epoch": 0.8106666666666666,
	"grad_norm": 5.9371726712745065,
	"kl": 1.312139892578125,
	"learning_rate": 3.119602417459075e-07,
	"loss": 0.0525,
	"reward": 2.8006283044815063,
	"reward_std": 0.8084595888853073,
	"rewards/accuracy_reward": 0.6607143096625805,
	"rewards/cosine_scaled_reward": 0.4244377123657614,
	"rewards/format_reward": 0.9464285865426063,
	"rewards/reasoning_steps_reward": 0.7690476909279823,
	"step": 380
	},
	{
	"completion_length": 746.4321762084961,
	"epoch": 0.8213333333333334,
	"grad_norm": 5.13518428447357,
	"kl": 0.994195556640625,
	"learning_rate": 2.786281432302071e-07,
	"loss": 0.0397,
	"reward": 2.861383581161499,
	"reward_std": 0.8250645313411951,
	"rewards/accuracy_reward": 0.7000000301748515,
	"rewards/cosine_scaled_reward": 0.44947873409837485,
	"rewards/format_reward": 0.9428571656346321,
	"rewards/reasoning_steps_reward": 0.7690476924180984,
	"step": 385
	},
	{
	"completion_length": 748.0875358581543,
	"epoch": 0.832,
	"grad_norm": 4.45042845549648,
	"kl": 1.18310546875,
	"learning_rate": 2.46996139315057e-07,
	"loss": 0.0474,
	"reward": 2.8951289474964144,
	"reward_std": 0.8875481400638818,
	"rewards/accuracy_reward": 0.7357143111526966,
	"rewards/cosine_scaled_reward": 0.4856050438596867,
	"rewards/format_reward": 0.9357143044471741,
	"rewards/reasoning_steps_reward": 0.738095298409462,
	"step": 390
	},
	{
	"completion_length": 742.2714614868164,
	"epoch": 0.8426666666666667,
	"grad_norm": 9.790655066948279,
	"kl": 1.13563232421875,
	"learning_rate": 2.1710826032485286e-07,
	"loss": 0.0454,
	"reward": 2.8695475578308107,
	"reward_std": 0.8187286149710417,
	"rewards/accuracy_reward": 0.7142857439815998,
	"rewards/cosine_scaled_reward": 0.4582379271276295,
	"rewards/format_reward": 0.9464285880327225,
	"rewards/reasoning_steps_reward": 0.7505952954292298,
	"step": 395
	},
	{
	"completion_length": 770.3428955078125,
	"epoch": 0.8533333333333334,
	"grad_norm": 4.399010377251051,
	"kl": 1.116912841796875,
	"learning_rate": 1.8900610884066817e-07,
	"loss": 0.0447,
	"reward": 2.7512567728757857,
	"reward_std": 0.9337207470089197,
	"rewards/accuracy_reward": 0.651785746961832,
	"rewards/cosine_scaled_reward": 0.4012566165998578,
	"rewards/format_reward": 0.9428571671247482,
	"rewards/reasoning_steps_reward": 0.7553571984171867,
	"step": 400
	},
	{
	"epoch": 0.8533333333333334,
	"eval_completion_length": 760.9953487792968,
	"eval_kl": 1.14858369140625,
	"eval_loss": 0.045983318239450455,
	"eval_reward": 2.729253951013088,
	"eval_reward_std": 0.8810034032523633,
	"eval_rewards/accuracy_reward": 0.6346000292986631,
	"eval_rewards/cosine_scaled_reward": 0.385330027777364,
	"eval_rewards/format_reward": 0.9519428731679916,
	"eval_rewards/reasoning_steps_reward": 0.7573810091674328,
	"eval_runtime": 34525.1878,
	"eval_samples_per_second": 0.145,
	"eval_steps_per_second": 0.01,
	"step": 400
	},
	{
	"completion_length": 753.4678894042969,
	"epoch": 0.864,
	"grad_norm": 4.304417705259892,
	"kl": 1.15230712890625,
	"learning_rate": 1.627288017913383e-07,
	"loss": 0.0461,
	"reward": 2.8077996015548705,
	"reward_std": 0.9062907833606004,
	"rewards/accuracy_reward": 0.676785746961832,
	"rewards/cosine_scaled_reward": 0.44053755011409523,
	"rewards/format_reward": 0.9517857328057289,
	"rewards/reasoning_steps_reward": 0.738690534979105,
	"step": 405
	},
	{
	"completion_length": 785.1232528686523,
	"epoch": 0.8746666666666667,
	"grad_norm": 5.246554486522317,
	"kl": 1.4623046875,
	"learning_rate": 1.3831291600445573e-07,
	"loss": 0.0585,
	"reward": 2.7128711313009264,
	"reward_std": 0.8996678274124861,
	"rewards/accuracy_reward": 0.6446428809314966,
	"rewards/cosine_scaled_reward": 0.4003709977958351,
	"rewards/format_reward": 0.9267857372760773,
	"rewards/reasoning_steps_reward": 0.7410714901983738,
	"step": 410
	},
	{
	"completion_length": 759.5286041259766,
	"epoch": 0.8853333333333333,
	"grad_norm": 4.4529003923911565,
	"kl": 0.970086669921875,
	"learning_rate": 1.1579243729307487e-07,
	"loss": 0.0388,
	"reward": 2.6863596469163893,
	"reward_std": 0.9374732062220573,
	"rewards/accuracy_reward": 0.6446428891271353,
	"rewards/cosine_scaled_reward": 0.3893356985412538,
	"rewards/format_reward": 0.9250000223517418,
	"rewards/reasoning_steps_reward": 0.7273810058832169,
	"step": 415
	},
	{
	"completion_length": 768.6143203735352,
	"epoch": 0.896,
	"grad_norm": 5.297256486680652,
	"kl": 1.40426025390625,
	"learning_rate": 9.519871314899092e-08,
	"loss": 0.0562,
	"reward": 2.7144743263721467,
	"reward_std": 0.9721049644052983,
	"rewards/accuracy_reward": 0.682142886146903,
	"rewards/cosine_scaled_reward": 0.4079266074113548,
	"rewards/format_reward": 0.9125000268220902,
	"rewards/reasoning_steps_reward": 0.7119048140943051,
	"step": 420
	},
	{
	"completion_length": 762.5839622497558,
	"epoch": 0.9066666666666666,
	"grad_norm": 5.808442367606542,
	"kl": 1.266558837890625,
	"learning_rate": 7.656040910844358e-08,
	"loss": 0.0507,
	"reward": 2.7946069568395613,
	"reward_std": 0.9051171492785215,
	"rewards/accuracy_reward": 0.6750000327825546,
	"rewards/cosine_scaled_reward": 0.42258303044363854,
	"rewards/format_reward": 0.9500000178813934,
	"rewards/reasoning_steps_reward": 0.7470238760113717,
	"step": 425
	},
	{
	"completion_length": 758.2143196105957,
	"epoch": 0.9173333333333333,
	"grad_norm": 4.124091919765889,
	"kl": 1.363201904296875,
	"learning_rate": 5.990346885098235e-08,
	"loss": 0.0546,
	"reward": 2.8003338128328323,
	"reward_std": 0.9829879272729158,
	"rewards/accuracy_reward": 0.698214316368103,
	"rewards/cosine_scaled_reward": 0.44914320297539234,
	"rewards/format_reward": 0.9303571596741677,
	"rewards/reasoning_steps_reward": 0.7226191096007824,
	"step": 430
	},
	{
	"completion_length": 761.5821762084961,
	"epoch": 0.928,
	"grad_norm": 41.306011448835555,
	"kl": 1.1220947265625,
	"learning_rate": 4.5251078087033493e-08,
	"loss": 0.0449,
	"reward": 2.9364974945783615,
	"reward_std": 0.9109487719833851,
	"rewards/accuracy_reward": 0.7285714596509933,
	"rewards/cosine_scaled_reward": 0.4841164079494774,
	"rewards/format_reward": 0.9303571656346321,
	"rewards/reasoning_steps_reward": 0.7934524446725846,
	"step": 435
	},
	{
	"completion_length": 762.6250328063965,
	"epoch": 0.9386666666666666,
	"grad_norm": 3.9945081680140406,
	"kl": 1.48448486328125,
	"learning_rate": 3.262363228443427e-08,
	"loss": 0.0594,
	"reward": 2.6933425307273864,
	"reward_std": 0.9241555985063314,
	"rewards/accuracy_reward": 0.6500000320374966,
	"rewards/cosine_scaled_reward": 0.399890087870881,
	"rewards/format_reward": 0.9357143074274064,
	"rewards/reasoning_steps_reward": 0.7077381528913975,
	"step": 440
	},
	{
	"completion_length": 768.3500335693359,
	"epoch": 0.9493333333333334,
	"grad_norm": 13.713505614062974,
	"kl": 1.749468994140625,
	"learning_rate": 2.2038708278862952e-08,
	"loss": 0.07,
	"reward": 2.676873904466629,
	"reward_std": 0.9034410756081342,
	"rewards/accuracy_reward": 0.6410714581608772,
	"rewards/cosine_scaled_reward": 0.3983023501932621,
	"rewards/format_reward": 0.9178571671247482,
	"rewards/reasoning_steps_reward": 0.7196429133415222,
	"step": 445
	},
	{
	"completion_length": 754.7732467651367,
	"epoch": 0.96,
	"grad_norm": 5.550660972818955,
	"kl": 1.152679443359375,
	"learning_rate": 1.3511039807673209e-08,
	"loss": 0.0461,
	"reward": 2.84182793200016,
	"reward_std": 0.8377097636461258,
	"rewards/accuracy_reward": 0.6964286038652062,
	"rewards/cosine_scaled_reward": 0.44599451111862437,
	"rewards/format_reward": 0.939285734295845,
	"rewards/reasoning_steps_reward": 0.7601191103458405,
	"step": 450
	},
	{
	"completion_length": 743.9089569091797,
	"epoch": 0.9706666666666667,
	"grad_norm": 2.2837748295404885,
	"kl": 0.9584228515625,
	"learning_rate": 7.0524970011963675e-09,
	"loss": 0.0383,
	"reward": 2.9682214707136154,
	"reward_std": 0.8571841098368168,
	"rewards/accuracy_reward": 0.7517857450991869,
	"rewards/cosine_scaled_reward": 0.5009594126604497,
	"rewards/format_reward": 0.9553571596741677,
	"rewards/reasoning_steps_reward": 0.7601191103458405,
	"step": 455
	},
	{
	"completion_length": 747.2446739196778,
	"epoch": 0.9813333333333333,
	"grad_norm": 60.34548052033379,
	"kl": 1.486627197265625,
	"learning_rate": 2.6720698600553595e-09,
	"loss": 0.0595,
	"reward": 2.8397951513528823,
	"reward_std": 0.8803306795656681,
	"rewards/accuracy_reward": 0.7000000329688192,
	"rewards/cosine_scaled_reward": 0.4570569400675595,
	"rewards/format_reward": 0.9517857328057289,
	"rewards/reasoning_steps_reward": 0.7309524327516556,
	"step": 460
	},
	{
	"completion_length": 766.3500358581543,
	"epoch": 0.992,
	"grad_norm": 18.459219357783663,
	"kl": 1.420770263671875,
	"learning_rate": 3.7585574148779613e-10,
	"loss": 0.0569,
	"reward": 2.704774260520935,
	"reward_std": 0.9208621602505446,
	"rewards/accuracy_reward": 0.6678571715950966,
	"rewards/cosine_scaled_reward": 0.4119170166202821,
	"rewards/format_reward": 0.8982143089175224,
	"rewards/reasoning_steps_reward": 0.72678577080369,
	"step": 465
	},
	{
	"completion_length": 773.5982462565104,
	"epoch": 0.9984,
	"kl": 1.5178934733072917,
	"reward": 2.810507302482923,
	"reward_std": 0.9296036226054033,
	"rewards/accuracy_reward": 0.6785714613894621,
	"rewards/cosine_scaled_reward": 0.44344370051597554,
	"rewards/format_reward": 0.9523809651533762,
	"rewards/reasoning_steps_reward": 0.7361111715435982,
	"step": 468,
	"total_flos": 0.0,
	"train_loss": 0.05152365299789334,
	"train_runtime": 191788.2346,
	"train_samples_per_second": 0.039,
	"train_steps_per_second": 0.002
	}
	],
	"logging_steps": 5,
	"max_steps": 468,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": false,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}