Qwen-2.5-7B-Simple-RL-E4 / trainer_state.json

chenggong1995

Model save

97449fc verified 3 months ago

34.8 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 3.992,
	"eval_steps": 100,
	"global_step": 372,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"clip_ratio": 0.0,
	"completion_length": 603.5946578979492,
	"epoch": 0.010666666666666666,
	"grad_norm": 0.5514267683029175,
	"kl": 0.0,
	"learning_rate": 7.894736842105262e-08,
	"loss": 0.02,
	"reward": 0.6678571403026581,
	"reward_std": 0.3216256983578205,
	"rewards/accuracy_reward": 0.6571428701281548,
	"rewards/format_reward": 0.010714285774156451,
	"step": 1
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 601.3660755157471,
	"epoch": 0.05333333333333334,
	"grad_norm": 0.26260125637054443,
	"kl": 0.00015875697135925293,
	"learning_rate": 3.9473684210526315e-07,
	"loss": 0.0497,
	"reward": 0.6678571440279484,
	"reward_std": 0.31925761327147484,
	"rewards/accuracy_reward": 0.6620535738766193,
	"rewards/format_reward": 0.0058035714901052415,
	"step": 5
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 580.2717948913574,
	"epoch": 0.10666666666666667,
	"grad_norm": 0.41621726751327515,
	"kl": 0.00022451877593994142,
	"learning_rate": 7.894736842105263e-07,
	"loss": 0.04,
	"reward": 0.6660714320838451,
	"reward_std": 0.3105974230915308,
	"rewards/accuracy_reward": 0.6582142896950245,
	"rewards/format_reward": 0.007857142924331128,
	"step": 10
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 601.5649993896484,
	"epoch": 0.16,
	"grad_norm": 0.8033285737037659,
	"kl": 0.0008542776107788086,
	"learning_rate": 1.1842105263157894e-06,
	"loss": 0.0401,
	"reward": 0.6753571435809136,
	"reward_std": 0.3171094346791506,
	"rewards/accuracy_reward": 0.6692857146263123,
	"rewards/format_reward": 0.006071428628638386,
	"step": 15
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 592.3267883300781,
	"epoch": 0.21333333333333335,
	"grad_norm": 5.2608418464660645,
	"kl": 0.002477073669433594,
	"learning_rate": 1.5789473684210526e-06,
	"loss": 0.0603,
	"reward": 0.724999999254942,
	"reward_std": 0.28942007161676886,
	"rewards/accuracy_reward": 0.7196428619325161,
	"rewards/format_reward": 0.005357142887078226,
	"step": 20
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 595.3885772705078,
	"epoch": 0.26666666666666666,
	"grad_norm": 1.9151082038879395,
	"kl": 0.004088020324707032,
	"learning_rate": 1.973684210526316e-06,
	"loss": 0.0597,
	"reward": 0.736785712838173,
	"reward_std": 0.25792951658368113,
	"rewards/accuracy_reward": 0.7317857101559639,
	"rewards/format_reward": 0.005000000027939678,
	"step": 25
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 617.260718536377,
	"epoch": 0.32,
	"grad_norm": 0.24098791182041168,
	"kl": 0.007413291931152343,
	"learning_rate": 2.368421052631579e-06,
	"loss": 0.0587,
	"reward": 0.7442857131361962,
	"reward_std": 0.22607315629720687,
	"rewards/accuracy_reward": 0.7432142853736877,
	"rewards/format_reward": 0.0010714285774156452,
	"step": 30
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 582.1746444702148,
	"epoch": 0.37333333333333335,
	"grad_norm": 0.15359072387218475,
	"kl": 0.002556610107421875,
	"learning_rate": 2.763157894736842e-06,
	"loss": 0.0581,
	"reward": 0.7835714235901833,
	"reward_std": 0.20161447767168283,
	"rewards/accuracy_reward": 0.7803571403026581,
	"rewards/format_reward": 0.0032142857555299996,
	"step": 35
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 600.7846466064453,
	"epoch": 0.4266666666666667,
	"grad_norm": 0.26131102442741394,
	"kl": 0.0032720565795898438,
	"learning_rate": 2.9997345912364375e-06,
	"loss": 0.0606,
	"reward": 0.7528571419417858,
	"reward_std": 0.21564750857651233,
	"rewards/accuracy_reward": 0.7450000010430813,
	"rewards/format_reward": 0.007857142924331128,
	"step": 40
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 576.6367889404297,
	"epoch": 0.48,
	"grad_norm": 0.3388746976852417,
	"kl": 0.006422805786132813,
	"learning_rate": 2.996749821181634e-06,
	"loss": 0.0272,
	"reward": 0.8014285683631897,
	"reward_std": 0.2300501298159361,
	"rewards/accuracy_reward": 0.7671428561210633,
	"rewards/format_reward": 0.034285714849829674,
	"step": 45
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 597.5764289855957,
	"epoch": 0.5333333333333333,
	"grad_norm": 0.31223493814468384,
	"kl": 0.011295318603515625,
	"learning_rate": 2.9904551426434754e-06,
	"loss": 0.0452,
	"reward": 0.856071425974369,
	"reward_std": 0.3176830269396305,
	"rewards/accuracy_reward": 0.746785718202591,
	"rewards/format_reward": 0.10928571680560709,
	"step": 50
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 574.4592880249023,
	"epoch": 0.5866666666666667,
	"grad_norm": 0.28976941108703613,
	"kl": 0.01858978271484375,
	"learning_rate": 2.980864475656959e-06,
	"loss": 0.0357,
	"reward": 0.9096428632736206,
	"reward_std": 0.35986471064388753,
	"rewards/accuracy_reward": 0.7403571456670761,
	"rewards/format_reward": 0.16928571905009449,
	"step": 55
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 565.7932189941406,
	"epoch": 0.64,
	"grad_norm": 0.5990632176399231,
	"kl": 0.06176605224609375,
	"learning_rate": 2.9679990289969723e-06,
	"loss": 0.026,
	"reward": 0.9946428626775742,
	"reward_std": 0.41035427935421465,
	"rewards/accuracy_reward": 0.7496428593993187,
	"rewards/format_reward": 0.24500000569969416,
	"step": 60
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 594.3525047302246,
	"epoch": 0.6933333333333334,
	"grad_norm": 0.7594552636146545,
	"kl": 0.041387939453125,
	"learning_rate": 2.951887253277264e-06,
	"loss": 0.0353,
	"reward": 0.9875000134110451,
	"reward_std": 0.40259603410959244,
	"rewards/accuracy_reward": 0.7228571429848671,
	"rewards/format_reward": 0.2646428645588458,
	"step": 65
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 618.348575592041,
	"epoch": 0.7466666666666667,
	"grad_norm": 0.4860813319683075,
	"kl": 0.0418487548828125,
	"learning_rate": 2.9325647780348364e-06,
	"loss": 0.0408,
	"reward": 0.9564285814762116,
	"reward_std": 0.4505664937198162,
	"rewards/accuracy_reward": 0.7017857164144516,
	"rewards/format_reward": 0.25464286394417285,
	"step": 70
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 629.8578582763672,
	"epoch": 0.8,
	"grad_norm": 1.0445483922958374,
	"kl": 0.095233154296875,
	"learning_rate": 2.9100743329388826e-06,
	"loss": 0.0442,
	"reward": 0.8553571477532387,
	"reward_std": 0.5062661200761795,
	"rewards/accuracy_reward": 0.6053571484982967,
	"rewards/format_reward": 0.25000000689178703,
	"step": 75
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 614.864640045166,
	"epoch": 0.8533333333333334,
	"grad_norm": 7.832869052886963,
	"kl": 0.3074462890625,
	"learning_rate": 2.884465653298514e-06,
	"loss": 0.0442,
	"reward": 0.6000000044703484,
	"reward_std": 0.5314710065722466,
	"rewards/accuracy_reward": 0.45214286893606187,
	"rewards/format_reward": 0.1478571461746469,
	"step": 80
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 607.6428573608398,
	"epoch": 0.9066666666666666,
	"grad_norm": 2.0023958683013916,
	"kl": 0.2650146484375,
	"learning_rate": 2.8557953700782305e-06,
	"loss": 0.0802,
	"reward": 0.4507142949849367,
	"reward_std": 0.39981199279427526,
	"rewards/accuracy_reward": 0.44285715110599994,
	"rewards/format_reward": 0.007857142924331128,
	"step": 85
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 638.4660736083985,
	"epoch": 0.96,
	"grad_norm": 12.028424263000488,
	"kl": 2.06630859375,
	"learning_rate": 2.8241268846643613e-06,
	"loss": 0.2324,
	"reward": 0.5167857263237238,
	"reward_std": 0.38161189407110213,
	"rewards/accuracy_reward": 0.5167857263237238,
	"rewards/format_reward": 0.0,
	"step": 90
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 645.2714347839355,
	"epoch": 1.0213333333333334,
	"grad_norm": 12.778322219848633,
	"kl": 2.92353515625,
	"learning_rate": 2.789530228659411e-06,
	"loss": 0.32,
	"reward": 0.5471428662538529,
	"reward_std": 0.3661020591855049,
	"rewards/accuracy_reward": 0.5467857226729393,
	"rewards/format_reward": 0.00035714285913854835,
	"step": 95
	},
	{
	"epoch": 1.0746666666666667,
	"grad_norm": 103.01477813720703,
	"learning_rate": 2.7520819090143655e-06,
	"loss": 0.3999,
	"step": 100
	},
	{
	"epoch": 1.0746666666666667,
	"eval_clip_ratio": 0.0,
	"eval_completion_length": 641.2306123046875,
	"eval_kl": 2.0040703125,
	"eval_loss": 0.2535090744495392,
	"eval_reward": 0.5025428644418717,
	"eval_reward_std": 0.32912875032424926,
	"eval_rewards/accuracy_reward": 0.5025142929553985,
	"eval_rewards/format_reward": 2.857142873108387e-05,
	"eval_runtime": 6399.9846,
	"eval_samples_per_second": 0.781,
	"eval_steps_per_second": 0.011,
	"step": 100
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 653.1387554168701,
	"epoch": 1.1280000000000001,
	"grad_norm": 10.29504108428955,
	"kl": 3.306494140625,
	"learning_rate": 2.711864738841427e-06,
	"loss": 0.313,
	"reward": 0.5321428634226322,
	"reward_std": 0.36240698825567963,
	"rewards/accuracy_reward": 0.5319642923772335,
	"rewards/format_reward": 0.00017857142956927418,
	"step": 105
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 622.9542854309082,
	"epoch": 1.1813333333333333,
	"grad_norm": 4.739567756652832,
	"kl": 2.80986328125,
	"learning_rate": 2.668967654281324e-06,
	"loss": 0.3163,
	"reward": 0.5210714336484671,
	"reward_std": 0.3654427368193865,
	"rewards/accuracy_reward": 0.5210714336484671,
	"rewards/format_reward": 0.0,
	"step": 110
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 633.2053619384766,
	"epoch": 1.2346666666666666,
	"grad_norm": 7.334438800811768,
	"kl": 2.38583984375,
	"learning_rate": 2.6234855178301717e-06,
	"loss": 0.2608,
	"reward": 0.5717857219278812,
	"reward_std": 0.34984773173928263,
	"rewards/accuracy_reward": 0.5717857219278812,
	"rewards/format_reward": 0.0,
	"step": 115
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 622.6389305114747,
	"epoch": 1.288,
	"grad_norm": 5.251643657684326,
	"kl": 7.957421875,
	"learning_rate": 2.5755189085608046e-06,
	"loss": 0.6151,
	"reward": 0.56142857670784,
	"reward_std": 0.36079162210226057,
	"rewards/accuracy_reward": 0.56142857670784,
	"rewards/format_reward": 0.0,
	"step": 120
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 608.3346481323242,
	"epoch": 1.3413333333333333,
	"grad_norm": 6.392853736877441,
	"kl": 3.24140625,
	"learning_rate": 2.5251738997024913e-06,
	"loss": 0.3223,
	"reward": 0.6085714355111123,
	"reward_std": 0.31923084184527395,
	"rewards/accuracy_reward": 0.6085714355111123,
	"rewards/format_reward": 0.0,
	"step": 125
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 579.453929901123,
	"epoch": 1.3946666666666667,
	"grad_norm": 4.198450088500977,
	"kl": 2.5896484375,
	"learning_rate": 2.4725618240708804e-06,
	"loss": 0.2742,
	"reward": 0.699642863869667,
	"reward_std": 0.297719220072031,
	"rewards/accuracy_reward": 0.699642863869667,
	"rewards/format_reward": 0.0,
	"step": 130
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 581.9385719299316,
	"epoch": 1.448,
	"grad_norm": 12.581628799438477,
	"kl": 3.10703125,
	"learning_rate": 2.417799027866917e-06,
	"loss": 0.277,
	"reward": 0.6610714331269264,
	"reward_std": 0.3010447319597006,
	"rewards/accuracy_reward": 0.6610714331269264,
	"rewards/format_reward": 0.0,
	"step": 135
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 623.4474975585938,
	"epoch": 1.5013333333333332,
	"grad_norm": 16.22210121154785,
	"kl": 3.727734375,
	"learning_rate": 2.3610066133891706e-06,
	"loss": 0.3426,
	"reward": 0.6021428607404232,
	"reward_std": 0.3193087562918663,
	"rewards/accuracy_reward": 0.6021428607404232,
	"rewards/format_reward": 0.0,
	"step": 140
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 604.1760726928711,
	"epoch": 1.5546666666666666,
	"grad_norm": 7.088801383972168,
	"kl": 2.53134765625,
	"learning_rate": 2.3023101712285398e-06,
	"loss": 0.2652,
	"reward": 0.620357146114111,
	"reward_std": 0.31110015958547593,
	"rewards/accuracy_reward": 0.620357146114111,
	"rewards/format_reward": 0.0,
	"step": 145
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 598.1307167053222,
	"epoch": 1.608,
	"grad_norm": 6.647467136383057,
	"kl": 3.04794921875,
	"learning_rate": 2.241839502537563e-06,
	"loss": 0.2696,
	"reward": 0.6471428565680981,
	"reward_std": 0.32793208621442316,
	"rewards/accuracy_reward": 0.6471428565680981,
	"rewards/format_reward": 0.0,
	"step": 150
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 591.0500015258789,
	"epoch": 1.6613333333333333,
	"grad_norm": 3.569319009780884,
	"kl": 3.45087890625,
	"learning_rate": 2.179728331988501e-06,
	"loss": 0.2897,
	"reward": 0.6439285717904568,
	"reward_std": 0.3045485220849514,
	"rewards/accuracy_reward": 0.6439285717904568,
	"rewards/format_reward": 0.0,
	"step": 155
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 592.1617858886718,
	"epoch": 1.7146666666666666,
	"grad_norm": 6.636693954467773,
	"kl": 3.13828125,
	"learning_rate": 2.116114012054961e-06,
	"loss": 0.2941,
	"reward": 0.6228571489453316,
	"reward_std": 0.3313132245093584,
	"rewards/accuracy_reward": 0.6228571489453316,
	"rewards/format_reward": 0.0,
	"step": 160
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 593.5107170104981,
	"epoch": 1.768,
	"grad_norm": 4.461601257324219,
	"kl": 2.5765625,
	"learning_rate": 2.0511372192710126e-06,
	"loss": 0.2504,
	"reward": 0.6128571487963199,
	"reward_std": 0.3229567937552929,
	"rewards/accuracy_reward": 0.6128571487963199,
	"rewards/format_reward": 0.0,
	"step": 165
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 573.807861328125,
	"epoch": 1.8213333333333335,
	"grad_norm": 9.668325424194336,
	"kl": 2.962890625,
	"learning_rate": 1.984941643139478e-06,
	"loss": 0.2452,
	"reward": 0.665357144922018,
	"reward_std": 0.28491050042212007,
	"rewards/accuracy_reward": 0.665357144922018,
	"rewards/format_reward": 0.0,
	"step": 170
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 593.6103607177735,
	"epoch": 1.8746666666666667,
	"grad_norm": 7.393840312957764,
	"kl": 2.665625,
	"learning_rate": 1.9176736683773613e-06,
	"loss": 0.2629,
	"reward": 0.6667857177555561,
	"reward_std": 0.29318542815744875,
	"rewards/accuracy_reward": 0.6667857177555561,
	"rewards/format_reward": 0.0,
	"step": 175
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 574.5892898559571,
	"epoch": 1.928,
	"grad_norm": 4.1402411460876465,
	"kl": 2.0453125,
	"learning_rate": 1.8494820512010797e-06,
	"loss": 0.2006,
	"reward": 0.651785721629858,
	"reward_std": 0.29290417619049547,
	"rewards/accuracy_reward": 0.651785721629858,
	"rewards/format_reward": 0.0,
	"step": 180
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 589.5732147216797,
	"epoch": 1.9813333333333332,
	"grad_norm": 8.444381713867188,
	"kl": 3.840625,
	"learning_rate": 1.780517590367375e-06,
	"loss": 0.2613,
	"reward": 0.6317857228219509,
	"reward_std": 0.3020774323493242,
	"rewards/accuracy_reward": 0.6317857228219509,
	"rewards/format_reward": 0.0,
	"step": 185
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 583.2778633117675,
	"epoch": 2.042666666666667,
	"grad_norm": 6.335790157318115,
	"kl": 2.2416015625,
	"learning_rate": 1.7109327936973479e-06,
	"loss": 0.2096,
	"reward": 0.6082142978906632,
	"reward_std": 0.31343335174024106,
	"rewards/accuracy_reward": 0.6082142978906632,
	"rewards/format_reward": 0.0,
	"step": 190
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 544.5621482849122,
	"epoch": 2.096,
	"grad_norm": 5.383208274841309,
	"kl": 2.64853515625,
	"learning_rate": 1.6408815408210818e-06,
	"loss": 0.1812,
	"reward": 0.6771428674459458,
	"reward_std": 0.29982126969844103,
	"rewards/accuracy_reward": 0.6771428674459458,
	"rewards/format_reward": 0.0,
	"step": 195
	},
	{
	"epoch": 2.1493333333333333,
	"grad_norm": 2.0144202709198,
	"learning_rate": 1.5705187428886465e-06,
	"loss": 0.1637,
	"step": 200
	},
	{
	"epoch": 2.1493333333333333,
	"eval_clip_ratio": 0.0,
	"eval_completion_length": 549.7326699829101,
	"eval_kl": 1.38025830078125,
	"eval_loss": 0.1164696142077446,
	"eval_reward": 0.6539142909049988,
	"eval_reward_std": 0.24548907431960107,
	"eval_rewards/accuracy_reward": 0.6538857194185257,
	"eval_rewards/format_reward": 2.857142873108387e-05,
	"eval_runtime": 6160.5151,
	"eval_samples_per_second": 0.812,
	"eval_steps_per_second": 0.012,
	"step": 200
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 559.5107177734375,
	"epoch": 2.2026666666666666,
	"grad_norm": 6.055785655975342,
	"kl": 1.8238037109375,
	"learning_rate": 1.5e-06,
	"loss": 0.1698,
	"reward": 0.7205357164144516,
	"reward_std": 0.25796807631850244,
	"rewards/accuracy_reward": 0.7205357164144516,
	"rewards/format_reward": 0.0,
	"step": 205
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 565.1600074768066,
	"epoch": 2.2560000000000002,
	"grad_norm": 3.3561553955078125,
	"kl": 1.442333984375,
	"learning_rate": 1.429481257111354e-06,
	"loss": 0.1369,
	"reward": 0.7003571465611458,
	"reward_std": 0.24939093235880136,
	"rewards/accuracy_reward": 0.7003571465611458,
	"rewards/format_reward": 0.0,
	"step": 210
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 566.3482208251953,
	"epoch": 2.3093333333333335,
	"grad_norm": 3.942612648010254,
	"kl": 1.7908203125,
	"learning_rate": 1.3591184591789185e-06,
	"loss": 0.1523,
	"reward": 0.6507142879068851,
	"reward_std": 0.2614848371595144,
	"rewards/accuracy_reward": 0.6507142879068851,
	"rewards/format_reward": 0.0,
	"step": 215
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 568.5274993896485,
	"epoch": 2.3626666666666667,
	"grad_norm": 2.1146202087402344,
	"kl": 1.714697265625,
	"learning_rate": 1.289067206302653e-06,
	"loss": 0.1557,
	"reward": 0.7114285722374916,
	"reward_std": 0.27491063699126245,
	"rewards/accuracy_reward": 0.7114285722374916,
	"rewards/format_reward": 0.0,
	"step": 220
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 569.0960746765137,
	"epoch": 2.416,
	"grad_norm": 3.0883631706237793,
	"kl": 2.18818359375,
	"learning_rate": 1.2194824096326252e-06,
	"loss": 0.1565,
	"reward": 0.6735714331269265,
	"reward_std": 0.30523640997707846,
	"rewards/accuracy_reward": 0.6735714331269265,
	"rewards/format_reward": 0.0,
	"step": 225
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 550.5975044250488,
	"epoch": 2.469333333333333,
	"grad_norm": 2.8128914833068848,
	"kl": 2.0109375,
	"learning_rate": 1.1505179487989203e-06,
	"loss": 0.1719,
	"reward": 0.6689285777509213,
	"reward_std": 0.3086254850029945,
	"rewards/accuracy_reward": 0.6689285777509213,
	"rewards/format_reward": 0.0,
	"step": 230
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 569.1417877197266,
	"epoch": 2.522666666666667,
	"grad_norm": 6.377042770385742,
	"kl": 2.2880859375,
	"learning_rate": 1.0823263316226388e-06,
	"loss": 0.1757,
	"reward": 0.6125000007450581,
	"reward_std": 0.3144677709788084,
	"rewards/accuracy_reward": 0.6125000007450581,
	"rewards/format_reward": 0.0,
	"step": 235
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 573.9864295959472,
	"epoch": 2.576,
	"grad_norm": 3.2370288372039795,
	"kl": 1.9962890625,
	"learning_rate": 1.0150583568605221e-06,
	"loss": 0.1604,
	"reward": 0.6492857195436954,
	"reward_std": 0.2943309750407934,
	"rewards/accuracy_reward": 0.6492857195436954,
	"rewards/format_reward": 0.0,
	"step": 240
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 575.0525032043457,
	"epoch": 2.6293333333333333,
	"grad_norm": 1.6219196319580078,
	"kl": 2.58681640625,
	"learning_rate": 9.488627807289882e-07,
	"loss": 0.2006,
	"reward": 0.6407142907381058,
	"reward_std": 0.3086009453982115,
	"rewards/accuracy_reward": 0.6403571471571923,
	"rewards/format_reward": 0.00035714285913854835,
	"step": 245
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 542.7453628540039,
	"epoch": 2.6826666666666665,
	"grad_norm": 5.958657741546631,
	"kl": 1.9966796875,
	"learning_rate": 8.838859879450389e-07,
	"loss": 0.1441,
	"reward": 0.6871428593993187,
	"reward_std": 0.2942324198782444,
	"rewards/accuracy_reward": 0.6871428593993187,
	"rewards/format_reward": 0.0,
	"step": 250
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 575.7157119750976,
	"epoch": 2.7359999999999998,
	"grad_norm": 6.527657985687256,
	"kl": 2.8220703125,
	"learning_rate": 8.202716680115e-07,
	"loss": 0.2219,
	"reward": 0.6150000065565109,
	"reward_std": 0.31769666373729705,
	"rewards/accuracy_reward": 0.6150000065565109,
	"rewards/format_reward": 0.0,
	"step": 255
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 557.6946426391602,
	"epoch": 2.7893333333333334,
	"grad_norm": 1.3546433448791504,
	"kl": 2.30390625,
	"learning_rate": 7.581604974624371e-07,
	"loss": 0.1946,
	"reward": 0.6285714358091354,
	"reward_std": 0.3216796424239874,
	"rewards/accuracy_reward": 0.6285714358091354,
	"rewards/format_reward": 0.0,
	"step": 260
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 558.1150016784668,
	"epoch": 2.8426666666666667,
	"grad_norm": 5.478274822235107,
	"kl": 2.551171875,
	"learning_rate": 6.976898287714604e-07,
	"loss": 0.1833,
	"reward": 0.6185714341700077,
	"reward_std": 0.28562614060938357,
	"rewards/accuracy_reward": 0.6185714341700077,
	"rewards/format_reward": 0.0,
	"step": 265
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 573.2803550720215,
	"epoch": 2.896,
	"grad_norm": 3.3262879848480225,
	"kl": 2.02880859375,
	"learning_rate": 6.389933866108296e-07,
	"loss": 0.1675,
	"reward": 0.6442857190966607,
	"reward_std": 0.31180151328444483,
	"rewards/accuracy_reward": 0.6442857190966607,
	"rewards/format_reward": 0.0,
	"step": 270
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 569.5950019836425,
	"epoch": 2.9493333333333336,
	"grad_norm": 4.308130741119385,
	"kl": 2.551171875,
	"learning_rate": 5.822009721330832e-07,
	"loss": 0.198,
	"reward": 0.5975000038743019,
	"reward_std": 0.30098386816680434,
	"rewards/accuracy_reward": 0.5975000038743019,
	"rewards/format_reward": 0.0,
	"step": 275
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 563.0910797119141,
	"epoch": 3.010666666666667,
	"grad_norm": 3.7203142642974854,
	"kl": 2.0693359375,
	"learning_rate": 5.2743817592912e-07,
	"loss": 0.1603,
	"reward": 0.5892857205122709,
	"reward_std": 0.31964287385344503,
	"rewards/accuracy_reward": 0.5892857205122709,
	"rewards/format_reward": 0.0,
	"step": 280
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 557.4032203674317,
	"epoch": 3.064,
	"grad_norm": 16.83099365234375,
	"kl": 2.18056640625,
	"learning_rate": 4.7482610029750927e-07,
	"loss": 0.1523,
	"reward": 0.628214293718338,
	"reward_std": 0.3107015870511532,
	"rewards/accuracy_reward": 0.628214293718338,
	"rewards/format_reward": 0.0,
	"step": 285
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 568.0471504211425,
	"epoch": 3.1173333333333333,
	"grad_norm": 3.361072540283203,
	"kl": 2.8162109375,
	"learning_rate": 4.244810914391956e-07,
	"loss": 0.1969,
	"reward": 0.6132142916321754,
	"reward_std": 0.3081982746720314,
	"rewards/accuracy_reward": 0.6132142916321754,
	"rewards/format_reward": 0.0,
	"step": 290
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 568.8232192993164,
	"epoch": 3.1706666666666665,
	"grad_norm": 2.53417706489563,
	"kl": 2.3166015625,
	"learning_rate": 3.7651448216982855e-07,
	"loss": 0.183,
	"reward": 0.586428577452898,
	"reward_std": 0.3080826660618186,
	"rewards/accuracy_reward": 0.586428577452898,
	"rewards/format_reward": 0.0,
	"step": 295
	},
	{
	"epoch": 3.224,
	"grad_norm": 2.580390453338623,
	"learning_rate": 3.3103234571867633e-07,
	"loss": 0.1789,
	"step": 300
	},
	{
	"epoch": 3.224,
	"eval_clip_ratio": 0.0,
	"eval_completion_length": 557.1966226196289,
	"eval_kl": 2.1642421875,
	"eval_loss": 0.16605359315872192,
	"eval_reward": 0.574000006556511,
	"eval_reward_std": 0.2975393404364586,
	"eval_rewards/accuracy_reward": 0.574000006556511,
	"eval_rewards/format_reward": 0.0,
	"eval_runtime": 6248.4374,
	"eval_samples_per_second": 0.8,
	"eval_steps_per_second": 0.012,
	"step": 300
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 566.4307189941406,
	"epoch": 3.2773333333333334,
	"grad_norm": 3.120903253555298,
	"kl": 2.376708984375,
	"learning_rate": 2.8813526115857293e-07,
	"loss": 0.1996,
	"reward": 0.6005357194691896,
	"reward_std": 0.32622543424367906,
	"rewards/accuracy_reward": 0.6005357194691896,
	"rewards/format_reward": 0.0,
	"step": 305
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 572.9203590393066,
	"epoch": 3.3306666666666667,
	"grad_norm": 3.122821807861328,
	"kl": 2.814453125,
	"learning_rate": 2.479180909856347e-07,
	"loss": 0.2152,
	"reward": 0.5971428655087948,
	"reward_std": 0.31468545868992803,
	"rewards/accuracy_reward": 0.5971428655087948,
	"rewards/format_reward": 0.0,
	"step": 310
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 581.5917861938476,
	"epoch": 3.384,
	"grad_norm": 1.9867832660675049,
	"kl": 2.5201171875,
	"learning_rate": 2.104697713405892e-07,
	"loss": 0.2019,
	"reward": 0.5767857223749161,
	"reward_std": 0.3214090891182423,
	"rewards/accuracy_reward": 0.5767857223749161,
	"rewards/format_reward": 0.0,
	"step": 315
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 553.7017860412598,
	"epoch": 3.437333333333333,
	"grad_norm": 3.077442169189453,
	"kl": 1.91484375,
	"learning_rate": 1.7587311533563887e-07,
	"loss": 0.1889,
	"reward": 0.6357142955064774,
	"reward_std": 0.31964287273585795,
	"rewards/accuracy_reward": 0.6357142955064774,
	"rewards/format_reward": 0.0,
	"step": 320
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 575.9078590393067,
	"epoch": 3.490666666666667,
	"grad_norm": 4.862219333648682,
	"kl": 2.2921875,
	"learning_rate": 1.4420462992176975e-07,
	"loss": 0.1884,
	"reward": 0.592500003427267,
	"reward_std": 0.3214297264814377,
	"rewards/accuracy_reward": 0.592500003427267,
	"rewards/format_reward": 0.0,
	"step": 325
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 583.7278625488282,
	"epoch": 3.544,
	"grad_norm": 2.4073171615600586,
	"kl": 2.33125,
	"learning_rate": 1.1553434670148605e-07,
	"loss": 0.2008,
	"reward": 0.6000000059604644,
	"reward_std": 0.317187948897481,
	"rewards/accuracy_reward": 0.6000000059604644,
	"rewards/format_reward": 0.0,
	"step": 330
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 575.1992881774902,
	"epoch": 3.5973333333333333,
	"grad_norm": 2.900181770324707,
	"kl": 2.4134765625,
	"learning_rate": 8.992566706111727e-08,
	"loss": 0.2086,
	"reward": 0.6085714355111123,
	"reward_std": 0.3346530221402645,
	"rewards/accuracy_reward": 0.6085714355111123,
	"rewards/format_reward": 0.0,
	"step": 335
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 563.7471504211426,
	"epoch": 3.6506666666666665,
	"grad_norm": 3.253260612487793,
	"kl": 2.58330078125,
	"learning_rate": 6.743522196516388e-08,
	"loss": 0.2354,
	"reward": 0.5932142935693264,
	"reward_std": 0.33793471828103067,
	"rewards/accuracy_reward": 0.5932142935693264,
	"rewards/format_reward": 0.0,
	"step": 340
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 572.4153633117676,
	"epoch": 3.7039999999999997,
	"grad_norm": 2.292677402496338,
	"kl": 2.8171875,
	"learning_rate": 4.811274672273652e-08,
	"loss": 0.231,
	"reward": 0.6085714347660541,
	"reward_std": 0.33270861953496933,
	"rewards/accuracy_reward": 0.6085714347660541,
	"rewards/format_reward": 0.0,
	"step": 345
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 562.8014366149903,
	"epoch": 3.7573333333333334,
	"grad_norm": 2.846649646759033,
	"kl": 2.5126953125,
	"learning_rate": 3.200097100302812e-08,
	"loss": 0.1962,
	"reward": 0.5917857199907303,
	"reward_std": 0.3207391370087862,
	"rewards/accuracy_reward": 0.5917857199907303,
	"rewards/format_reward": 0.0,
	"step": 350
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 579.4639297485352,
	"epoch": 3.8106666666666666,
	"grad_norm": 3.3534533977508545,
	"kl": 2.56982421875,
	"learning_rate": 1.9135524343040946e-08,
	"loss": 0.2111,
	"reward": 0.5914285771548748,
	"reward_std": 0.3343843434005976,
	"rewards/accuracy_reward": 0.5914285771548748,
	"rewards/format_reward": 0.0,
	"step": 355
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 570.3239334106445,
	"epoch": 3.864,
	"grad_norm": 3.263777256011963,
	"kl": 2.66884765625,
	"learning_rate": 9.54485735652455e-09,
	"loss": 0.2102,
	"reward": 0.5882142938673496,
	"reward_std": 0.32250265777111053,
	"rewards/accuracy_reward": 0.5882142938673496,
	"rewards/format_reward": 0.0,
	"step": 360
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 569.3417884826661,
	"epoch": 3.9173333333333336,
	"grad_norm": 3.1193442344665527,
	"kl": 2.36357421875,
	"learning_rate": 3.2501788183657564e-09,
	"loss": 0.18,
	"reward": 0.6117857240140439,
	"reward_std": 0.32440952584147453,
	"rewards/accuracy_reward": 0.6117857240140439,
	"rewards/format_reward": 0.0,
	"step": 365
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 574.9478591918945,
	"epoch": 3.970666666666667,
	"grad_norm": 1.893235206604004,
	"kl": 2.492578125,
	"learning_rate": 2.6540876356256906e-10,
	"loss": 0.2069,
	"reward": 0.6153571508824826,
	"reward_std": 0.3225582234561443,
	"rewards/accuracy_reward": 0.6153571508824826,
	"rewards/format_reward": 0.0,
	"step": 370
	},
	{
	"clip_ratio": 0.0,
	"completion_length": 523.5830421447754,
	"epoch": 3.992,
	"kl": 2.380859375,
	"reward": 0.5919642969965935,
	"reward_std": 0.32083501014858484,
	"rewards/accuracy_reward": 0.5919642969965935,
	"rewards/format_reward": 0.0,
	"step": 372,
	"total_flos": 0.0,
	"train_loss": 0.18514081492258977,
	"train_runtime": 65688.6828,
	"train_samples_per_second": 0.457,
	"train_steps_per_second": 0.006
	}
	],
	"logging_steps": 5,
	"max_steps": 372,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 4,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": false,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 14,
	"trial_name": null,
	"trial_params": null
	}