Qwen-2.5-7B-Simple-RL / trainer_state.json

Model save

f169e5b verified 3 months ago

15.7 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 2.9211087420042645,
	"eval_steps": 100,
	"global_step": 170,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"completion_length": 613.281721496582,
	"epoch": 0.08528784648187633,
	"grad_norm": 4.2232208251953125,
	"kl": 0.00017681121826171876,
	"learning_rate": 2.5e-06,
	"loss": 0.0,
	"reward": 0.6537946701049805,
	"reward_std": 0.3218739811331034,
	"rewards/accuracy_reward": 0.6537946701049805,
	"rewards/format_reward2": 0.0,
	"step": 5
	},
	{
	"completion_length": 618.741323852539,
	"epoch": 0.17057569296375266,
	"grad_norm": 0.7694841027259827,
	"kl": 0.23766450881958007,
	"learning_rate": 2.956412726139078e-06,
	"loss": 0.0095,
	"reward": 0.7125000342726707,
	"reward_std": 0.26975345350801944,
	"rewards/accuracy_reward": 0.7125000342726707,
	"rewards/format_reward2": 0.0,
	"step": 10
	},
	{
	"completion_length": 625.0417678833007,
	"epoch": 0.255863539445629,
	"grad_norm": 0.11407410353422165,
	"kl": 0.00294036865234375,
	"learning_rate": 2.7836719084521715e-06,
	"loss": 0.0001,
	"reward": 0.7500000342726707,
	"reward_std": 0.2328610809519887,
	"rewards/accuracy_reward": 0.7500000342726707,
	"rewards/format_reward2": 0.0,
	"step": 15
	},
	{
	"completion_length": 604.2779296875,
	"epoch": 0.3411513859275053,
	"grad_norm": 0.10821383446455002,
	"kl": 0.0032527923583984377,
	"learning_rate": 2.4946839873611927e-06,
	"loss": 0.0001,
	"reward": 0.7553571820259094,
	"reward_std": 0.21391915678977966,
	"rewards/accuracy_reward": 0.7553571820259094,
	"rewards/format_reward2": 0.0,
	"step": 20
	},
	{
	"completion_length": 611.8196701049804,
	"epoch": 0.42643923240938164,
	"grad_norm": 0.1587938815355301,
	"kl": 0.003980827331542969,
	"learning_rate": 2.1156192081791355e-06,
	"loss": 0.0002,
	"reward": 0.755357176065445,
	"reward_std": 0.1927801643498242,
	"rewards/accuracy_reward": 0.755357176065445,
	"rewards/format_reward2": 0.0,
	"step": 25
	},
	{
	"completion_length": 614.662525177002,
	"epoch": 0.511727078891258,
	"grad_norm": 0.1258433312177658,
	"kl": 0.0038448333740234374,
	"learning_rate": 1.6808050203829845e-06,
	"loss": 0.0002,
	"reward": 0.7575893223285675,
	"reward_std": 0.18457154743373394,
	"rewards/accuracy_reward": 0.7575893223285675,
	"rewards/format_reward2": 0.0,
	"step": 30
	},
	{
	"completion_length": 599.8576171875,
	"epoch": 0.5970149253731343,
	"grad_norm": 0.088959701359272,
	"kl": 0.004636383056640625,
	"learning_rate": 1.2296174432791415e-06,
	"loss": 0.0002,
	"reward": 0.7524553865194321,
	"reward_std": 0.1772271953523159,
	"rewards/accuracy_reward": 0.7524553865194321,
	"rewards/format_reward2": 0.0,
	"step": 35
	},
	{
	"completion_length": 587.4435562133789,
	"epoch": 0.6823027718550106,
	"grad_norm": 0.08021266013383865,
	"kl": 0.004290008544921875,
	"learning_rate": 8.029152419343472e-07,
	"loss": 0.0002,
	"reward": 0.7700893208384514,
	"reward_std": 0.1737084028776735,
	"rewards/accuracy_reward": 0.7700893208384514,
	"rewards/format_reward2": 0.0,
	"step": 40
	},
	{
	"completion_length": 605.4605155944824,
	"epoch": 0.767590618336887,
	"grad_norm": 0.0632205456495285,
	"kl": 0.003778839111328125,
	"learning_rate": 4.3933982822017883e-07,
	"loss": 0.0002,
	"reward": 0.7537946745753288,
	"reward_std": 0.1909334436058998,
	"rewards/accuracy_reward": 0.7537946745753288,
	"rewards/format_reward2": 0.0,
	"step": 45
	},
	{
	"completion_length": 606.9638671875,
	"epoch": 0.8528784648187633,
	"grad_norm": 0.08492382615804672,
	"kl": 0.003963851928710937,
	"learning_rate": 1.718159615201853e-07,
	"loss": 0.0002,
	"reward": 0.7578125342726707,
	"reward_std": 0.1673258093651384,
	"rewards/accuracy_reward": 0.7578125342726707,
	"rewards/format_reward2": 0.0,
	"step": 50
	},
	{
	"completion_length": 599.2339523315429,
	"epoch": 0.9381663113006397,
	"grad_norm": 0.07253226637840271,
	"kl": 0.011330032348632812,
	"learning_rate": 2.4570139579284723e-08,
	"loss": 0.0005,
	"reward": 0.7895089671015739,
	"reward_std": 0.17561167925596238,
	"rewards/accuracy_reward": 0.7895089671015739,
	"rewards/format_reward2": 0.0,
	"step": 55
	},
	{
	"completion_length": 578.6864166259766,
	"epoch": 1.0341151385927505,
	"grad_norm": 0.12633396685123444,
	"kl": 0.003711700439453125,
	"learning_rate": 5.358185854701909e-07,
	"loss": 0.0001,
	"reward": 0.7918527200818062,
	"reward_std": 0.17118105152621865,
	"rewards/accuracy_reward": 0.7918527200818062,
	"rewards/format_reward4": 0.0,
	"step": 60
	},
	{
	"completion_length": 579.6618591308594,
	"epoch": 1.1194029850746268,
	"grad_norm": 0.0748809352517128,
	"kl": 0.00350341796875,
	"learning_rate": 3.0996998956314745e-07,
	"loss": 0.0001,
	"reward": 0.7732143223285675,
	"reward_std": 0.1733042700216174,
	"rewards/accuracy_reward": 0.7732143223285675,
	"rewards/format_reward4": 0.0,
	"step": 65
	},
	{
	"completion_length": 564.5884208679199,
	"epoch": 1.2046908315565032,
	"grad_norm": 0.17819823324680328,
	"kl": 0.003855133056640625,
	"learning_rate": 1.405383194450251e-07,
	"loss": 0.0002,
	"reward": 0.8015625357627869,
	"reward_std": 0.16864687129855155,
	"rewards/accuracy_reward": 0.8015625357627869,
	"rewards/format_reward4": 0.0,
	"step": 70
	},
	{
	"completion_length": 561.2647575378418,
	"epoch": 1.2899786780383795,
	"grad_norm": 0.08583667129278183,
	"kl": 0.0035480499267578126,
	"learning_rate": 3.5555989320099955e-08,
	"loss": 0.0001,
	"reward": 0.7986607506871224,
	"reward_std": 0.15244121365249158,
	"rewards/accuracy_reward": 0.7986607506871224,
	"rewards/format_reward4": 0.0,
	"step": 75
	},
	{
	"completion_length": 572.7236892700196,
	"epoch": 1.375266524520256,
	"grad_norm": 0.13771697878837585,
	"kl": 0.0034299850463867187,
	"learning_rate": 0.0,
	"loss": 0.0001,
	"reward": 0.8002232491970063,
	"reward_std": 0.15689483480527996,
	"rewards/accuracy_reward": 0.8002232491970063,
	"rewards/format_reward4": 0.0,
	"step": 80
	},
	{
	"completion_length": 578.9810539245606,
	"epoch": 1.4605543710021323,
	"grad_norm": 2.014723777770996,
	"kl": 0.010892486572265625,
	"learning_rate": 2.0096189432334195e-07,
	"loss": 0.0004,
	"reward": 0.7611607536673546,
	"reward_std": 0.18238836526870728,
	"rewards/accuracy_reward": 0.7611607536673546,
	"rewards/format_reward4": 0.0,
	"step": 85
	},
	{
	"completion_length": 589.071681213379,
	"epoch": 1.5458422174840085,
	"grad_norm": 0.07733023166656494,
	"kl": 0.00322265625,
	"learning_rate": 9.046106882113752e-08,
	"loss": 0.0001,
	"reward": 0.7718750327825546,
	"reward_std": 0.16937124980613588,
	"rewards/accuracy_reward": 0.7718750327825546,
	"rewards/format_reward4": 0.0,
	"step": 90
	},
	{
	"completion_length": 584.4857421875,
	"epoch": 1.6311300639658848,
	"grad_norm": 0.08772465586662292,
	"kl": 0.003212738037109375,
	"learning_rate": 2.278837048168797e-08,
	"loss": 0.0001,
	"reward": 0.765625037252903,
	"reward_std": 0.17046672012656927,
	"rewards/accuracy_reward": 0.765625037252903,
	"rewards/format_reward4": 0.0,
	"step": 95
	},
	{
	"completion_length": 584.8821662902832,
	"epoch": 1.716417910447761,
	"grad_norm": 0.09350935369729996,
	"kl": 0.0032810211181640626,
	"learning_rate": 0.0,
	"loss": 0.0001,
	"reward": 0.7743303939700127,
	"reward_std": 0.17159467502497136,
	"rewards/accuracy_reward": 0.7743303939700127,
	"rewards/format_reward4": 0.0,
	"step": 100
	},
	{
	"epoch": 1.716417910447761,
	"eval_completion_length": 572.5716213433507,
	"eval_kl": 0.004271193434255192,
	"eval_loss": 0.00017078800010494888,
	"eval_reward": 0.6897820954124767,
	"eval_reward_std": 0.20645368708589207,
	"eval_rewards/accuracy_reward": 0.6897820954124767,
	"eval_rewards/format_reward4": 0.0,
	"eval_runtime": 10542.252,
	"eval_samples_per_second": 0.474,
	"eval_steps_per_second": 0.004,
	"step": 100
	},
	{
	"completion_length": 593.587084197998,
	"epoch": 1.8017057569296375,
	"grad_norm": 0.07390806823968887,
	"kl": 0.00316009521484375,
	"learning_rate": 3.2546120637356677e-07,
	"loss": 0.0001,
	"reward": 0.7497768238186836,
	"reward_std": 0.18519118977710605,
	"rewards/accuracy_reward": 0.7497768238186836,
	"rewards/format_reward4": 0.0,
	"step": 105
	},
	{
	"completion_length": 589.4265899658203,
	"epoch": 1.886993603411514,
	"grad_norm": 0.07380172610282898,
	"kl": 0.0030284881591796874,
	"learning_rate": 2.1114787115667477e-07,
	"loss": 0.0001,
	"reward": 0.7691964611411095,
	"reward_std": 0.1665174851194024,
	"rewards/accuracy_reward": 0.7691964611411095,
	"rewards/format_reward4": 0.0,
	"step": 110
	},
	{
	"completion_length": 581.2207862854004,
	"epoch": 1.9722814498933903,
	"grad_norm": 0.06949003785848618,
	"kl": 0.003309822082519531,
	"learning_rate": 1.2003083451176365e-07,
	"loss": 0.0001,
	"reward": 0.7843750312924385,
	"reward_std": 0.17008549151942134,
	"rewards/accuracy_reward": 0.7843750312924385,
	"rewards/format_reward4": 0.0,
	"step": 115
	},
	{
	"completion_length": 576.8970560709636,
	"epoch": 2.068230277185501,
	"grad_norm": 0.0717669427394867,
	"kl": 0.0029771592881944445,
	"learning_rate": 5.374998819965654e-08,
	"loss": 0.0001,
	"reward": 0.7791667024294535,
	"reward_std": 0.1727727702094449,
	"rewards/accuracy_reward": 0.7791667024294535,
	"rewards/format_reward4": 0.0,
	"step": 120
	},
	{
	"completion_length": 552.3944480895996,
	"epoch": 2.1535181236673773,
	"grad_norm": 3.9083805084228516,
	"kl": 0.00341339111328125,
	"learning_rate": 1.3498231131137295e-08,
	"loss": 0.0001,
	"reward": 0.7910714641213417,
	"reward_std": 0.15105125531554223,
	"rewards/accuracy_reward": 0.7910714641213417,
	"rewards/format_reward4": 0.0,
	"step": 125
	},
	{
	"completion_length": 586.4814987182617,
	"epoch": 2.2388059701492535,
	"grad_norm": 0.08841477334499359,
	"kl": 0.0033771514892578123,
	"learning_rate": 0.0,
	"loss": 0.0001,
	"reward": 0.7645089626312256,
	"reward_std": 0.16334964451380074,
	"rewards/accuracy_reward": 0.7645089626312256,
	"rewards/format_reward4": 0.0,
	"step": 130
	},
	{
	"completion_length": 562.0841804504395,
	"epoch": 2.3240938166311302,
	"grad_norm": 0.0749669224023819,
	"kl": 0.003040122985839844,
	"learning_rate": 3.709719800782133e-07,
	"loss": 0.0001,
	"reward": 0.8017857521772385,
	"reward_std": 0.1651908096857369,
	"rewards/accuracy_reward": 0.8017857521772385,
	"rewards/format_reward4": 0.0,
	"step": 135
	},
	{
	"completion_length": 568.1428817749023,
	"epoch": 2.4093816631130065,
	"grad_norm": 0.06772708147764206,
	"kl": 0.0032039642333984374,
	"learning_rate": 2.757046314656676e-07,
	"loss": 0.0001,
	"reward": 0.799776816368103,
	"reward_std": 0.15835139667615294,
	"rewards/accuracy_reward": 0.799776816368103,
	"rewards/format_reward4": 0.0,
	"step": 140
	},
	{
	"completion_length": 576.2410957336426,
	"epoch": 2.4946695095948828,
	"grad_norm": 0.07914450764656067,
	"kl": 0.0030412673950195312,
	"learning_rate": 1.9333050887001336e-07,
	"loss": 0.0001,
	"reward": 0.772544676065445,
	"reward_std": 0.1686524854041636,
	"rewards/accuracy_reward": 0.772544676065445,
	"rewards/format_reward4": 0.0,
	"step": 145
	},
	{
	"completion_length": 580.0102951049805,
	"epoch": 2.579957356076759,
	"grad_norm": 0.09259422868490219,
	"kl": 0.0027721405029296877,
	"learning_rate": 1.2471710571470578e-07,
	"loss": 0.0001,
	"reward": 0.7595982506871224,
	"reward_std": 0.15487177977338434,
	"rewards/accuracy_reward": 0.7595982506871224,
	"rewards/format_reward4": 0.0,
	"step": 150
	},
	{
	"completion_length": 568.7931098937988,
	"epoch": 2.6652452025586353,
	"grad_norm": 0.33623555302619934,
	"kl": 0.003169822692871094,
	"learning_rate": 7.058699935926527e-08,
	"loss": 0.0001,
	"reward": 0.7776786103844643,
	"reward_std": 0.1605815477669239,
	"rewards/accuracy_reward": 0.7776786103844643,
	"rewards/format_reward4": 0.0,
	"step": 155
	},
	{
	"completion_length": 597.3964576721191,
	"epoch": 2.750533049040512,
	"grad_norm": 0.07021904736757278,
	"kl": 0.0028789520263671877,
	"learning_rate": 3.151024153589321e-08,
	"loss": 0.0001,
	"reward": 0.7546875327825546,
	"reward_std": 0.18458664841018618,
	"rewards/accuracy_reward": 0.7546875327825546,
	"rewards/format_reward4": 0.0,
	"step": 160
	},
	{
	"completion_length": 582.8522552490234,
	"epoch": 2.835820895522388,
	"grad_norm": 0.10628537088632584,
	"kl": 0.0029039382934570312,
	"learning_rate": 7.898355054830719e-09,
	"loss": 0.0001,
	"reward": 0.7602678939700127,
	"reward_std": 0.17046223413199185,
	"rewards/accuracy_reward": 0.7602678939700127,
	"rewards/format_reward4": 0.0,
	"step": 165
	},
	{
	"completion_length": 577.0710075378418,
	"epoch": 2.9211087420042645,
	"grad_norm": 0.09094743430614471,
	"kl": 0.0032497406005859374,
	"learning_rate": 0.0,
	"loss": 0.0001,
	"reward": 0.779241107404232,
	"reward_std": 0.16634787572547793,
	"rewards/accuracy_reward": 0.779241107404232,
	"rewards/format_reward4": 0.0,
	"step": 170
	},
	{
	"epoch": 2.9211087420042645,
	"step": 170,
	"total_flos": 0.0,
	"train_loss": 2.8551620540811734e-05,
	"train_runtime": 11823.9785,
	"train_samples_per_second": 12.882,
	"train_steps_per_second": 0.014
	}
	],
	"logging_steps": 5,
	"max_steps": 170,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 16,
	"trial_name": null,
	"trial_params": null
	}