Qwen2.5-1.5B-MATH-lighteval-gen-SFT / trainer_state.json

Model save

2f034d1 verified 3 months ago

9.35 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 5.0,
	"eval_steps": 20,
	"global_step": 130,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.19230769230769232,
	"grad_norm": 0.8752671869306899,
	"learning_rate": 9.692307692307693e-06,
	"loss": 0.2364,
	"mean_token_accuracy": 0.927388173341751,
	"num_tokens": 654484.0,
	"step": 5
	},
	{
	"epoch": 0.38461538461538464,
	"grad_norm": 0.5912352927421961,
	"learning_rate": 9.307692307692308e-06,
	"loss": 0.2175,
	"mean_token_accuracy": 0.9301090151071548,
	"num_tokens": 1308735.0,
	"step": 10
	},
	{
	"epoch": 0.5769230769230769,
	"grad_norm": 0.5167232252277533,
	"learning_rate": 8.923076923076925e-06,
	"loss": 0.2043,
	"mean_token_accuracy": 0.933148954808712,
	"num_tokens": 1963205.0,
	"step": 15
	},
	{
	"epoch": 0.7692307692307693,
	"grad_norm": 0.43810472204253587,
	"learning_rate": 8.53846153846154e-06,
	"loss": 0.2092,
	"mean_token_accuracy": 0.9336670354008675,
	"num_tokens": 2617407.0,
	"step": 20
	},
	{
	"epoch": 0.7692307692307693,
	"eval_loss": 0.7984817028045654,
	"eval_mean_token_accuracy": 0.7897448325157166,
	"eval_num_tokens": 2617407.0,
	"eval_runtime": 207.2592,
	"eval_samples_per_second": 1.911,
	"eval_steps_per_second": 0.121,
	"step": 20
	},
	{
	"epoch": 0.9615384615384616,
	"grad_norm": 0.4229067328272521,
	"learning_rate": 8.153846153846154e-06,
	"loss": 0.1993,
	"mean_token_accuracy": 0.9341381952166558,
	"num_tokens": 3271788.0,
	"step": 25
	},
	{
	"epoch": 1.1538461538461537,
	"grad_norm": 0.4038605805362403,
	"learning_rate": 7.76923076923077e-06,
	"loss": 0.1782,
	"mean_token_accuracy": 0.9413852587342262,
	"num_tokens": 3927148.0,
	"step": 30
	},
	{
	"epoch": 1.3461538461538463,
	"grad_norm": 0.44386495794019754,
	"learning_rate": 7.384615384615386e-06,
	"loss": 0.1716,
	"mean_token_accuracy": 0.9436837241053582,
	"num_tokens": 4581399.0,
	"step": 35
	},
	{
	"epoch": 1.5384615384615383,
	"grad_norm": 0.4248743921174713,
	"learning_rate": 7e-06,
	"loss": 0.169,
	"mean_token_accuracy": 0.9443423271179199,
	"num_tokens": 5236759.0,
	"step": 40
	},
	{
	"epoch": 1.5384615384615383,
	"eval_loss": 0.8438917994499207,
	"eval_mean_token_accuracy": 0.7881988358497619,
	"eval_num_tokens": 5236759.0,
	"eval_runtime": 206.3838,
	"eval_samples_per_second": 1.919,
	"eval_steps_per_second": 0.121,
	"step": 40
	},
	{
	"epoch": 1.7307692307692308,
	"grad_norm": 0.39016509839724534,
	"learning_rate": 6.615384615384616e-06,
	"loss": 0.1703,
	"mean_token_accuracy": 0.94403627961874,
	"num_tokens": 5890523.0,
	"step": 45
	},
	{
	"epoch": 1.9230769230769231,
	"grad_norm": 0.3919683518651608,
	"learning_rate": 6.230769230769231e-06,
	"loss": 0.1723,
	"mean_token_accuracy": 0.9430388778448104,
	"num_tokens": 6543649.0,
	"step": 50
	},
	{
	"epoch": 2.1153846153846154,
	"grad_norm": 0.3777794605646071,
	"learning_rate": 5.846153846153847e-06,
	"loss": 0.1578,
	"mean_token_accuracy": 0.948506236076355,
	"num_tokens": 7198863.0,
	"step": 55
	},
	{
	"epoch": 2.3076923076923075,
	"grad_norm": 0.41041127040715936,
	"learning_rate": 5.461538461538461e-06,
	"loss": 0.15,
	"mean_token_accuracy": 0.9507905378937721,
	"num_tokens": 7853347.0,
	"step": 60
	},
	{
	"epoch": 2.3076923076923075,
	"eval_loss": 0.8952463269233704,
	"eval_mean_token_accuracy": 0.7861712884902954,
	"eval_num_tokens": 7853347.0,
	"eval_runtime": 205.7768,
	"eval_samples_per_second": 1.924,
	"eval_steps_per_second": 0.121,
	"step": 60
	},
	{
	"epoch": 2.5,
	"grad_norm": 0.3964654882595507,
	"learning_rate": 5.076923076923077e-06,
	"loss": 0.1497,
	"mean_token_accuracy": 0.9505507811903954,
	"num_tokens": 8506440.0,
	"step": 65
	},
	{
	"epoch": 2.6923076923076925,
	"grad_norm": 0.3768825306789265,
	"learning_rate": 4.692307692307693e-06,
	"loss": 0.1503,
	"mean_token_accuracy": 0.9506417199969291,
	"num_tokens": 9160442.0,
	"step": 70
	},
	{
	"epoch": 2.8846153846153846,
	"grad_norm": 0.398264112857023,
	"learning_rate": 4.307692307692308e-06,
	"loss": 0.1488,
	"mean_token_accuracy": 0.9506732374429703,
	"num_tokens": 9815802.0,
	"step": 75
	},
	{
	"epoch": 3.076923076923077,
	"grad_norm": 0.39276972642065144,
	"learning_rate": 3.923076923076923e-06,
	"loss": 0.1394,
	"mean_token_accuracy": 0.9544374644756317,
	"num_tokens": 10470724.0,
	"step": 80
	},
	{
	"epoch": 3.076923076923077,
	"eval_loss": 0.8906534910202026,
	"eval_mean_token_accuracy": 0.786395034790039,
	"eval_num_tokens": 10470724.0,
	"eval_runtime": 206.1358,
	"eval_samples_per_second": 1.921,
	"eval_steps_per_second": 0.121,
	"step": 80
	},
	{
	"epoch": 3.269230769230769,
	"grad_norm": 0.3730257614019165,
	"learning_rate": 3.538461538461539e-06,
	"loss": 0.1378,
	"mean_token_accuracy": 0.9548449605703354,
	"num_tokens": 11125135.0,
	"step": 85
	},
	{
	"epoch": 3.4615384615384617,
	"grad_norm": 0.3683238050739676,
	"learning_rate": 3.153846153846154e-06,
	"loss": 0.1314,
	"mean_token_accuracy": 0.9570518404245376,
	"num_tokens": 11780057.0,
	"step": 90
	},
	{
	"epoch": 3.6538461538461537,
	"grad_norm": 0.38257552430474834,
	"learning_rate": 2.7692307692307697e-06,
	"loss": 0.1313,
	"mean_token_accuracy": 0.9570926904678345,
	"num_tokens": 12435417.0,
	"step": 95
	},
	{
	"epoch": 3.8461538461538463,
	"grad_norm": 0.36203400285990167,
	"learning_rate": 2.384615384615385e-06,
	"loss": 0.135,
	"mean_token_accuracy": 0.9562257811427116,
	"num_tokens": 13089419.0,
	"step": 100
	},
	{
	"epoch": 3.8461538461538463,
	"eval_loss": 0.9335225224494934,
	"eval_mean_token_accuracy": 0.7845649313926697,
	"eval_num_tokens": 13089419.0,
	"eval_runtime": 205.9656,
	"eval_samples_per_second": 1.923,
	"eval_steps_per_second": 0.121,
	"step": 100
	},
	{
	"epoch": 4.038461538461538,
	"grad_norm": 0.35419211664728983,
	"learning_rate": 2.0000000000000003e-06,
	"loss": 0.1285,
	"mean_token_accuracy": 0.9583714559674263,
	"num_tokens": 13742512.0,
	"step": 105
	},
	{
	"epoch": 4.230769230769231,
	"grad_norm": 0.34375461778603095,
	"learning_rate": 1.6153846153846157e-06,
	"loss": 0.1242,
	"mean_token_accuracy": 0.9601028740406037,
	"num_tokens": 14395386.0,
	"step": 110
	},
	{
	"epoch": 4.423076923076923,
	"grad_norm": 0.3525911653900964,
	"learning_rate": 1.230769230769231e-06,
	"loss": 0.1217,
	"mean_token_accuracy": 0.9608346611261368,
	"num_tokens": 15049637.0,
	"step": 115
	},
	{
	"epoch": 4.615384615384615,
	"grad_norm": 0.3677261206987421,
	"learning_rate": 8.461538461538463e-07,
	"loss": 0.1245,
	"mean_token_accuracy": 0.9600024372339249,
	"num_tokens": 15704997.0,
	"step": 120
	},
	{
	"epoch": 4.615384615384615,
	"eval_loss": 0.9684593081474304,
	"eval_mean_token_accuracy": 0.7830931186676026,
	"eval_num_tokens": 15704997.0,
	"eval_runtime": 205.7113,
	"eval_samples_per_second": 1.925,
	"eval_steps_per_second": 0.122,
	"step": 120
	},
	{
	"epoch": 4.8076923076923075,
	"grad_norm": 0.35206380647203034,
	"learning_rate": 4.615384615384616e-07,
	"loss": 0.1222,
	"mean_token_accuracy": 0.9602848619222641,
	"num_tokens": 16360357.0,
	"step": 125
	},
	{
	"epoch": 5.0,
	"grad_norm": 0.3554888857605734,
	"learning_rate": 7.692307692307694e-08,
	"loss": 0.1239,
	"mean_token_accuracy": 0.959795056283474,
	"num_tokens": 17014300.0,
	"step": 130
	},
	{
	"epoch": 5.0,
	"step": 130,
	"total_flos": 14799366782976.0,
	"train_loss": 0.15786109383289632,
	"train_runtime": 17510.8371,
	"train_samples_per_second": 0.474,
	"train_steps_per_second": 0.007
	}
	],
	"logging_steps": 5,
	"max_steps": 130,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 5,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 14799366782976.0,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}