bert_base_train_book_ent_15p_s_init_wnli / trainer_state.json

End of training

f5a01d2 verified 2 days ago

4.09 kB

	{
	"best_global_step": 6,
	"best_metric": 0.6848593354225159,
	"best_model_checkpoint": "bert_base_train_book_ent_15p_s_init_wnli/checkpoint-6",
	"epoch": 7.0,
	"eval_steps": 500,
	"global_step": 21,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 1.0,
	"grad_norm": 1.9552319049835205,
	"learning_rate": 4.933333333333334e-05,
	"loss": 0.7049,
	"step": 3
	},
	{
	"epoch": 1.0,
	"eval_accuracy": 0.43661971830985913,
	"eval_loss": 0.6941022872924805,
	"eval_runtime": 0.0568,
	"eval_samples_per_second": 1250.669,
	"eval_steps_per_second": 17.615,
	"step": 3
	},
	{
	"epoch": 2.0,
	"grad_norm": 1.1868820190429688,
	"learning_rate": 4.8333333333333334e-05,
	"loss": 0.7016,
	"step": 6
	},
	{
	"epoch": 2.0,
	"eval_accuracy": 0.5633802816901409,
	"eval_loss": 0.6848593354225159,
	"eval_runtime": 0.0563,
	"eval_samples_per_second": 1260.036,
	"eval_steps_per_second": 17.747,
	"step": 6
	},
	{
	"epoch": 3.0,
	"grad_norm": 0.71503084897995,
	"learning_rate": 4.7333333333333336e-05,
	"loss": 0.7019,
	"step": 9
	},
	{
	"epoch": 3.0,
	"eval_accuracy": 0.5633802816901409,
	"eval_loss": 0.69140625,
	"eval_runtime": 0.0558,
	"eval_samples_per_second": 1271.327,
	"eval_steps_per_second": 17.906,
	"step": 9
	},
	{
	"epoch": 4.0,
	"grad_norm": 0.8658474683761597,
	"learning_rate": 4.633333333333333e-05,
	"loss": 0.6938,
	"step": 12
	},
	{
	"epoch": 4.0,
	"eval_accuracy": 0.43661971830985913,
	"eval_loss": 0.7015296220779419,
	"eval_runtime": 0.0557,
	"eval_samples_per_second": 1274.952,
	"eval_steps_per_second": 17.957,
	"step": 12
	},
	{
	"epoch": 5.0,
	"grad_norm": 0.7237994074821472,
	"learning_rate": 4.5333333333333335e-05,
	"loss": 0.6971,
	"step": 15
	},
	{
	"epoch": 5.0,
	"eval_accuracy": 0.43661971830985913,
	"eval_loss": 0.697073221206665,
	"eval_runtime": 0.0564,
	"eval_samples_per_second": 1259.641,
	"eval_steps_per_second": 17.741,
	"step": 15
	},
	{
	"epoch": 6.0,
	"grad_norm": 1.0709381103515625,
	"learning_rate": 4.433333333333334e-05,
	"loss": 0.6948,
	"step": 18
	},
	{
	"epoch": 6.0,
	"eval_accuracy": 0.5633802816901409,
	"eval_loss": 0.6891505718231201,
	"eval_runtime": 0.0572,
	"eval_samples_per_second": 1242.098,
	"eval_steps_per_second": 17.494,
	"step": 18
	},
	{
	"epoch": 7.0,
	"grad_norm": 0.8299973607063293,
	"learning_rate": 4.3333333333333334e-05,
	"loss": 0.7045,
	"step": 21
	},
	{
	"epoch": 7.0,
	"eval_accuracy": 0.5633802816901409,
	"eval_loss": 0.6859046220779419,
	"eval_runtime": 0.0558,
	"eval_samples_per_second": 1272.598,
	"eval_steps_per_second": 17.924,
	"step": 21
	},
	{
	"epoch": 7.0,
	"step": 21,
	"total_flos": 584764320537600.0,
	"train_loss": 0.6998025803338914,
	"train_runtime": 22.999,
	"train_samples_per_second": 1380.493,
	"train_steps_per_second": 6.522
	}
	],
	"logging_steps": 1,
	"max_steps": 150,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 50,
	"save_steps": 500,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 5,
	"early_stopping_threshold": 0.0
	},
	"attributes": {
	"early_stopping_patience_counter": 5
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 584764320537600.0,
	"train_batch_size": 256,
	"trial_name": null,
	"trial_params": null
	}