top_8_ranking_stackexchange / trainer_state.json

End of training

31a9934 verified 7 months ago

15.4 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 3.0,
	"eval_steps": 500,
	"global_step": 882,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.034013605442176874,
	"grad_norm": 5.093772950493088,
	"learning_rate": 5e-06,
	"loss": 1.0253,
	"step": 10
	},
	{
	"epoch": 0.06802721088435375,
	"grad_norm": 1.582810434950759,
	"learning_rate": 5e-06,
	"loss": 0.9164,
	"step": 20
	},
	{
	"epoch": 0.10204081632653061,
	"grad_norm": 1.081419957922015,
	"learning_rate": 5e-06,
	"loss": 0.8837,
	"step": 30
	},
	{
	"epoch": 0.1360544217687075,
	"grad_norm": 1.334991004257816,
	"learning_rate": 5e-06,
	"loss": 0.8662,
	"step": 40
	},
	{
	"epoch": 0.17006802721088435,
	"grad_norm": 0.6437293692108047,
	"learning_rate": 5e-06,
	"loss": 0.8474,
	"step": 50
	},
	{
	"epoch": 0.20408163265306123,
	"grad_norm": 0.7291088099940165,
	"learning_rate": 5e-06,
	"loss": 0.8403,
	"step": 60
	},
	{
	"epoch": 0.23809523809523808,
	"grad_norm": 1.2250728318971373,
	"learning_rate": 5e-06,
	"loss": 0.8324,
	"step": 70
	},
	{
	"epoch": 0.272108843537415,
	"grad_norm": 0.5271316099486635,
	"learning_rate": 5e-06,
	"loss": 0.8255,
	"step": 80
	},
	{
	"epoch": 0.30612244897959184,
	"grad_norm": 0.657776756921105,
	"learning_rate": 5e-06,
	"loss": 0.8268,
	"step": 90
	},
	{
	"epoch": 0.3401360544217687,
	"grad_norm": 0.6441066353244067,
	"learning_rate": 5e-06,
	"loss": 0.8244,
	"step": 100
	},
	{
	"epoch": 0.3741496598639456,
	"grad_norm": 0.8285320708808935,
	"learning_rate": 5e-06,
	"loss": 0.8204,
	"step": 110
	},
	{
	"epoch": 0.40816326530612246,
	"grad_norm": 0.7161434853368004,
	"learning_rate": 5e-06,
	"loss": 0.8162,
	"step": 120
	},
	{
	"epoch": 0.4421768707482993,
	"grad_norm": 0.5513713742579371,
	"learning_rate": 5e-06,
	"loss": 0.8145,
	"step": 130
	},
	{
	"epoch": 0.47619047619047616,
	"grad_norm": 0.7457252021496298,
	"learning_rate": 5e-06,
	"loss": 0.8055,
	"step": 140
	},
	{
	"epoch": 0.5102040816326531,
	"grad_norm": 0.5974600771687919,
	"learning_rate": 5e-06,
	"loss": 0.8046,
	"step": 150
	},
	{
	"epoch": 0.54421768707483,
	"grad_norm": 0.5106810999294438,
	"learning_rate": 5e-06,
	"loss": 0.8038,
	"step": 160
	},
	{
	"epoch": 0.5782312925170068,
	"grad_norm": 0.5233604769586638,
	"learning_rate": 5e-06,
	"loss": 0.7984,
	"step": 170
	},
	{
	"epoch": 0.6122448979591837,
	"grad_norm": 0.6621030752821899,
	"learning_rate": 5e-06,
	"loss": 0.8053,
	"step": 180
	},
	{
	"epoch": 0.6462585034013606,
	"grad_norm": 0.6082801478115033,
	"learning_rate": 5e-06,
	"loss": 0.7971,
	"step": 190
	},
	{
	"epoch": 0.6802721088435374,
	"grad_norm": 0.6921185518271565,
	"learning_rate": 5e-06,
	"loss": 0.7962,
	"step": 200
	},
	{
	"epoch": 0.7142857142857143,
	"grad_norm": 0.7932977516942055,
	"learning_rate": 5e-06,
	"loss": 0.7965,
	"step": 210
	},
	{
	"epoch": 0.7482993197278912,
	"grad_norm": 0.6324128246753213,
	"learning_rate": 5e-06,
	"loss": 0.7934,
	"step": 220
	},
	{
	"epoch": 0.782312925170068,
	"grad_norm": 0.559311808415173,
	"learning_rate": 5e-06,
	"loss": 0.7989,
	"step": 230
	},
	{
	"epoch": 0.8163265306122449,
	"grad_norm": 0.6432666654821662,
	"learning_rate": 5e-06,
	"loss": 0.7969,
	"step": 240
	},
	{
	"epoch": 0.8503401360544217,
	"grad_norm": 0.744813344130182,
	"learning_rate": 5e-06,
	"loss": 0.7919,
	"step": 250
	},
	{
	"epoch": 0.8843537414965986,
	"grad_norm": 0.5433587318374555,
	"learning_rate": 5e-06,
	"loss": 0.7902,
	"step": 260
	},
	{
	"epoch": 0.9183673469387755,
	"grad_norm": 0.7120343599921604,
	"learning_rate": 5e-06,
	"loss": 0.7906,
	"step": 270
	},
	{
	"epoch": 0.9523809523809523,
	"grad_norm": 1.1772393318908365,
	"learning_rate": 5e-06,
	"loss": 0.7883,
	"step": 280
	},
	{
	"epoch": 0.9863945578231292,
	"grad_norm": 1.289674010358365,
	"learning_rate": 5e-06,
	"loss": 0.7865,
	"step": 290
	},
	{
	"epoch": 1.0,
	"eval_loss": 0.787599503993988,
	"eval_runtime": 312.4094,
	"eval_samples_per_second": 25.358,
	"eval_steps_per_second": 0.397,
	"step": 294
	},
	{
	"epoch": 1.0204081632653061,
	"grad_norm": 0.9036542003842971,
	"learning_rate": 5e-06,
	"loss": 0.7746,
	"step": 300
	},
	{
	"epoch": 1.054421768707483,
	"grad_norm": 0.8034701067288486,
	"learning_rate": 5e-06,
	"loss": 0.7488,
	"step": 310
	},
	{
	"epoch": 1.08843537414966,
	"grad_norm": 0.6023506564223867,
	"learning_rate": 5e-06,
	"loss": 0.7475,
	"step": 320
	},
	{
	"epoch": 1.1224489795918366,
	"grad_norm": 0.6504967920737302,
	"learning_rate": 5e-06,
	"loss": 0.7431,
	"step": 330
	},
	{
	"epoch": 1.1564625850340136,
	"grad_norm": 0.5813877515629605,
	"learning_rate": 5e-06,
	"loss": 0.7462,
	"step": 340
	},
	{
	"epoch": 1.1904761904761905,
	"grad_norm": 0.6259897603352809,
	"learning_rate": 5e-06,
	"loss": 0.747,
	"step": 350
	},
	{
	"epoch": 1.2244897959183674,
	"grad_norm": 0.6862271161840088,
	"learning_rate": 5e-06,
	"loss": 0.7455,
	"step": 360
	},
	{
	"epoch": 1.2585034013605443,
	"grad_norm": 0.5769690007814378,
	"learning_rate": 5e-06,
	"loss": 0.7406,
	"step": 370
	},
	{
	"epoch": 1.2925170068027212,
	"grad_norm": 0.557540098903492,
	"learning_rate": 5e-06,
	"loss": 0.7538,
	"step": 380
	},
	{
	"epoch": 1.3265306122448979,
	"grad_norm": 0.7131020070740424,
	"learning_rate": 5e-06,
	"loss": 0.7458,
	"step": 390
	},
	{
	"epoch": 1.3605442176870748,
	"grad_norm": 0.5948565780053893,
	"learning_rate": 5e-06,
	"loss": 0.7446,
	"step": 400
	},
	{
	"epoch": 1.3945578231292517,
	"grad_norm": 0.6911445705490143,
	"learning_rate": 5e-06,
	"loss": 0.7497,
	"step": 410
	},
	{
	"epoch": 1.4285714285714286,
	"grad_norm": 0.6252849135367671,
	"learning_rate": 5e-06,
	"loss": 0.7469,
	"step": 420
	},
	{
	"epoch": 1.4625850340136055,
	"grad_norm": 0.6646202868499425,
	"learning_rate": 5e-06,
	"loss": 0.7424,
	"step": 430
	},
	{
	"epoch": 1.4965986394557822,
	"grad_norm": 0.6970040399316466,
	"learning_rate": 5e-06,
	"loss": 0.7445,
	"step": 440
	},
	{
	"epoch": 1.5306122448979593,
	"grad_norm": 0.6004043771512654,
	"learning_rate": 5e-06,
	"loss": 0.7492,
	"step": 450
	},
	{
	"epoch": 1.564625850340136,
	"grad_norm": 0.6563540827889115,
	"learning_rate": 5e-06,
	"loss": 0.7423,
	"step": 460
	},
	{
	"epoch": 1.598639455782313,
	"grad_norm": 0.7454418696472762,
	"learning_rate": 5e-06,
	"loss": 0.7434,
	"step": 470
	},
	{
	"epoch": 1.6326530612244898,
	"grad_norm": 0.5564890350927186,
	"learning_rate": 5e-06,
	"loss": 0.7365,
	"step": 480
	},
	{
	"epoch": 1.6666666666666665,
	"grad_norm": 0.7834978093049169,
	"learning_rate": 5e-06,
	"loss": 0.7421,
	"step": 490
	},
	{
	"epoch": 1.7006802721088436,
	"grad_norm": 0.583066628701426,
	"learning_rate": 5e-06,
	"loss": 0.7463,
	"step": 500
	},
	{
	"epoch": 1.7346938775510203,
	"grad_norm": 0.5893517422275613,
	"learning_rate": 5e-06,
	"loss": 0.7376,
	"step": 510
	},
	{
	"epoch": 1.7687074829931972,
	"grad_norm": 0.5037802702044101,
	"learning_rate": 5e-06,
	"loss": 0.7441,
	"step": 520
	},
	{
	"epoch": 1.8027210884353742,
	"grad_norm": 0.5931792416654984,
	"learning_rate": 5e-06,
	"loss": 0.7431,
	"step": 530
	},
	{
	"epoch": 1.836734693877551,
	"grad_norm": 0.6402441098113224,
	"learning_rate": 5e-06,
	"loss": 0.7438,
	"step": 540
	},
	{
	"epoch": 1.870748299319728,
	"grad_norm": 0.5654472975194821,
	"learning_rate": 5e-06,
	"loss": 0.7393,
	"step": 550
	},
	{
	"epoch": 1.9047619047619047,
	"grad_norm": 0.5753064985895123,
	"learning_rate": 5e-06,
	"loss": 0.7397,
	"step": 560
	},
	{
	"epoch": 1.9387755102040818,
	"grad_norm": 0.7250548373178971,
	"learning_rate": 5e-06,
	"loss": 0.7397,
	"step": 570
	},
	{
	"epoch": 1.9727891156462585,
	"grad_norm": 0.5431763568539679,
	"learning_rate": 5e-06,
	"loss": 0.7399,
	"step": 580
	},
	{
	"epoch": 2.0,
	"eval_loss": 0.7747776508331299,
	"eval_runtime": 316.2944,
	"eval_samples_per_second": 25.046,
	"eval_steps_per_second": 0.392,
	"step": 588
	},
	{
	"epoch": 2.006802721088435,
	"grad_norm": 1.0710107167046419,
	"learning_rate": 5e-06,
	"loss": 0.7322,
	"step": 590
	},
	{
	"epoch": 2.0408163265306123,
	"grad_norm": 0.8179848172880277,
	"learning_rate": 5e-06,
	"loss": 0.6959,
	"step": 600
	},
	{
	"epoch": 2.074829931972789,
	"grad_norm": 0.7213840408679012,
	"learning_rate": 5e-06,
	"loss": 0.6963,
	"step": 610
	},
	{
	"epoch": 2.108843537414966,
	"grad_norm": 0.842144783291229,
	"learning_rate": 5e-06,
	"loss": 0.6919,
	"step": 620
	},
	{
	"epoch": 2.142857142857143,
	"grad_norm": 0.8281153884085551,
	"learning_rate": 5e-06,
	"loss": 0.6885,
	"step": 630
	},
	{
	"epoch": 2.17687074829932,
	"grad_norm": 0.6466546656089918,
	"learning_rate": 5e-06,
	"loss": 0.696,
	"step": 640
	},
	{
	"epoch": 2.2108843537414966,
	"grad_norm": 0.526364663799012,
	"learning_rate": 5e-06,
	"loss": 0.6937,
	"step": 650
	},
	{
	"epoch": 2.2448979591836733,
	"grad_norm": 0.5634674036723205,
	"learning_rate": 5e-06,
	"loss": 0.6981,
	"step": 660
	},
	{
	"epoch": 2.2789115646258504,
	"grad_norm": 0.5968432701967212,
	"learning_rate": 5e-06,
	"loss": 0.7015,
	"step": 670
	},
	{
	"epoch": 2.312925170068027,
	"grad_norm": 0.5913462184907319,
	"learning_rate": 5e-06,
	"loss": 0.7012,
	"step": 680
	},
	{
	"epoch": 2.3469387755102042,
	"grad_norm": 0.7450042075059763,
	"learning_rate": 5e-06,
	"loss": 0.6952,
	"step": 690
	},
	{
	"epoch": 2.380952380952381,
	"grad_norm": 0.5383186417121737,
	"learning_rate": 5e-06,
	"loss": 0.6953,
	"step": 700
	},
	{
	"epoch": 2.4149659863945576,
	"grad_norm": 0.7331040417967113,
	"learning_rate": 5e-06,
	"loss": 0.6997,
	"step": 710
	},
	{
	"epoch": 2.4489795918367347,
	"grad_norm": 0.707608838125245,
	"learning_rate": 5e-06,
	"loss": 0.6947,
	"step": 720
	},
	{
	"epoch": 2.4829931972789114,
	"grad_norm": 0.5739038681907664,
	"learning_rate": 5e-06,
	"loss": 0.7002,
	"step": 730
	},
	{
	"epoch": 2.5170068027210886,
	"grad_norm": 0.6882559394709682,
	"learning_rate": 5e-06,
	"loss": 0.7,
	"step": 740
	},
	{
	"epoch": 2.5510204081632653,
	"grad_norm": 0.5748954947299686,
	"learning_rate": 5e-06,
	"loss": 0.6977,
	"step": 750
	},
	{
	"epoch": 2.5850340136054424,
	"grad_norm": 0.5661948160767387,
	"learning_rate": 5e-06,
	"loss": 0.6972,
	"step": 760
	},
	{
	"epoch": 2.619047619047619,
	"grad_norm": 0.6170581920248837,
	"learning_rate": 5e-06,
	"loss": 0.6988,
	"step": 770
	},
	{
	"epoch": 2.6530612244897958,
	"grad_norm": 0.7539930534954333,
	"learning_rate": 5e-06,
	"loss": 0.6977,
	"step": 780
	},
	{
	"epoch": 2.687074829931973,
	"grad_norm": 0.5811347422760094,
	"learning_rate": 5e-06,
	"loss": 0.6987,
	"step": 790
	},
	{
	"epoch": 2.7210884353741496,
	"grad_norm": 0.6704654193944088,
	"learning_rate": 5e-06,
	"loss": 0.6982,
	"step": 800
	},
	{
	"epoch": 2.7551020408163263,
	"grad_norm": 0.6505538631815906,
	"learning_rate": 5e-06,
	"loss": 0.7006,
	"step": 810
	},
	{
	"epoch": 2.7891156462585034,
	"grad_norm": 0.5672733814024299,
	"learning_rate": 5e-06,
	"loss": 0.7038,
	"step": 820
	},
	{
	"epoch": 2.8231292517006805,
	"grad_norm": 0.6464062527883608,
	"learning_rate": 5e-06,
	"loss": 0.7031,
	"step": 830
	},
	{
	"epoch": 2.857142857142857,
	"grad_norm": 0.6783589732638796,
	"learning_rate": 5e-06,
	"loss": 0.7001,
	"step": 840
	},
	{
	"epoch": 2.891156462585034,
	"grad_norm": 0.6780111327853662,
	"learning_rate": 5e-06,
	"loss": 0.6999,
	"step": 850
	},
	{
	"epoch": 2.925170068027211,
	"grad_norm": 0.6861118715829543,
	"learning_rate": 5e-06,
	"loss": 0.7007,
	"step": 860
	},
	{
	"epoch": 2.9591836734693877,
	"grad_norm": 0.6468827032168267,
	"learning_rate": 5e-06,
	"loss": 0.7029,
	"step": 870
	},
	{
	"epoch": 2.9931972789115644,
	"grad_norm": 0.5936344265821127,
	"learning_rate": 5e-06,
	"loss": 0.7006,
	"step": 880
	},
	{
	"epoch": 3.0,
	"eval_loss": 0.7735684514045715,
	"eval_runtime": 316.0096,
	"eval_samples_per_second": 25.069,
	"eval_steps_per_second": 0.392,
	"step": 882
	},
	{
	"epoch": 3.0,
	"step": 882,
	"total_flos": 1477173470822400.0,
	"train_loss": 0.7552210683184687,
	"train_runtime": 52264.4132,
	"train_samples_per_second": 8.64,
	"train_steps_per_second": 0.017
	}
	],
	"logging_steps": 10,
	"max_steps": 882,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1477173470822400.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}