gemma-3-4b-it-qpl-decomposer / trainer_state.json

Upload 11 files

fd8906a verified about 1 month ago

11.3 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 2.0,
	"eval_steps": 500,
	"global_step": 20958,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.047714476572192,
	"grad_norm": 0.023498278111219406,
	"learning_rate": 0.00019523809523809525,
	"loss": 0.4674,
	"mean_token_accuracy": 0.8906204112768173,
	"num_tokens": 360041.0,
	"step": 500
	},
	{
	"epoch": 0.095428953144384,
	"grad_norm": 3.823547601699829,
	"learning_rate": 0.00019046664758087605,
	"loss": 0.3194,
	"mean_token_accuracy": 0.9205255397558212,
	"num_tokens": 727772.0,
	"step": 1000
	},
	{
	"epoch": 0.143143429716576,
	"grad_norm": 0.0001839943724917248,
	"learning_rate": 0.00018569519992365686,
	"loss": 0.2674,
	"mean_token_accuracy": 0.9327976078987121,
	"num_tokens": 1097406.0,
	"step": 1500
	},
	{
	"epoch": 0.190857906288768,
	"grad_norm": 4.199777126312256,
	"learning_rate": 0.00018092375226643766,
	"loss": 0.326,
	"mean_token_accuracy": 0.920593403160572,
	"num_tokens": 1462220.0,
	"step": 2000
	},
	{
	"epoch": 0.23857238286096002,
	"grad_norm": 5.751025676727295,
	"learning_rate": 0.00017615230460921847,
	"loss": 0.2693,
	"mean_token_accuracy": 0.936355301618576,
	"num_tokens": 1828224.0,
	"step": 2500
	},
	{
	"epoch": 0.286286859433152,
	"grad_norm": 3.971045732498169,
	"learning_rate": 0.00017138085695199925,
	"loss": 0.2827,
	"mean_token_accuracy": 0.9261101527214051,
	"num_tokens": 2211342.0,
	"step": 3000
	},
	{
	"epoch": 0.33400133600534404,
	"grad_norm": 2.15079665184021,
	"learning_rate": 0.00016660940929478005,
	"loss": 0.2461,
	"mean_token_accuracy": 0.9350018633604049,
	"num_tokens": 2572498.0,
	"step": 3500
	},
	{
	"epoch": 0.381715812577536,
	"grad_norm": 0.5263189077377319,
	"learning_rate": 0.00016183796163756083,
	"loss": 0.2534,
	"mean_token_accuracy": 0.9374513441324234,
	"num_tokens": 2949312.0,
	"step": 4000
	},
	{
	"epoch": 0.42943028914972803,
	"grad_norm": 0.004941379185765982,
	"learning_rate": 0.00015706651398034164,
	"loss": 0.2395,
	"mean_token_accuracy": 0.9378743978738785,
	"num_tokens": 3314910.0,
	"step": 4500
	},
	{
	"epoch": 0.47714476572192005,
	"grad_norm": 0.007795912679284811,
	"learning_rate": 0.00015229506632312244,
	"loss": 0.2284,
	"mean_token_accuracy": 0.9409392136335373,
	"num_tokens": 3686624.0,
	"step": 5000
	},
	{
	"epoch": 0.5248592422941121,
	"grad_norm": 0.0033825524151325226,
	"learning_rate": 0.00014752361866590325,
	"loss": 0.2145,
	"mean_token_accuracy": 0.9464458491802216,
	"num_tokens": 4063459.0,
	"step": 5500
	},
	{
	"epoch": 0.572573718866304,
	"grad_norm": 3.8457958698272705,
	"learning_rate": 0.00014275217100868402,
	"loss": 0.2268,
	"mean_token_accuracy": 0.9410561621189117,
	"num_tokens": 4423993.0,
	"step": 6000
	},
	{
	"epoch": 0.620288195438496,
	"grad_norm": 0.020238121971488,
	"learning_rate": 0.00013798072335146483,
	"loss": 0.223,
	"mean_token_accuracy": 0.9393890690803528,
	"num_tokens": 4788203.0,
	"step": 6500
	},
	{
	"epoch": 0.6680026720106881,
	"grad_norm": 0.0006973391864448786,
	"learning_rate": 0.00013320927569424564,
	"loss": 0.2434,
	"mean_token_accuracy": 0.9404154337644577,
	"num_tokens": 5162496.0,
	"step": 7000
	},
	{
	"epoch": 0.71571714858288,
	"grad_norm": 0.0010198453674092889,
	"learning_rate": 0.00012843782803702644,
	"loss": 0.191,
	"mean_token_accuracy": 0.9535960764884949,
	"num_tokens": 5520427.0,
	"step": 7500
	},
	{
	"epoch": 0.763431625155072,
	"grad_norm": 0.001297333394177258,
	"learning_rate": 0.00012366638037980725,
	"loss": 0.2167,
	"mean_token_accuracy": 0.942195966720581,
	"num_tokens": 5901763.0,
	"step": 8000
	},
	{
	"epoch": 0.8111461017272641,
	"grad_norm": 6.195448398590088,
	"learning_rate": 0.00011889493272258805,
	"loss": 0.2305,
	"mean_token_accuracy": 0.9376264967918396,
	"num_tokens": 6272492.0,
	"step": 8500
	},
	{
	"epoch": 0.8588605782994561,
	"grad_norm": 0.0025545568205416203,
	"learning_rate": 0.00011412348506536883,
	"loss": 0.2303,
	"mean_token_accuracy": 0.9435879285335541,
	"num_tokens": 6657487.0,
	"step": 9000
	},
	{
	"epoch": 0.906575054871648,
	"grad_norm": 0.0006595577578991652,
	"learning_rate": 0.00010935203740814964,
	"loss": 0.179,
	"mean_token_accuracy": 0.9520990616083145,
	"num_tokens": 7022908.0,
	"step": 9500
	},
	{
	"epoch": 0.9542895314438401,
	"grad_norm": 3.1752443313598633,
	"learning_rate": 0.00010458058975093044,
	"loss": 0.1827,
	"mean_token_accuracy": 0.9488343714475632,
	"num_tokens": 7376243.0,
	"step": 10000
	},
	{
	"epoch": 1.002004008016032,
	"grad_norm": 0.001512572169303894,
	"learning_rate": 9.980914209371123e-05,
	"loss": 0.2101,
	"mean_token_accuracy": 0.9424606282711029,
	"num_tokens": 7749938.0,
	"step": 10500
	},
	{
	"epoch": 1.0497184845882241,
	"grad_norm": 3.992393732070923,
	"learning_rate": 9.503769443649203e-05,
	"loss": 0.1309,
	"mean_token_accuracy": 0.9618149808645249,
	"num_tokens": 8127846.0,
	"step": 11000
	},
	{
	"epoch": 1.097432961160416,
	"grad_norm": 0.00025509227998554707,
	"learning_rate": 9.026624677927283e-05,
	"loss": 0.1219,
	"mean_token_accuracy": 0.9635183781385421,
	"num_tokens": 8503956.0,
	"step": 11500
	},
	{
	"epoch": 1.145147437732608,
	"grad_norm": 0.0013997952919453382,
	"learning_rate": 8.549479912205364e-05,
	"loss": 0.1235,
	"mean_token_accuracy": 0.963010191321373,
	"num_tokens": 8862553.0,
	"step": 12000
	},
	{
	"epoch": 1.1928619143048,
	"grad_norm": 2.114091157913208,
	"learning_rate": 8.072335146483443e-05,
	"loss": 0.1271,
	"mean_token_accuracy": 0.9629592669010162,
	"num_tokens": 9233864.0,
	"step": 12500
	},
	{
	"epoch": 1.240576390876992,
	"grad_norm": 0.277444452047348,
	"learning_rate": 7.595190380761523e-05,
	"loss": 0.1187,
	"mean_token_accuracy": 0.9649668201208115,
	"num_tokens": 9596971.0,
	"step": 13000
	},
	{
	"epoch": 1.288290867449184,
	"grad_norm": 4.878781318664551,
	"learning_rate": 7.118045615039604e-05,
	"loss": 0.1226,
	"mean_token_accuracy": 0.9633177869319915,
	"num_tokens": 9966614.0,
	"step": 13500
	},
	{
	"epoch": 1.3360053440213762,
	"grad_norm": 5.269028186798096,
	"learning_rate": 6.640900849317683e-05,
	"loss": 0.1336,
	"mean_token_accuracy": 0.9619411797523498,
	"num_tokens": 10338731.0,
	"step": 14000
	},
	{
	"epoch": 1.3837198205935681,
	"grad_norm": 0.000423251127358526,
	"learning_rate": 6.163756083595764e-05,
	"loss": 0.1386,
	"mean_token_accuracy": 0.9611272529363633,
	"num_tokens": 10724381.0,
	"step": 14500
	},
	{
	"epoch": 1.43143429716576,
	"grad_norm": 0.754705548286438,
	"learning_rate": 5.6866113178738436e-05,
	"loss": 0.1182,
	"mean_token_accuracy": 0.9661157331466674,
	"num_tokens": 11094900.0,
	"step": 15000
	},
	{
	"epoch": 1.479148773737952,
	"grad_norm": 0.0017857268685474992,
	"learning_rate": 5.2094665521519235e-05,
	"loss": 0.1175,
	"mean_token_accuracy": 0.9679548003673554,
	"num_tokens": 11454717.0,
	"step": 15500
	},
	{
	"epoch": 1.5268632503101442,
	"grad_norm": 3.5908143520355225,
	"learning_rate": 4.732321786430003e-05,
	"loss": 0.11,
	"mean_token_accuracy": 0.9671754879951477,
	"num_tokens": 11832591.0,
	"step": 16000
	},
	{
	"epoch": 1.5745777268823362,
	"grad_norm": 0.010208655148744583,
	"learning_rate": 4.255177020708083e-05,
	"loss": 0.115,
	"mean_token_accuracy": 0.9662747744321823,
	"num_tokens": 12223203.0,
	"step": 16500
	},
	{
	"epoch": 1.6222922034545282,
	"grad_norm": 0.002450750907883048,
	"learning_rate": 3.778032254986163e-05,
	"loss": 0.1112,
	"mean_token_accuracy": 0.9668832242488861,
	"num_tokens": 12593144.0,
	"step": 17000
	},
	{
	"epoch": 1.6700066800267201,
	"grad_norm": 0.004513042513281107,
	"learning_rate": 3.300887489264243e-05,
	"loss": 0.1004,
	"mean_token_accuracy": 0.9708232057094573,
	"num_tokens": 12954505.0,
	"step": 17500
	},
	{
	"epoch": 1.7177211565989121,
	"grad_norm": 0.007037173956632614,
	"learning_rate": 2.8237427235423232e-05,
	"loss": 0.1114,
	"mean_token_accuracy": 0.9671108702421188,
	"num_tokens": 13307858.0,
	"step": 18000
	},
	{
	"epoch": 1.765435633171104,
	"grad_norm": 0.015288141556084156,
	"learning_rate": 2.3465979578204027e-05,
	"loss": 0.1034,
	"mean_token_accuracy": 0.9698293421268463,
	"num_tokens": 13673816.0,
	"step": 18500
	},
	{
	"epoch": 1.813150109743296,
	"grad_norm": 6.889008045196533,
	"learning_rate": 1.869453192098483e-05,
	"loss": 0.0977,
	"mean_token_accuracy": 0.9710470995903016,
	"num_tokens": 14038630.0,
	"step": 19000
	},
	{
	"epoch": 1.860864586315488,
	"grad_norm": 2.6273930072784424,
	"learning_rate": 1.3923084263765626e-05,
	"loss": 0.0936,
	"mean_token_accuracy": 0.9728796405792236,
	"num_tokens": 14401139.0,
	"step": 19500
	},
	{
	"epoch": 1.90857906288768,
	"grad_norm": 0.004859536420553923,
	"learning_rate": 9.151636606546427e-06,
	"loss": 0.0929,
	"mean_token_accuracy": 0.9708857105970383,
	"num_tokens": 14770982.0,
	"step": 20000
	},
	{
	"epoch": 1.9562935394598722,
	"grad_norm": 0.4923778176307678,
	"learning_rate": 4.380188949327226e-06,
	"loss": 0.0963,
	"mean_token_accuracy": 0.9713275592327117,
	"num_tokens": 15136348.0,
	"step": 20500
	}
	],
	"logging_steps": 500,
	"max_steps": 20958,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 5000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 3.399363404153889e+17,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}