tatung-gr00t-green-lego-to-tray-1raww2w67g / trainer_state.json

Upload trainer_state.json with huggingface_hub

ab4c747 verified 15 days ago

12.7 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 10.0,
	"eval_steps": 500,
	"global_step": 680,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.14705882352941177,
	"grad_norm": 5.515628814697266,
	"learning_rate": 2.9411764705882354e-05,
	"loss": 1.1436,
	"step": 10
	},
	{
	"epoch": 0.29411764705882354,
	"grad_norm": 2.5779266357421875,
	"learning_rate": 5.882352941176471e-05,
	"loss": 0.4215,
	"step": 20
	},
	{
	"epoch": 0.4411764705882353,
	"grad_norm": 1.5243560075759888,
	"learning_rate": 8.823529411764706e-05,
	"loss": 0.2531,
	"step": 30
	},
	{
	"epoch": 0.5882352941176471,
	"grad_norm": 1.0052002668380737,
	"learning_rate": 9.997871633546257e-05,
	"loss": 0.1957,
	"step": 40
	},
	{
	"epoch": 0.7352941176470589,
	"grad_norm": 1.7932289838790894,
	"learning_rate": 9.98487151097676e-05,
	"loss": 0.1667,
	"step": 50
	},
	{
	"epoch": 0.8823529411764706,
	"grad_norm": 0.6952548623085022,
	"learning_rate": 9.960084393841355e-05,
	"loss": 0.1425,
	"step": 60
	},
	{
	"epoch": 1.0294117647058822,
	"grad_norm": 0.944196343421936,
	"learning_rate": 9.923568892600578e-05,
	"loss": 0.1222,
	"step": 70
	},
	{
	"epoch": 1.1764705882352942,
	"grad_norm": 0.6027107238769531,
	"learning_rate": 9.875411350104744e-05,
	"loss": 0.1081,
	"step": 80
	},
	{
	"epoch": 1.3235294117647058,
	"grad_norm": 0.7133479714393616,
	"learning_rate": 9.815725637431662e-05,
	"loss": 0.1004,
	"step": 90
	},
	{
	"epoch": 1.4705882352941178,
	"grad_norm": 0.6044264435768127,
	"learning_rate": 9.744652884632406e-05,
	"loss": 0.0935,
	"step": 100
	},
	{
	"epoch": 1.6176470588235294,
	"grad_norm": 0.5952054858207703,
	"learning_rate": 9.662361147021779e-05,
	"loss": 0.0938,
	"step": 110
	},
	{
	"epoch": 1.7647058823529411,
	"grad_norm": 0.7661593556404114,
	"learning_rate": 9.569045007802559e-05,
	"loss": 0.0876,
	"step": 120
	},
	{
	"epoch": 1.9117647058823528,
	"grad_norm": 0.5203129649162292,
	"learning_rate": 9.464925117963133e-05,
	"loss": 0.0799,
	"step": 130
	},
	{
	"epoch": 2.0588235294117645,
	"grad_norm": 1.392182469367981,
	"learning_rate": 9.35024767453647e-05,
	"loss": 0.0848,
	"step": 140
	},
	{
	"epoch": 2.2058823529411766,
	"grad_norm": 0.44986793398857117,
	"learning_rate": 9.225283838454111e-05,
	"loss": 0.0789,
	"step": 150
	},
	{
	"epoch": 2.3529411764705883,
	"grad_norm": 0.4528612196445465,
	"learning_rate": 9.090329093371666e-05,
	"loss": 0.0776,
	"step": 160
	},
	{
	"epoch": 2.5,
	"grad_norm": 0.5809573531150818,
	"learning_rate": 8.945702546981969e-05,
	"loss": 0.0715,
	"step": 170
	},
	{
	"epoch": 2.6470588235294117,
	"grad_norm": 0.5827745795249939,
	"learning_rate": 8.791746176467907e-05,
	"loss": 0.0716,
	"step": 180
	},
	{
	"epoch": 2.7941176470588234,
	"grad_norm": 0.5849335789680481,
	"learning_rate": 8.628824019879137e-05,
	"loss": 0.0653,
	"step": 190
	},
	{
	"epoch": 2.9411764705882355,
	"grad_norm": 0.661180317401886,
	"learning_rate": 8.457321315344694e-05,
	"loss": 0.0669,
	"step": 200
	},
	{
	"epoch": 3.088235294117647,
	"grad_norm": 0.5251627564430237,
	"learning_rate": 8.277643590156894e-05,
	"loss": 0.069,
	"step": 210
	},
	{
	"epoch": 3.235294117647059,
	"grad_norm": 0.471332311630249,
	"learning_rate": 8.090215701880419e-05,
	"loss": 0.0609,
	"step": 220
	},
	{
	"epoch": 3.3823529411764706,
	"grad_norm": 0.42382729053497314,
	"learning_rate": 7.89548083375394e-05,
	"loss": 0.0622,
	"step": 230
	},
	{
	"epoch": 3.5294117647058822,
	"grad_norm": 0.899319589138031,
	"learning_rate": 7.693899446759727e-05,
	"loss": 0.0648,
	"step": 240
	},
	{
	"epoch": 3.6764705882352944,
	"grad_norm": 0.6775935292243958,
	"learning_rate": 7.485948190839077e-05,
	"loss": 0.0598,
	"step": 250
	},
	{
	"epoch": 3.8235294117647056,
	"grad_norm": 0.43540897965431213,
	"learning_rate": 7.272118777828108e-05,
	"loss": 0.0573,
	"step": 260
	},
	{
	"epoch": 3.9705882352941178,
	"grad_norm": 0.27909591794013977,
	"learning_rate": 7.052916818778918e-05,
	"loss": 0.0492,
	"step": 270
	},
	{
	"epoch": 4.117647058823529,
	"grad_norm": 0.42636606097221375,
	"learning_rate": 6.828860628415253e-05,
	"loss": 0.0557,
	"step": 280
	},
	{
	"epoch": 4.264705882352941,
	"grad_norm": 0.4702949821949005,
	"learning_rate": 6.60047999954972e-05,
	"loss": 0.0536,
	"step": 290
	},
	{
	"epoch": 4.411764705882353,
	"grad_norm": 0.5331495404243469,
	"learning_rate": 6.368314950360415e-05,
	"loss": 0.0525,
	"step": 300
	},
	{
	"epoch": 4.5588235294117645,
	"grad_norm": 0.301176518201828,
	"learning_rate": 6.132914447489137e-05,
	"loss": 0.0568,
	"step": 310
	},
	{
	"epoch": 4.705882352941177,
	"grad_norm": 0.2303120642900467,
	"learning_rate": 5.8948351079804875e-05,
	"loss": 0.0432,
	"step": 320
	},
	{
	"epoch": 4.852941176470588,
	"grad_norm": 0.37262749671936035,
	"learning_rate": 5.654639883131178e-05,
	"loss": 0.0491,
	"step": 330
	},
	{
	"epoch": 5.0,
	"grad_norm": 0.6805188059806824,
	"learning_rate": 5.4128967273616625e-05,
	"loss": 0.0513,
	"step": 340
	},
	{
	"epoch": 5.147058823529412,
	"grad_norm": 0.4015423655509949,
	"learning_rate": 5.170177255257618e-05,
	"loss": 0.0456,
	"step": 350
	},
	{
	"epoch": 5.294117647058823,
	"grad_norm": 0.3756394386291504,
	"learning_rate": 4.9270553899567686e-05,
	"loss": 0.0535,
	"step": 360
	},
	{
	"epoch": 5.4411764705882355,
	"grad_norm": 0.3560592532157898,
	"learning_rate": 4.6841060060770154e-05,
	"loss": 0.0463,
	"step": 370
	},
	{
	"epoch": 5.588235294117647,
	"grad_norm": 0.4422471523284912,
	"learning_rate": 4.441903570394739e-05,
	"loss": 0.0417,
	"step": 380
	},
	{
	"epoch": 5.735294117647059,
	"grad_norm": 0.577297568321228,
	"learning_rate": 4.201020783487464e-05,
	"loss": 0.0402,
	"step": 390
	},
	{
	"epoch": 5.882352941176471,
	"grad_norm": 0.7647914290428162,
	"learning_rate": 3.962027225552807e-05,
	"loss": 0.0402,
	"step": 400
	},
	{
	"epoch": 6.029411764705882,
	"grad_norm": 0.8858449459075928,
	"learning_rate": 3.7254880096057073e-05,
	"loss": 0.0479,
	"step": 410
	},
	{
	"epoch": 6.176470588235294,
	"grad_norm": 0.49515625834465027,
	"learning_rate": 3.491962445238569e-05,
	"loss": 0.0434,
	"step": 420
	},
	{
	"epoch": 6.323529411764706,
	"grad_norm": 0.548555850982666,
	"learning_rate": 3.262002716103897e-05,
	"loss": 0.0442,
	"step": 430
	},
	{
	"epoch": 6.470588235294118,
	"grad_norm": 0.35759156942367554,
	"learning_rate": 3.0361525742465973e-05,
	"loss": 0.0411,
	"step": 440
	},
	{
	"epoch": 6.617647058823529,
	"grad_norm": 0.31173354387283325,
	"learning_rate": 2.8149460543732664e-05,
	"loss": 0.0376,
	"step": 450
	},
	{
	"epoch": 6.764705882352941,
	"grad_norm": 0.24947527050971985,
	"learning_rate": 2.598906211098643e-05,
	"loss": 0.0391,
	"step": 460
	},
	{
	"epoch": 6.911764705882353,
	"grad_norm": 0.20982353389263153,
	"learning_rate": 2.388543882155067e-05,
	"loss": 0.0365,
	"step": 470
	},
	{
	"epoch": 7.0588235294117645,
	"grad_norm": 0.3836628496646881,
	"learning_rate": 2.184356480489432e-05,
	"loss": 0.0365,
	"step": 480
	},
	{
	"epoch": 7.205882352941177,
	"grad_norm": 0.23856157064437866,
	"learning_rate": 1.9868268181037185e-05,
	"loss": 0.0333,
	"step": 490
	},
	{
	"epoch": 7.352941176470588,
	"grad_norm": 0.6093345880508423,
	"learning_rate": 1.796421964420285e-05,
	"loss": 0.0389,
	"step": 500
	},
	{
	"epoch": 7.5,
	"grad_norm": 0.2536391019821167,
	"learning_rate": 1.6135921418712956e-05,
	"loss": 0.0355,
	"step": 510
	},
	{
	"epoch": 7.647058823529412,
	"grad_norm": 0.22027313709259033,
	"learning_rate": 1.4387696613237612e-05,
	"loss": 0.0331,
	"step": 520
	},
	{
	"epoch": 7.794117647058823,
	"grad_norm": 0.367398738861084,
	"learning_rate": 1.2723678998574512e-05,
	"loss": 0.0352,
	"step": 530
	},
	{
	"epoch": 7.9411764705882355,
	"grad_norm": 0.24603775143623352,
	"learning_rate": 1.114780323312724e-05,
	"loss": 0.0399,
	"step": 540
	},
	{
	"epoch": 8.088235294117647,
	"grad_norm": 0.22743625938892365,
	"learning_rate": 9.663795559195733e-06,
	"loss": 0.0315,
	"step": 550
	},
	{
	"epoch": 8.235294117647058,
	"grad_norm": 0.3211243152618408,
	"learning_rate": 8.275164992077556e-06,
	"loss": 0.033,
	"step": 560
	},
	{
	"epoch": 8.382352941176471,
	"grad_norm": 0.3177715241909027,
	"learning_rate": 6.985195022814067e-06,
	"loss": 0.0366,
	"step": 570
	},
	{
	"epoch": 8.529411764705882,
	"grad_norm": 0.4995149075984955,
	"learning_rate": 5.796935854200763e-06,
	"loss": 0.0353,
	"step": 580
	},
	{
	"epoch": 8.676470588235293,
	"grad_norm": 0.26444506645202637,
	"learning_rate": 4.713197188420026e-06,
	"loss": 0.0311,
	"step": 590
	},
	{
	"epoch": 8.823529411764707,
	"grad_norm": 0.2560294568538666,
	"learning_rate": 3.7365415833504725e-06,
	"loss": 0.0355,
	"step": 600
	},
	{
	"epoch": 8.970588235294118,
	"grad_norm": 0.20665033161640167,
	"learning_rate": 2.869278393262226e-06,
	"loss": 0.0367,
	"step": 610
	},
	{
	"epoch": 9.117647058823529,
	"grad_norm": 0.4208621382713318,
	"learning_rate": 2.113458308225458e-06,
	"loss": 0.0346,
	"step": 620
	},
	{
	"epoch": 9.264705882352942,
	"grad_norm": 0.3151559829711914,
	"learning_rate": 1.4708685051444515e-06,
	"loss": 0.0332,
	"step": 630
	},
	{
	"epoch": 9.411764705882353,
	"grad_norm": 0.5470899343490601,
	"learning_rate": 9.430284218824026e-07,
	"loss": 0.0319,
	"step": 640
	},
	{
	"epoch": 9.558823529411764,
	"grad_norm": 1.0164936780929565,
	"learning_rate": 5.311861644696048e-07,
	"loss": 0.0378,
	"step": 650
	},
	{
	"epoch": 9.705882352941176,
	"grad_norm": 0.18899625539779663,
	"learning_rate": 2.363155558901542e-07,
	"loss": 0.0349,
	"step": 660
	},
	{
	"epoch": 9.852941176470589,
	"grad_norm": 0.18862251937389374,
	"learning_rate": 5.911383342556143e-08,
	"loss": 0.036,
	"step": 670
	},
	{
	"epoch": 10.0,
	"grad_norm": 0.724671483039856,
	"learning_rate": 0.0,
	"loss": 0.0299,
	"step": 680
	},
	{
	"epoch": 10.0,
	"step": 680,
	"total_flos": 9.581997557091456e+16,
	"train_loss": 0.08232775286716573,
	"train_runtime": 870.4339,
	"train_samples_per_second": 49.378,
	"train_steps_per_second": 0.781
	}
	],
	"logging_steps": 10,
	"max_steps": 680,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 10,
	"save_steps": 10000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 9.581997557091456e+16,
	"train_batch_size": 64,
	"trial_name": null,
	"trial_params": null
	}