DeepSeek-R1-Distill-Llama-8B-anubis_dpo / trainer_state.json

Upload folder using huggingface_hub

f420eab verified about 1 month ago

8.47 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 34.8421052631579,
	"eval_steps": 500,
	"global_step": 140,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 2.4210526315789473,
	"grad_norm": 0.6825495362281799,
	"learning_rate": 0.00014285714285714287,
	"logits/chosen": -0.9514083862304688,
	"logits/rejected": -1.0533627271652222,
	"logps/chosen": -39.20041275024414,
	"logps/rejected": -21.37519073486328,
	"loss": 0.5664,
	"rewards/accuracies": 0.7743055820465088,
	"rewards/chosen": 0.15898703038692474,
	"rewards/margins": 0.5821112990379333,
	"rewards/rejected": -0.42312419414520264,
	"step": 10
	},
	{
	"epoch": 4.842105263157895,
	"grad_norm": 0.08670935779809952,
	"learning_rate": 0.00019888308262251285,
	"logits/chosen": -0.13068915903568268,
	"logits/rejected": -0.16997402906417847,
	"logps/chosen": -74.40914916992188,
	"logps/rejected": -151.8779296875,
	"loss": 0.0471,
	"rewards/accuracies": 0.9635416865348816,
	"rewards/chosen": -3.3677978515625,
	"rewards/margins": 10.11207389831543,
	"rewards/rejected": -13.479872703552246,
	"step": 20
	},
	{
	"epoch": 7.421052631578947,
	"grad_norm": 0.0034703314304351807,
	"learning_rate": 0.00019214762118704076,
	"logits/chosen": 0.19064301252365112,
	"logits/rejected": 0.24179647862911224,
	"logps/chosen": -95.65469360351562,
	"logps/rejected": -240.3935089111328,
	"loss": 0.0286,
	"rewards/accuracies": 0.9664474129676819,
	"rewards/chosen": -5.480339050292969,
	"rewards/margins": 16.84355354309082,
	"rewards/rejected": -22.323888778686523,
	"step": 30
	},
	{
	"epoch": 9.842105263157894,
	"grad_norm": 0.0037726943846791983,
	"learning_rate": 0.00017971325072229226,
	"logits/chosen": 0.08421485126018524,
	"logits/rejected": 0.1458778977394104,
	"logps/chosen": -170.75747680664062,
	"logps/rejected": -437.0244140625,
	"loss": 0.0258,
	"rewards/accuracies": 0.9670138955116272,
	"rewards/chosen": -12.99338150024414,
	"rewards/margins": 28.99999237060547,
	"rewards/rejected": -41.993377685546875,
	"step": 40
	},
	{
	"epoch": 12.421052631578947,
	"grad_norm": 0.0033487407490611076,
	"learning_rate": 0.00016234898018587337,
	"logits/chosen": -0.04333849251270294,
	"logits/rejected": -0.01762447878718376,
	"logps/chosen": -186.37686157226562,
	"logps/rejected": -464.90765380859375,
	"loss": 0.0272,
	"rewards/accuracies": 0.9671053290367126,
	"rewards/chosen": -14.553586959838867,
	"rewards/margins": 30.223119735717773,
	"rewards/rejected": -44.77670669555664,
	"step": 50
	},
	{
	"epoch": 14.842105263157894,
	"grad_norm": 0.003097180975601077,
	"learning_rate": 0.00014112871031306119,
	"logits/chosen": -0.13475045561790466,
	"logits/rejected": -0.1398223638534546,
	"logps/chosen": -184.91830444335938,
	"logps/rejected": -461.1513977050781,
	"loss": 0.0244,
	"rewards/accuracies": 0.96875,
	"rewards/chosen": -14.403005599975586,
	"rewards/margins": 29.99542999267578,
	"rewards/rejected": -44.398433685302734,
	"step": 60
	},
	{
	"epoch": 17.42105263157895,
	"grad_norm": 0.0024468335323035717,
	"learning_rate": 0.00011736481776669306,
	"logits/chosen": -0.1959075629711151,
	"logits/rejected": -0.22540684044361115,
	"logps/chosen": -185.68663024902344,
	"logps/rejected": -458.96826171875,
	"loss": 0.0261,
	"rewards/accuracies": 0.9684211015701294,
	"rewards/chosen": -14.49423885345459,
	"rewards/margins": 29.691282272338867,
	"rewards/rejected": -44.185516357421875,
	"step": 70
	},
	{
	"epoch": 19.842105263157894,
	"grad_norm": 0.002537067048251629,
	"learning_rate": 9.252699064135758e-05,
	"logits/chosen": -0.22896860539913177,
	"logits/rejected": -0.2724004089832306,
	"logps/chosen": -184.9608154296875,
	"logps/rejected": -460.61468505859375,
	"loss": 0.0266,
	"rewards/accuracies": 0.9659722447395325,
	"rewards/chosen": -14.424090385437012,
	"rewards/margins": 29.924333572387695,
	"rewards/rejected": -44.34842300415039,
	"step": 80
	},
	{
	"epoch": 22.42105263157895,
	"grad_norm": 0.0032824031077325344,
	"learning_rate": 6.815133497483157e-05,
	"logits/chosen": -0.24728278815746307,
	"logits/rejected": -0.2936950922012329,
	"logps/chosen": -185.9248046875,
	"logps/rejected": -467.2992858886719,
	"loss": 0.0287,
	"rewards/accuracies": 0.9651316404342651,
	"rewards/chosen": -14.498348236083984,
	"rewards/margins": 30.518945693969727,
	"rewards/rejected": -45.01729202270508,
	"step": 90
	},
	{
	"epoch": 24.842105263157894,
	"grad_norm": 0.003522921120747924,
	"learning_rate": 4.574537361342407e-05,
	"logits/chosen": -0.2618289887905121,
	"logits/rejected": -0.311085045337677,
	"logps/chosen": -187.0611572265625,
	"logps/rejected": -466.8361511230469,
	"loss": 0.0258,
	"rewards/accuracies": 0.9670138955116272,
	"rewards/chosen": -14.643547058105469,
	"rewards/margins": 30.329221725463867,
	"rewards/rejected": -44.97277069091797,
	"step": 100
	},
	{
	"epoch": 27.42105263157895,
	"grad_norm": 0.0024658790789544582,
	"learning_rate": 2.669481281701739e-05,
	"logits/chosen": -0.27023741602897644,
	"logits/rejected": -0.3240560293197632,
	"logps/chosen": -186.94210815429688,
	"logps/rejected": -473.1488952636719,
	"loss": 0.0276,
	"rewards/accuracies": 0.9664474129676819,
	"rewards/chosen": -14.606731414794922,
	"rewards/margins": 30.998502731323242,
	"rewards/rejected": -45.6052360534668,
	"step": 110
	},
	{
	"epoch": 29.842105263157894,
	"grad_norm": 0.0034348091576248407,
	"learning_rate": 1.2177842662977135e-05,
	"logits/chosen": -0.27230748534202576,
	"logits/rejected": -0.32499459385871887,
	"logps/chosen": -185.62405395507812,
	"logps/rejected": -470.46063232421875,
	"loss": 0.0252,
	"rewards/accuracies": 0.9677083492279053,
	"rewards/chosen": -14.492985725402832,
	"rewards/margins": 30.83690071105957,
	"rewards/rejected": -45.329891204833984,
	"step": 120
	},
	{
	"epoch": 32.421052631578945,
	"grad_norm": 0.0032501835376024246,
	"learning_rate": 3.092271377092215e-06,
	"logits/chosen": -0.27767735719680786,
	"logits/rejected": -0.3315570652484894,
	"logps/chosen": -187.55230712890625,
	"logps/rejected": -470.9134521484375,
	"loss": 0.0287,
	"rewards/accuracies": 0.9651316404342651,
	"rewards/chosen": -14.68417739868164,
	"rewards/margins": 30.694440841674805,
	"rewards/rejected": -45.37861633300781,
	"step": 130
	},
	{
	"epoch": 34.8421052631579,
	"grad_norm": 0.003052822547033429,
	"learning_rate": 0.0,
	"logits/chosen": -0.27554523944854736,
	"logits/rejected": -0.32890552282333374,
	"logps/chosen": -185.5701904296875,
	"logps/rejected": -472.9700927734375,
	"loss": 0.0244,
	"rewards/accuracies": 0.96875,
	"rewards/chosen": -14.46578311920166,
	"rewards/margins": 31.117090225219727,
	"rewards/rejected": -45.58286666870117,
	"step": 140
	},
	{
	"epoch": 34.8421052631579,
	"step": 140,
	"total_flos": 3.1072679368851456e+17,
	"train_loss": 0.06661632827350071,
	"train_runtime": 6674.5686,
	"train_samples_per_second": 6.319,
	"train_steps_per_second": 0.021
	}
	],
	"logging_steps": 10,
	"max_steps": 140,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 35,
	"save_steps": 70,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 3.1072679368851456e+17,
	"train_batch_size": 32,
	"trial_name": null,
	"trial_params": null
	}