IE_M2_1000steps_1e5rate_03beta_SFT

This model is a fine-tuned version of tsavage68/IE_M2_1000steps_1e7rate_SFT on an unknown dataset. It achieves the following results on the evaluation set:

Loss: 0.3743
Rewards/chosen: -0.7553
Rewards/rejected: -9.7171
Rewards/accuracies: 0.4600
Rewards/margins: 8.9618
Logps/rejected: -73.4121
Logps/chosen: -44.7232
Logits/rejected: -2.8541
Logits/chosen: -2.7894

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 1e-05
train_batch_size: 2
eval_batch_size: 1
seed: 42
gradient_accumulation_steps: 2
total_train_batch_size: 4
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: cosine
lr_scheduler_warmup_steps: 100
training_steps: 1000

Training results

Training Loss	Epoch	Step	Validation Loss	Rewards/chosen	Rewards/rejected	Rewards/accuracies	Rewards/margins	Logps/rejected	Logps/chosen	Logits/rejected	Logits/chosen
0.4505	0.4	50	0.3743	-0.6162	-8.7555	0.4600	8.1394	-70.2069	-44.2594	-2.8648	-2.8033
0.3812	0.8	100	0.3743	-1.0731	-9.5409	0.4600	8.4678	-72.8247	-45.7824	-2.8548	-2.7905
0.3119	1.2	150	0.3743	-0.9410	-9.5992	0.4600	8.6582	-73.0192	-45.3421	-2.8541	-2.7895
0.3639	1.6	200	0.3743	-0.7657	-9.6369	0.4600	8.8712	-73.1449	-44.7578	-2.8542	-2.7897
0.4332	2.0	250	0.3743	-0.7607	-9.6350	0.4600	8.8743	-73.1384	-44.7411	-2.8544	-2.7898
0.3986	2.4	300	0.3743	-0.7630	-9.6419	0.4600	8.8789	-73.1614	-44.7488	-2.8543	-2.7898
0.3986	2.8	350	0.3743	-0.7622	-9.6431	0.4600	8.8809	-73.1655	-44.7462	-2.8543	-2.7897
0.4505	3.2	400	0.3743	-0.7616	-9.6621	0.4600	8.9005	-73.2290	-44.7442	-2.8541	-2.7895
0.4505	3.6	450	0.3743	-0.7588	-9.6708	0.4600	8.9120	-73.2578	-44.7348	-2.8543	-2.7897
0.4332	4.0	500	0.3743	-0.7521	-9.6770	0.4600	8.9249	-73.2784	-44.7124	-2.8544	-2.7898
0.3292	4.4	550	0.3743	-0.7599	-9.6954	0.4600	8.9355	-73.3399	-44.7386	-2.8542	-2.7896
0.3639	4.8	600	0.3743	-0.7497	-9.6881	0.4600	8.9385	-73.3155	-44.7044	-2.8543	-2.7896
0.4505	5.2	650	0.3743	-0.7507	-9.7018	0.4600	8.9511	-73.3612	-44.7080	-2.8544	-2.7897
0.4505	5.6	700	0.3743	-0.7481	-9.7110	0.4600	8.9629	-73.3918	-44.6990	-2.8541	-2.7895
0.3639	6.0	750	0.3743	-0.7516	-9.7060	0.4600	8.9544	-73.3750	-44.7109	-2.8541	-2.7895
0.2426	6.4	800	0.3743	-0.7439	-9.7074	0.4600	8.9634	-73.3797	-44.6853	-2.8542	-2.7895
0.5025	6.8	850	0.3743	-0.7549	-9.7166	0.4600	8.9617	-73.4105	-44.7219	-2.8542	-2.7895
0.3119	7.2	900	0.3743	-0.7562	-9.7133	0.4600	8.9571	-73.3994	-44.7261	-2.8541	-2.7894
0.3466	7.6	950	0.3743	-0.7569	-9.7198	0.4600	8.9629	-73.4212	-44.7285	-2.8541	-2.7894
0.3812	8.0	1000	0.3743	-0.7553	-9.7171	0.4600	8.9618	-73.4121	-44.7232	-2.8541	-2.7894

Framework versions

Transformers 4.44.2
Pytorch 2.0.0+cu117
Datasets 3.0.0
Tokenizers 0.19.1

tsavage68
/

IE_M2_1000steps_1e5rate_03beta_SFT

IE_M2_1000steps_1e5rate_03beta_SFT

Model description

Intended uses & limitations

Training and evaluation data

Training procedure

Training hyperparameters

Training results

Framework versions

Model tree for tsavage68/IE_M2_1000steps_1e5rate_03beta_SFT

Evaluation results