Llama-3.1-8B-Instruct-sft-5e-3-epoch-100-gsm8k

This model is a fine-tuned version of meta-llama/Llama-3.1-8B-Instruct on the meng-lab/Llama-3.1-8B-Instruct-gsm8k dataset. It achieves the following results on the evaluation set:

Loss: 6.0386
Loss Layer 4 Head: 1.7920
Loss Layer 8 Head: 1.4613
Loss Layer 12 Head: 1.4113
Loss Layer 16 Head: 0.7502
Loss Layer 20 Head: 0.3285
Loss Layer 24 Head: 0.1760
Loss Layer 28 Head: 0.0876

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 0.005
train_batch_size: 1
eval_batch_size: 2
seed: 42
distributed_type: multi-GPU
num_devices: 4
gradient_accumulation_steps: 32
total_train_batch_size: 128
total_eval_batch_size: 8
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: cosine
lr_scheduler_warmup_ratio: 0.1
num_epochs: 100

Training results

Training Loss	Epoch	Step	Validation Loss	Loss Layer 4 Head	Loss Layer 8 Head	Loss Layer 12 Head	Loss Layer 16 Head	Loss Layer 20 Head	Loss Layer 24 Head	Loss Layer 28 Head
5.3945	23.6162	200	7.0517	2.0468	1.7131	1.5892	0.8683	0.4093	0.2547	0.1286
3.8702	47.2325	400	6.2998	1.8651	1.5127	1.4674	0.7790	0.3461	0.1892	0.1047
3.146	70.8487	600	6.0631	1.8044	1.4661	1.4136	0.7520	0.3300	0.1769	0.0885
3.0395	94.4649	800	6.0386	1.7920	1.4613	1.4113	0.7502	0.3285	0.1760	0.0876

Framework versions

Transformers 4.43.2
Pytorch 2.4.1+cu121
Datasets 3.0.1
Tokenizers 0.19.1

meng-lab
/

llama_3.1_8b_instruct_paradec_gsm8k

Llama-3.1-8B-Instruct-sft-5e-3-epoch-100-gsm8k

Model description

Intended uses & limitations

Training and evaluation data

Training procedure

Training hyperparameters

Training results

Framework versions

Model tree for meng-lab/llama_3.1_8b_instruct_paradec_gsm8k

Dataset used to train meng-lab/llama_3.1_8b_instruct_paradec_gsm8k

Collection including meng-lab/llama_3.1_8b_instruct_paradec_gsm8k

AdaDecode

Evaluation results