Spaces:

inflaton-ai
/

logical-reasoning

Build error

dh-mc commited on Jul 22, 2024

Commit

2fb55eb

1 Parent(s): 2bce01b

llama3 r2 config

Files changed (4) hide show

llama-factory/config/llama3-8b_lora_sft_bf16-p1_r2.yaml ADDED Viewed

+### model
+model_name_or_path: shenzhi-wang/Llama3-8B-Chinese-Chat
+#model_name_or_path: FlagAlpha/Llama3-Chinese-8B-Instruct
+### method
+stage: sft
+do_train: true
+finetuning_type: lora
+lora_target: all
+# quantization_bit: 4                     # use 4-bit QLoRA
+loraplus_lr_ratio: 16.0                 # use LoRA+ with lambda=16.0
+# use_unsloth: true                       # use UnslothAI's LoRA optimization for 2x faster training
+upcast_layernorm: true
+### dataset
+dataset: alpaca_mgtv_p1
+template: llama3
+cutoff_len: 8192
+max_samples: 25000
+overwrite_cache: true
+preprocessing_num_workers: 16
+### output
+output_dir: saves/llama3-8b/lora/sft_bf16_p1_full_r2
+logging_steps: 10
+save_steps: 175
+plot_loss: true
+# overwrite_output_dir: true
+### train
+per_device_train_batch_size: 16
+gradient_accumulation_steps: 8
+learning_rate: 1.0e-4
+num_train_epochs: 4.0
+lr_scheduler_type: cosine
+warmup_ratio: 0.1
+bf16: true
+ddp_timeout: 180000000
+### eval
+val_size: 0.1
+per_device_eval_batch_size: 1
+eval_strategy: epoch
+eval_steps: 1
+report_to: wandb
+run_name: llama3_8b_p1_full_r2 # optional

llama-factory/config/llama3-8b_lora_sft_bf16-p2_r2.yaml ADDED Viewed

+### model
+model_name_or_path: shenzhi-wang/Llama3-8B-Chinese-Chat
+#model_name_or_path: FlagAlpha/Llama3-Chinese-8B-Instruct
+### method
+stage: sft
+do_train: true
+finetuning_type: lora
+lora_target: all
+# quantization_bit: 4                     # use 4-bit QLoRA
+loraplus_lr_ratio: 16.0                 # use LoRA+ with lambda=16.0
+# use_unsloth: true                       # use UnslothAI's LoRA optimization for 2x faster training
+upcast_layernorm: true
+### dataset
+dataset: alpaca_mgtv_p2
+template: llama3
+cutoff_len: 8192
+max_samples: 25000
+overwrite_cache: true
+preprocessing_num_workers: 16
+### output
+output_dir: saves/llama3-8b/lora/sft_bf16_p2_full_r2
+logging_steps: 10
+save_steps: 175
+plot_loss: true
+#overwrite_output_dir: true
+### train
+per_device_train_batch_size: 16
+gradient_accumulation_steps: 8
+learning_rate: 1.0e-4
+num_train_epochs: 4.0
+lr_scheduler_type: cosine
+warmup_ratio: 0.1
+bf16: true
+ddp_timeout: 180000000
+### eval
+val_size: 0.1
+per_device_eval_batch_size: 1
+eval_strategy: epoch
+eval_steps: 1
+report_to: wandb
+run_name: llama3_8b_p2_full_r2 # optional

scripts/eval-mgtv-llama3_8b.sh CHANGED Viewed

@@ -24,13 +24,13 @@ export MODEL_NAME=shenzhi-wang/Llama3-8B-Chinese-Chat
 export MODEL_PREFIX=llama3-8b_lora_sft_bf16
 export LOGICAL_REASONING_RESULTS_PATH=results/$MODEL_PREFIX-p1.csv
-export ADAPTER_PATH_BASE=llama-factory/saves/llama3-8b/lora/sft_bf16_p1_full
 export USING_P1_PROMPT_TEMPLATE=true
 echo "Eval $MODEL_NAME with $ADAPTER_PATH_BASE"
 python llm_toolkit/eval_logical_reasoning_all_epochs.py
 export LOGICAL_REASONING_RESULTS_PATH=results/$MODEL_PREFIX-p2.csv
-export ADAPTER_PATH_BASE=llama-factory/saves/llama3-8b/lora/sft_bf16_p2_full
 export USING_P1_PROMPT_TEMPLATE=false
 echo "Eval $MODEL_NAME with $ADAPTER_PATH_BASE"
 python llm_toolkit/eval_logical_reasoning_all_epochs.py

 export MODEL_PREFIX=llama3-8b_lora_sft_bf16
 export LOGICAL_REASONING_RESULTS_PATH=results/$MODEL_PREFIX-p1.csv
+export ADAPTER_PATH_BASE=llama-factory/saves/llama3-8b/lora/sft_bf16_p1_full_r2
 export USING_P1_PROMPT_TEMPLATE=true
 echo "Eval $MODEL_NAME with $ADAPTER_PATH_BASE"
 python llm_toolkit/eval_logical_reasoning_all_epochs.py
 export LOGICAL_REASONING_RESULTS_PATH=results/$MODEL_PREFIX-p2.csv
+export ADAPTER_PATH_BASE=llama-factory/saves/llama3-8b/lora/sft_bf16_p2_full_r2
 export USING_P1_PROMPT_TEMPLATE=false
 echo "Eval $MODEL_NAME with $ADAPTER_PATH_BASE"
 python llm_toolkit/eval_logical_reasoning_all_epochs.py

scripts/tune-mgtv-llama3_8b.sh CHANGED Viewed

@@ -25,15 +25,14 @@ export MODEL_NAME=shenzhi-wang/Llama3-8B-Chinese-Chat
 export MODEL_PREFIX=llama3-8b_lora_sft_bf16
-export CONFIG_FILE=config/$MODEL_PREFIX-p1.yaml
 echo "Tuning $MODEL_NAME with $CONFIG_FILE"
 $BASEDIR/scripts/tune-lf.sh $CONFIG_FILE
-export CONFIG_FILE=config/$MODEL_PREFIX-p2.yaml
 echo "Tuning $MODEL_NAME with $CONFIG_FILE"
 $BASEDIR/scripts/tune-lf.sh $CONFIG_FILE
 $BASEDIR/scripts/eval-mgtv-llama3_8b.sh

 export MODEL_PREFIX=llama3-8b_lora_sft_bf16
+export CONFIG_FILE=config/$MODEL_PREFIX-p1_r2.yaml
 echo "Tuning $MODEL_NAME with $CONFIG_FILE"
 $BASEDIR/scripts/tune-lf.sh $CONFIG_FILE
+export CONFIG_FILE=config/$MODEL_PREFIX-p2_r2.yaml
 echo "Tuning $MODEL_NAME with $CONFIG_FILE"
 $BASEDIR/scripts/tune-lf.sh $CONFIG_FILE
 $BASEDIR/scripts/eval-mgtv-llama3_8b.sh