Spaces:

inflaton-ai
/

logical-reasoning

Build error

dh-mc commited on Jul 14, 2024

Commit

dc1ac39

1 Parent(s): c817aef

updated logging/save/eval steps

Files changed (2) hide show

llama-factory/config/qwen2_72b_lora_sft_4bit-p1.yaml CHANGED Viewed

@@ -21,15 +21,15 @@ preprocessing_num_workers: 16
 ### output
 output_dir: saves/qwen2-72b/lora/sft_4bit_p1_full
-logging_steps: 10
-save_steps: 88
 plot_loss: true
 overwrite_output_dir: true
 # resume_from_checkpoint: true
 ### train
-per_device_train_batch_size: 2
-gradient_accumulation_steps: 4
 learning_rate: 1.0e-4
 num_train_epochs: 3.0
 lr_scheduler_type: cosine
@@ -41,7 +41,7 @@ ddp_timeout: 180000000
 val_size: 0.1
 per_device_eval_batch_size: 1
 eval_strategy: steps
-eval_steps: 88
 report_to: wandb
 run_name: qwen2_72b_4bit_p1_full # optional

 ### output
 output_dir: saves/qwen2-72b/lora/sft_4bit_p1_full
+logging_steps: 100
+save_steps: 2109
 plot_loss: true
 overwrite_output_dir: true
 # resume_from_checkpoint: true
 ### train
+per_device_train_batch_size: 1
+gradient_accumulation_steps: 8
 learning_rate: 1.0e-4
 num_train_epochs: 3.0
 lr_scheduler_type: cosine
 val_size: 0.1
 per_device_eval_batch_size: 1
 eval_strategy: steps
+eval_steps: 2109
 report_to: wandb
 run_name: qwen2_72b_4bit_p1_full # optional

llama-factory/config/qwen2_72b_lora_sft_4bit-p2.yaml CHANGED Viewed

@@ -21,14 +21,14 @@ preprocessing_num_workers: 16
 ### output
 output_dir: saves/qwen2-72b/lora/sft_4bit_p2_full
-logging_steps: 10
-save_steps: 88
 plot_loss: true
 overwrite_output_dir: true
 # resume_from_checkpoint: true
 ### train
-per_device_train_batch_size: 4
 gradient_accumulation_steps: 8
 learning_rate: 1.0e-4
 num_train_epochs: 3.0
@@ -41,7 +41,7 @@ ddp_timeout: 180000000
 val_size: 0.1
 per_device_eval_batch_size: 1
 eval_strategy: steps
-eval_steps: 88
 report_to: wandb
 run_name: qwen2_72b_4bit_p2_full # optional

 ### output
 output_dir: saves/qwen2-72b/lora/sft_4bit_p2_full
+logging_steps: 100
+save_steps: 2109
 plot_loss: true
 overwrite_output_dir: true
 # resume_from_checkpoint: true
 ### train
+per_device_train_batch_size: 1
 gradient_accumulation_steps: 8
 learning_rate: 1.0e-4
 num_train_epochs: 3.0
 val_size: 0.1
 per_device_eval_batch_size: 1
 eval_strategy: steps
+eval_steps: 2109
 report_to: wandb
 run_name: qwen2_72b_4bit_p2_full # optional