End of training

Browse files

Files changed (3) hide show

README.md +11 -11
adapter_model.bin +1 -1
adapter_model.safetensors +1 -1

README.md CHANGED Viewed

@@ -42,7 +42,7 @@ debug: null
 deepspeed: null
 early_stopping_patience: 3
 eval_max_new_tokens: 128
-eval_steps: 200
 eval_table_size: null
 evals_per_epoch: null
 flash_attention: true
@@ -70,7 +70,7 @@ lora_target_linear: true
 lr_scheduler: cosine
 max_grad_norm: 1.0
 max_steps: null
-micro_batch_size: 16
 mlflow_experiment_name: /tmp/1b5f3f0e9699035e_train_data.json
 model_type: AutoModelForCausalLM
 num_epochs: 10
@@ -80,7 +80,7 @@ pad_to_sequence_len: true
 resume_from_checkpoint: null
 s2_attention: null
 sample_packing: false
-save_steps: 200
 sequence_len: 256
 strict: false
 tf32: false
@@ -126,11 +126,11 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 0.0002
-- train_batch_size: 16
-- eval_batch_size: 16
 - seed: 42
 - gradient_accumulation_steps: 2
-- total_train_batch_size: 32
 - optimizer: Use OptimizerNames.ADAMW_BNB with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_steps: 30
@@ -140,11 +140,11 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
-| 23.0          | 0.0012 | 1    | 11.5            |
-| 23.0          | 0.2401 | 200  | 11.5            |
-| 23.0          | 0.4802 | 400  | 11.5            |
-| 23.0          | 0.7203 | 600  | 11.5            |
-| 23.0          | 0.9604 | 800  | 11.5            |
 ### Framework versions

 deepspeed: null
 early_stopping_patience: 3
 eval_max_new_tokens: 128
+eval_steps: 1000
 eval_table_size: null
 evals_per_epoch: null
 flash_attention: true
 lr_scheduler: cosine
 max_grad_norm: 1.0
 max_steps: null
+micro_batch_size: 8
 mlflow_experiment_name: /tmp/1b5f3f0e9699035e_train_data.json
 model_type: AutoModelForCausalLM
 num_epochs: 10
 resume_from_checkpoint: null
 s2_attention: null
 sample_packing: false
+save_steps: 1000
 sequence_len: 256
 strict: false
 tf32: false
 The following hyperparameters were used during training:
 - learning_rate: 0.0002
+- train_batch_size: 8
+- eval_batch_size: 8
 - seed: 42
 - gradient_accumulation_steps: 2
+- total_train_batch_size: 16
 - optimizer: Use OptimizerNames.ADAMW_BNB with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_steps: 30
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
+| 23.0          | 0.0006 | 1    | 11.5            |
+| 23.0          | 0.6002 | 1000 | 11.5            |
+| 23.0          | 1.2005 | 2000 | 11.5            |
+| 23.0          | 1.8007 | 3000 | 11.5            |
+| 23.0          | 2.4010 | 4000 | 11.5            |
 ### Framework versions

adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1f8a98a50fb4e7405dd2d3203df6ffd2acbb804cd11be619f8b59e25d5489c3a
 size 21458

 version https://git-lfs.github.com/spec/v1
+oid sha256:9b57cd978fdd27561e08d2fc05cfe493b5341249c23a6da566b3ed6c181d6971
 size 21458

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5419ebdccf6a34eba56a6782ea49dca7b7e2fa87af59eb0e58d04fe2bab99324
 size 18064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e411c36ceecfaefc31ff0641b0e21bf9eb227b0fa3bba226dc5a55fcd0a06915
 size 18064