Model save

Browse files

Files changed (10) hide show

README.md +18 -13
all_results.json +6 -11
model-00001-of-00005.safetensors +1 -1
model-00002-of-00005.safetensors +1 -1
model-00003-of-00005.safetensors +1 -1
model-00004-of-00005.safetensors +1 -1
model-00005-of-00005.safetensors +1 -1
train_results.json +6 -6
trainer_state.json +175 -68
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -2,10 +2,6 @@
 license: gemma
 base_model: google/gemma-2-9b
 tags:
-- easylm
-- trl
-- sft
-- generated_from_trainer
 - trl
 - sft
 - generated_from_trainer
@@ -23,7 +19,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [google/gemma-2-9b](https://huggingface.co/google/gemma-2-9b) on the alpaca_farm dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.9946
 ## Model description
@@ -43,24 +39,33 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 3e-06
-- train_batch_size: 1
-- eval_batch_size: 1
 - seed: 42
 - distributed_type: multi-GPU
 - num_devices: 8
-- total_train_batch_size: 8
-- total_eval_batch_size: 8
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
-- num_epochs: 3
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 0.6413        | 1.0   | 1250 | 0.6420          |
-| 0.3318        | 2.0   | 2500 | 0.7324          |
-| 0.1518        | 3.0   | 3750 | 0.9946          |
 ### Framework versions

 license: gemma
 base_model: google/gemma-2-9b
 tags:
 - trl
 - sft
 - generated_from_trainer
 This model is a fine-tuned version of [google/gemma-2-9b](https://huggingface.co/google/gemma-2-9b) on the alpaca_farm dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.6364
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 3e-06
+- train_batch_size: 2
+- eval_batch_size: 2
 - seed: 42
 - distributed_type: multi-GPU
 - num_devices: 8
+- total_train_batch_size: 16
+- total_eval_batch_size: 16
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
+- num_epochs: 1
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 0.7159        | 0.08  | 50   | 0.6576          |
+| 0.6551        | 0.16  | 100  | 0.6588          |
+| 0.6519        | 0.24  | 150  | 0.6581          |
+| 0.6278        | 0.32  | 200  | 0.6568          |
+| 0.6394        | 0.4   | 250  | 0.6533          |
+| 0.6528        | 0.48  | 300  | 0.6503          |
+| 0.6382        | 0.56  | 350  | 0.6454          |
+| 0.638         | 0.64  | 400  | 0.6426          |
+| 0.618         | 0.72  | 450  | 0.6400          |
+| 0.6378        | 0.8   | 500  | 0.6379          |
+| 0.6338        | 0.88  | 550  | 0.6368          |
+| 0.6284        | 0.96  | 600  | 0.6364          |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,14 +1,9 @@
 {
-    "epoch": 3.0,
-    "eval_loss": 0.994577169418335,
-    "eval_runtime": 20.7473,
-    "eval_samples": 2000,
-    "eval_samples_per_second": 96.398,
-    "eval_steps_per_second": 12.05,
-    "total_flos": 2.3924465493816115e+17,
-    "train_loss": 0.37510518595377607,
-    "train_runtime": 2372.5928,
     "train_samples": 10000,
-    "train_samples_per_second": 12.644,
-    "train_steps_per_second": 1.581
 }

 {
+    "epoch": 1.0,
+    "total_flos": 9.391098276138189e+16,
+    "train_loss": 0.6481949188232422,
+    "train_runtime": 2478.7348,
     "train_samples": 10000,
+    "train_samples_per_second": 4.034,
+    "train_steps_per_second": 0.252
 }

model-00001-of-00005.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:730503b5f82e8151507cd063b17d4a5da741fbf0d91f70f7056373da25886c21
 size 4903351912

 version https://git-lfs.github.com/spec/v1
+oid sha256:9528047cd1ea28eca3499b2b8a7b3d261c4d42dcd8b1e7b036a8ea967c937c23
 size 4903351912

model-00002-of-00005.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:36c4b5075fef66eeffcce36a789b1e3dcdf2bf17e286565ef22c960fd276bc02
 size 4947570872

 version https://git-lfs.github.com/spec/v1
+oid sha256:d6fa1e3201d30cf2996f1ad9490be4dda21cdece8f024eb2959c26ac19260d16
 size 4947570872

model-00003-of-00005.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b993b8ecc8b2ba33cd90ed3d128f1545205f0deac2f2979a72999f00830fe263
 size 4962221464

 version https://git-lfs.github.com/spec/v1
+oid sha256:19006e8c3d14b2f67c927289f4e75f6cfd842b28d6191dcebd75e6d2e49678f0
 size 4962221464

model-00004-of-00005.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:460270e8f8514cd94701a49a0d305d9438dbe482f265593fbf86d875001d607a
 size 3670322200

 version https://git-lfs.github.com/spec/v1
+oid sha256:976c695d8c47863f06f254d22b97010871fb4b245c647731fc79f81a7f937ced
 size 3670322200

model-00005-of-00005.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d99a8866f4395ac169b4742c110000d655fc6b67d57ece2889124efb79be7d0d
 size 1835008128

 version https://git-lfs.github.com/spec/v1
+oid sha256:fbbd5e5b60ca1338e216c06b6553729cf4a8960abbe6d585a0841e73da224978
 size 1835008128

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 3.0,
-    "total_flos": 2.3924465493816115e+17,
-    "train_loss": 0.37510518595377607,
-    "train_runtime": 2372.5928,
     "train_samples": 10000,
-    "train_samples_per_second": 12.644,
-    "train_steps_per_second": 1.581
 }

 {
+    "epoch": 1.0,
+    "total_flos": 9.391098276138189e+16,
+    "train_loss": 0.6481949188232422,
+    "train_runtime": 2478.7348,
     "train_samples": 10000,
+    "train_samples_per_second": 4.034,
+    "train_steps_per_second": 0.252
 }

trainer_state.json CHANGED Viewed

@@ -1,100 +1,207 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.0,
-  "eval_steps": 500,
-  "global_step": 3750,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.4,
-      "grad_norm": 4.658291339874268,
-      "learning_rate": 2.8703181864639013e-06,
-      "loss": 0.64,
-      "step": 500
     },
     {
-      "epoch": 0.8,
-      "grad_norm": 4.34930944442749,
-      "learning_rate": 2.5036959095382875e-06,
-      "loss": 0.6413,
-      "step": 1000
     },
     {
-      "epoch": 1.0,
-      "eval_loss": 0.6420477032661438,
-      "eval_runtime": 20.5136,
-      "eval_samples_per_second": 97.497,
-      "eval_steps_per_second": 12.187,
-      "step": 1250
     },
     {
-      "epoch": 1.2,
-      "grad_norm": 5.983999252319336,
       "learning_rate": 1.963525491562421e-06,
-      "loss": 0.4847,
-      "step": 1500
     },
     {
-      "epoch": 1.6,
-      "grad_norm": 5.177482604980469,
-      "learning_rate": 1.3432073050985201e-06,
-      "loss": 0.3344,
-      "step": 2000
     },
     {
-      "epoch": 2.0,
-      "grad_norm": 4.585903167724609,
-      "learning_rate": 7.500000000000003e-07,
-      "loss": 0.3318,
-      "step": 2500
     },
     {
-      "epoch": 2.0,
-      "eval_loss": 0.7324458360671997,
-      "eval_runtime": 20.5637,
-      "eval_samples_per_second": 97.259,
-      "eval_steps_per_second": 12.157,
-      "step": 2500
     },
     {
-      "epoch": 2.4,
-      "grad_norm": 5.989898681640625,
       "learning_rate": 2.86474508437579e-07,
-      "loss": 0.1551,
-      "step": 3000
     },
     {
-      "epoch": 2.8,
-      "grad_norm": 5.329368591308594,
-      "learning_rate": 3.277859889929147e-08,
-      "loss": 0.1518,
-      "step": 3500
     },
     {
-      "epoch": 3.0,
-      "eval_loss": 0.994577169418335,
-      "eval_runtime": 20.6046,
-      "eval_samples_per_second": 97.066,
-      "eval_steps_per_second": 12.133,
-      "step": 3750
     },
     {
-      "epoch": 3.0,
-      "step": 3750,
-      "total_flos": 2.3924465493816115e+17,
-      "train_loss": 0.37510518595377607,
-      "train_runtime": 2372.5928,
-      "train_samples_per_second": 12.644,
-      "train_steps_per_second": 1.581
     }
   ],
-  "logging_steps": 500,
-  "max_steps": 3750,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 3,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -102,14 +209,14 @@
         "should_epoch_stop": false,
         "should_evaluate": false,
         "should_log": false,
-        "should_save": false,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 2.3924465493816115e+17,
-  "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 50,
+  "global_step": 625,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.08,
+      "grad_norm": 4.338859558105469,
+      "learning_rate": 2.9528747416929465e-06,
+      "loss": 0.7159,
+      "step": 50
     },
     {
+      "epoch": 0.08,
+      "eval_loss": 0.6576318144798279,
+      "eval_runtime": 12.5345,
+      "eval_samples_per_second": 159.56,
+      "eval_steps_per_second": 9.972,
+      "step": 50
     },
     {
+      "epoch": 0.16,
+      "grad_norm": 4.263615131378174,
+      "learning_rate": 2.814460020065795e-06,
+      "loss": 0.6551,
+      "step": 100
+    },
+    {
+      "epoch": 0.16,
+      "eval_loss": 0.6588318943977356,
+      "eval_runtime": 12.1193,
+      "eval_samples_per_second": 165.026,
+      "eval_steps_per_second": 10.314,
+      "step": 100
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 4.684665679931641,
+      "learning_rate": 2.5934529411321173e-06,
+      "loss": 0.6519,
+      "step": 150
+    },
+    {
+      "epoch": 0.24,
+      "eval_loss": 0.6581148505210876,
+      "eval_runtime": 12.4709,
+      "eval_samples_per_second": 160.373,
+      "eval_steps_per_second": 10.023,
+      "step": 150
     },
     {
+      "epoch": 0.32,
+      "grad_norm": 4.372674942016602,
+      "learning_rate": 2.303740192468495e-06,
+      "loss": 0.6278,
+      "step": 200
+    },
+    {
+      "epoch": 0.32,
+      "eval_loss": 0.656774640083313,
+      "eval_runtime": 12.0295,
+      "eval_samples_per_second": 166.258,
+      "eval_steps_per_second": 10.391,
+      "step": 200
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 3.940370798110962,
       "learning_rate": 1.963525491562421e-06,
+      "loss": 0.6394,
+      "step": 250
+    },
+    {
+      "epoch": 0.4,
+      "eval_loss": 0.6532722115516663,
+      "eval_runtime": 12.0522,
+      "eval_samples_per_second": 165.945,
+      "eval_steps_per_second": 10.372,
+      "step": 250
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 4.178117752075195,
+      "learning_rate": 1.5941857792939703e-06,
+      "loss": 0.6528,
+      "step": 300
     },
     {
+      "epoch": 0.48,
+      "eval_loss": 0.6502550840377808,
+      "eval_runtime": 12.0395,
+      "eval_samples_per_second": 166.12,
+      "eval_steps_per_second": 10.383,
+      "step": 300
     },
     {
+      "epoch": 0.56,
+      "grad_norm": 3.7875773906707764,
+      "learning_rate": 1.2189280281214128e-06,
+      "loss": 0.6382,
+      "step": 350
     },
     {
+      "epoch": 0.56,
+      "eval_loss": 0.6453887820243835,
+      "eval_runtime": 12.102,
+      "eval_samples_per_second": 165.261,
+      "eval_steps_per_second": 10.329,
+      "step": 350
     },
     {
+      "epoch": 0.64,
+      "grad_norm": 3.9947192668914795,
+      "learning_rate": 8.613310626523911e-07,
+      "loss": 0.638,
+      "step": 400
+    },
+    {
+      "epoch": 0.64,
+      "eval_loss": 0.6425909399986267,
+      "eval_runtime": 12.0649,
+      "eval_samples_per_second": 165.77,
+      "eval_steps_per_second": 10.361,
+      "step": 400
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 3.9734668731689453,
+      "learning_rate": 5.438640153769653e-07,
+      "loss": 0.618,
+      "step": 450
+    },
+    {
+      "epoch": 0.72,
+      "eval_loss": 0.6400230526924133,
+      "eval_runtime": 12.0503,
+      "eval_samples_per_second": 165.97,
+      "eval_steps_per_second": 10.373,
+      "step": 450
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 3.733959436416626,
       "learning_rate": 2.86474508437579e-07,
+      "loss": 0.6378,
+      "step": 500
     },
     {
+      "epoch": 0.8,
+      "eval_loss": 0.6379128694534302,
+      "eval_runtime": 12.1078,
+      "eval_samples_per_second": 165.183,
+      "eval_steps_per_second": 10.324,
+      "step": 500
     },
     {
+      "epoch": 0.88,
+      "grad_norm": 3.8779754638671875,
+      "learning_rate": 1.0533527116762298e-07,
+      "loss": 0.6338,
+      "step": 550
     },
     {
+      "epoch": 0.88,
+      "eval_loss": 0.636811375617981,
+      "eval_runtime": 13.2199,
+      "eval_samples_per_second": 151.287,
+      "eval_steps_per_second": 9.455,
+      "step": 550
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 3.924581527709961,
+      "learning_rate": 1.1827948028283353e-08,
+      "loss": 0.6284,
+      "step": 600
+    },
+    {
+      "epoch": 0.96,
+      "eval_loss": 0.6364374160766602,
+      "eval_runtime": 14.3025,
+      "eval_samples_per_second": 139.836,
+      "eval_steps_per_second": 8.74,
+      "step": 600
+    },
+    {
+      "epoch": 1.0,
+      "step": 625,
+      "total_flos": 9.391098276138189e+16,
+      "train_loss": 0.6481949188232422,
+      "train_runtime": 2478.7348,
+      "train_samples_per_second": 4.034,
+      "train_steps_per_second": 0.252
     }
   ],
+  "logging_steps": 50,
+  "max_steps": 625,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
         "should_epoch_stop": false,
         "should_evaluate": false,
         "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 9.391098276138189e+16,
+  "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:545922062b1251f9b6ef9cd44ba987560769788f8b01bffb8d5688fdbe889de3
-size 6520

 version https://git-lfs.github.com/spec/v1
+oid sha256:1aaec3c721f712e5fe9b43e7244ccf3c19368e555dbdccc7c766e21f77afd02c
+size 6456