Upload folder using huggingface_hub

Browse files

Files changed (12) hide show

adapter_config.json +3 -3
adapter_model.safetensors +1 -1
all_results.json +6 -6
checkpoint-45/adapter_config.json +3 -3
checkpoint-45/adapter_model.safetensors +1 -1
checkpoint-45/optimizer.pt +1 -1
checkpoint-45/rng_state.pth +1 -1
checkpoint-45/trainer_state.json +31 -31
checkpoint-45/training_args.bin +1 -1
train_results.json +6 -6
trainer_state.json +37 -37
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -23,10 +23,10 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "qkv_proj",
-    "down_proj",
     "o_proj",
-    "gate_up_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
+    "qkv_proj",
+    "gate_up_proj",
+    "down_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7cdb74f4aea7eaaeb69447d8a3740d24dafa4689d00dc0bdb0a1f656b6b3a4e8
 size 100697728

 version https://git-lfs.github.com/spec/v1
+oid sha256:c1fa574614bd2c4f4b60446fc1e1704a6309cd03a1bee5f601b80009c317b85b
 size 100697728

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 1.1866666666666668,
-    "total_flos": 4226848963651584.0,
-    "train_loss": 0.6811937597062853,
-    "train_runtime": 94.215,
-    "train_samples_per_second": 1.911,
-    "train_steps_per_second": 0.478
 }

 {
+    "epoch": 2.48,
+    "total_flos": 1.2752346185220096e+16,
+    "train_loss": 0.643518532647027,
+    "train_runtime": 231.7259,
+    "train_samples_per_second": 1.554,
+    "train_steps_per_second": 0.194
 }

checkpoint-45/adapter_config.json CHANGED Viewed

@@ -23,10 +23,10 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "qkv_proj",
-    "down_proj",
     "o_proj",
-    "gate_up_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
+    "qkv_proj",
+    "gate_up_proj",
+    "down_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

checkpoint-45/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7cdb74f4aea7eaaeb69447d8a3740d24dafa4689d00dc0bdb0a1f656b6b3a4e8
 size 100697728

 version https://git-lfs.github.com/spec/v1
+oid sha256:c1fa574614bd2c4f4b60446fc1e1704a6309cd03a1bee5f601b80009c317b85b
 size 100697728

checkpoint-45/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:022371f022aa42ec80b0298d42a53fbc14d67f7f603b1e6f6fdf8e98506745a0
 size 201541754

 version https://git-lfs.github.com/spec/v1
+oid sha256:97fdf0ab912d2be2e65c97549eee40b206332fd7cfd950d3671d97877d75a0f5
 size 201541754

checkpoint-45/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a6df1d6528255f497048d6c169fcb02b3e86a7eb126c4a9571080ca3a7b3e07b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:f77392d6a4313495d69e48b960a2ff23dda053345de283eaed32a84e6e1f6e2d
 size 14244

checkpoint-45/trainer_state.json CHANGED Viewed

@@ -2,7 +2,7 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.1866666666666668,
   "eval_steps": 500,
   "global_step": 45,
   "is_hyper_param_search": false,
@@ -10,73 +10,73 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.13333333333333333,
-      "grad_norm": 0.9045277237892151,
       "learning_rate": 4.347826086956522e-05,
-      "loss": 0.7604,
       "step": 5
     },
     {
-      "epoch": 0.26666666666666666,
-      "grad_norm": 0.3948459327220917,
       "learning_rate": 8.695652173913044e-05,
-      "loss": 0.796,
       "step": 10
     },
     {
-      "epoch": 0.4,
-      "grad_norm": 0.3346000909805298,
       "learning_rate": 0.00013043478260869567,
-      "loss": 0.8321,
       "step": 15
     },
     {
-      "epoch": 0.5333333333333333,
-      "grad_norm": 0.2612442672252655,
       "learning_rate": 0.00017391304347826088,
-      "loss": 0.6935,
       "step": 20
     },
     {
-      "epoch": 0.6666666666666666,
-      "grad_norm": 0.6190615892410278,
       "learning_rate": 0.00019594929736144976,
-      "loss": 0.6976,
       "step": 25
     },
     {
-      "epoch": 0.8,
-      "grad_norm": 0.2649993896484375,
       "learning_rate": 0.00015406408174555976,
-      "loss": 0.575,
       "step": 30
     },
     {
-      "epoch": 0.9333333333333333,
-      "grad_norm": 0.3675606846809387,
       "learning_rate": 8.57685161726715e-05,
-      "loss": 0.6436,
       "step": 35
     },
     {
-      "epoch": 1.0533333333333332,
-      "grad_norm": 0.25675633549690247,
       "learning_rate": 2.4425042564574184e-05,
-      "loss": 0.5229,
       "step": 40
     },
     {
-      "epoch": 1.1866666666666668,
-      "grad_norm": 0.2978689670562744,
       "learning_rate": 0.0,
-      "loss": 0.6096,
       "step": 45
     }
   ],
   "logging_steps": 5,
   "max_steps": 45,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 2,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -90,8 +90,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 4226848963651584.0,
-  "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null
 }

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.48,
   "eval_steps": 500,
   "global_step": 45,
   "is_hyper_param_search": false,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.26666666666666666,
+      "grad_norm": 0.44340959191322327,
       "learning_rate": 4.347826086956522e-05,
+      "loss": 0.7885,
       "step": 5
     },
     {
+      "epoch": 0.5333333333333333,
+      "grad_norm": 0.25733163952827454,
       "learning_rate": 8.695652173913044e-05,
+      "loss": 0.7907,
       "step": 10
     },
     {
+      "epoch": 0.8,
+      "grad_norm": 0.22555556893348694,
       "learning_rate": 0.00013043478260869567,
+      "loss": 0.6445,
       "step": 15
     },
     {
+      "epoch": 1.1066666666666667,
+      "grad_norm": 0.22658060491085052,
       "learning_rate": 0.00017391304347826088,
+      "loss": 0.7548,
       "step": 20
     },
     {
+      "epoch": 1.3733333333333333,
+      "grad_norm": 0.30281075835227966,
       "learning_rate": 0.00019594929736144976,
+      "loss": 0.5684,
       "step": 25
     },
     {
+      "epoch": 1.6400000000000001,
+      "grad_norm": 0.22937139868736267,
       "learning_rate": 0.00015406408174555976,
+      "loss": 0.609,
       "step": 30
     },
     {
+      "epoch": 1.9066666666666667,
+      "grad_norm": 0.24968542158603668,
       "learning_rate": 8.57685161726715e-05,
+      "loss": 0.5708,
       "step": 35
     },
     {
+      "epoch": 2.2133333333333334,
+      "grad_norm": 0.2418316900730133,
       "learning_rate": 2.4425042564574184e-05,
+      "loss": 0.5956,
       "step": 40
     },
     {
+      "epoch": 2.48,
+      "grad_norm": 0.21928495168685913,
       "learning_rate": 0.0,
+      "loss": 0.4693,
       "step": 45
     }
   ],
   "logging_steps": 5,
   "max_steps": 45,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 1.2752346185220096e+16,
+  "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null
 }

checkpoint-45/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:11673240e67bcb0b48a964ced360b47161e72557a90972cad4239f7c7af6c5d9
 size 5624

 version https://git-lfs.github.com/spec/v1
+oid sha256:d4ebfb1e9e4e099c0a01f2b27c892b7a8026c4e89d97a919ba06de02ef08b08c
 size 5624

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 1.1866666666666668,
-    "total_flos": 4226848963651584.0,
-    "train_loss": 0.6811937597062853,
-    "train_runtime": 94.215,
-    "train_samples_per_second": 1.911,
-    "train_steps_per_second": 0.478
 }

 {
+    "epoch": 2.48,
+    "total_flos": 1.2752346185220096e+16,
+    "train_loss": 0.643518532647027,
+    "train_runtime": 231.7259,
+    "train_samples_per_second": 1.554,
+    "train_steps_per_second": 0.194
 }

trainer_state.json CHANGED Viewed

@@ -2,7 +2,7 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.1866666666666668,
   "eval_steps": 500,
   "global_step": 45,
   "is_hyper_param_search": false,
@@ -10,82 +10,82 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.13333333333333333,
-      "grad_norm": 0.9045277237892151,
       "learning_rate": 4.347826086956522e-05,
-      "loss": 0.7604,
       "step": 5
     },
     {
-      "epoch": 0.26666666666666666,
-      "grad_norm": 0.3948459327220917,
       "learning_rate": 8.695652173913044e-05,
-      "loss": 0.796,
       "step": 10
     },
     {
-      "epoch": 0.4,
-      "grad_norm": 0.3346000909805298,
       "learning_rate": 0.00013043478260869567,
-      "loss": 0.8321,
       "step": 15
     },
     {
-      "epoch": 0.5333333333333333,
-      "grad_norm": 0.2612442672252655,
       "learning_rate": 0.00017391304347826088,
-      "loss": 0.6935,
       "step": 20
     },
     {
-      "epoch": 0.6666666666666666,
-      "grad_norm": 0.6190615892410278,
       "learning_rate": 0.00019594929736144976,
-      "loss": 0.6976,
       "step": 25
     },
     {
-      "epoch": 0.8,
-      "grad_norm": 0.2649993896484375,
       "learning_rate": 0.00015406408174555976,
-      "loss": 0.575,
       "step": 30
     },
     {
-      "epoch": 0.9333333333333333,
-      "grad_norm": 0.3675606846809387,
       "learning_rate": 8.57685161726715e-05,
-      "loss": 0.6436,
       "step": 35
     },
     {
-      "epoch": 1.0533333333333332,
-      "grad_norm": 0.25675633549690247,
       "learning_rate": 2.4425042564574184e-05,
-      "loss": 0.5229,
       "step": 40
     },
     {
-      "epoch": 1.1866666666666668,
-      "grad_norm": 0.2978689670562744,
       "learning_rate": 0.0,
-      "loss": 0.6096,
       "step": 45
     },
     {
-      "epoch": 1.1866666666666668,
       "step": 45,
-      "total_flos": 4226848963651584.0,
-      "train_loss": 0.6811937597062853,
-      "train_runtime": 94.215,
-      "train_samples_per_second": 1.911,
-      "train_steps_per_second": 0.478
     }
   ],
   "logging_steps": 5,
   "max_steps": 45,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 2,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -99,8 +99,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 4226848963651584.0,
-  "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null
 }

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.48,
   "eval_steps": 500,
   "global_step": 45,
   "is_hyper_param_search": false,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.26666666666666666,
+      "grad_norm": 0.44340959191322327,
       "learning_rate": 4.347826086956522e-05,
+      "loss": 0.7885,
       "step": 5
     },
     {
+      "epoch": 0.5333333333333333,
+      "grad_norm": 0.25733163952827454,
       "learning_rate": 8.695652173913044e-05,
+      "loss": 0.7907,
       "step": 10
     },
     {
+      "epoch": 0.8,
+      "grad_norm": 0.22555556893348694,
       "learning_rate": 0.00013043478260869567,
+      "loss": 0.6445,
       "step": 15
     },
     {
+      "epoch": 1.1066666666666667,
+      "grad_norm": 0.22658060491085052,
       "learning_rate": 0.00017391304347826088,
+      "loss": 0.7548,
       "step": 20
     },
     {
+      "epoch": 1.3733333333333333,
+      "grad_norm": 0.30281075835227966,
       "learning_rate": 0.00019594929736144976,
+      "loss": 0.5684,
       "step": 25
     },
     {
+      "epoch": 1.6400000000000001,
+      "grad_norm": 0.22937139868736267,
       "learning_rate": 0.00015406408174555976,
+      "loss": 0.609,
       "step": 30
     },
     {
+      "epoch": 1.9066666666666667,
+      "grad_norm": 0.24968542158603668,
       "learning_rate": 8.57685161726715e-05,
+      "loss": 0.5708,
       "step": 35
     },
     {
+      "epoch": 2.2133333333333334,
+      "grad_norm": 0.2418316900730133,
       "learning_rate": 2.4425042564574184e-05,
+      "loss": 0.5956,
       "step": 40
     },
     {
+      "epoch": 2.48,
+      "grad_norm": 0.21928495168685913,
       "learning_rate": 0.0,
+      "loss": 0.4693,
       "step": 45
     },
     {
+      "epoch": 2.48,
       "step": 45,
+      "total_flos": 1.2752346185220096e+16,
+      "train_loss": 0.643518532647027,
+      "train_runtime": 231.7259,
+      "train_samples_per_second": 1.554,
+      "train_steps_per_second": 0.194
     }
   ],
   "logging_steps": 5,
   "max_steps": 45,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 1.2752346185220096e+16,
+  "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:11673240e67bcb0b48a964ced360b47161e72557a90972cad4239f7c7af6c5d9
 size 5624

 version https://git-lfs.github.com/spec/v1
+oid sha256:d4ebfb1e9e4e099c0a01f2b27c892b7a8026c4e89d97a919ba06de02ef08b08c
 size 5624