Training in progress, step 28

Browse files

Files changed (6) hide show

adapter_config.json +11 -11
adapter_model.safetensors +1 -1
all_results.json +6 -6
train_results.json +6 -6
trainer_state.json +97 -27
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -23,22 +23,22 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "embed_tokens.2",
-    "v_proj",
     "fc2",
-    "audio_enc_to_dec_proj",
-    "embed_tokens.0",
-    "embed_tokens.1",
-    "q_proj",
-    "enc_to_dec_proj",
-    "embed_tokens.3",
     "lm_heads.3",
-    "lm_heads.1",
-    "out_proj",
     "lm_heads.2",
     "lm_heads.0",
     "k_proj",
-    "fc1"
   ],
   "task_type": null,
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "fc2",
     "lm_heads.3",
     "lm_heads.2",
+    "q_proj",
+    "embed_tokens.3",
     "lm_heads.0",
+    "audio_enc_to_dec_proj",
+    "fc1",
+    "enc_to_dec_proj",
+    "embed_tokens.2",
     "k_proj",
+    "embed_tokens.0",
+    "out_proj",
+    "lm_heads.1",
+    "embed_tokens.1",
+    "v_proj"
   ],
   "task_type": null,
   "use_dora": false,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1fbc9a7cc45bc2049c0744d1dcb44a4e7fc11b71163218cca0038a5ccf48394b
 size 43594480

 version https://git-lfs.github.com/spec/v1
+oid sha256:e9d3d4aeaad756a5f6fe85132368a98a076d7c00abd1c5b2211ccc997f6aa91d
 size 43594480

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 3.764705882352941,
-    "train_loss": 9.197454690933228,
-    "train_runtime": 36.5767,
-    "train_samples": 33,
-    "train_samples_per_second": 3.609,
-    "train_steps_per_second": 0.219
 }

 {
+    "epoch": 3.6721311475409837,
+    "train_loss": 7.743570498057774,
+    "train_runtime": 121.4704,
+    "train_samples": 122,
+    "train_samples_per_second": 4.017,
+    "train_steps_per_second": 0.231
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 3.764705882352941,
-    "train_loss": 9.197454690933228,
-    "train_runtime": 36.5767,
-    "train_samples": 33,
-    "train_samples_per_second": 3.609,
-    "train_steps_per_second": 0.219
 }

 {
+    "epoch": 3.6721311475409837,
+    "train_loss": 7.743570498057774,
+    "train_runtime": 121.4704,
+    "train_samples": 122,
+    "train_samples_per_second": 4.017,
+    "train_steps_per_second": 0.231
 }

trainer_state.json CHANGED Viewed

@@ -1,53 +1,123 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.764705882352941,
   "eval_steps": 500,
-  "global_step": 8,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.9411764705882353,
-      "grad_norm": 0.858464241027832,
-      "learning_rate": 0.00015000000000000001,
-      "loss": 9.5253,
       "step": 2
     },
     {
-      "epoch": 1.8823529411764706,
-      "grad_norm": 1.1875278949737549,
-      "learning_rate": 0.0001,
-      "loss": 9.2917,
       "step": 4
     },
     {
-      "epoch": 2.8235294117647056,
-      "grad_norm": 1.371861219406128,
-      "learning_rate": 5e-05,
-      "loss": 9.0606,
       "step": 6
     },
     {
-      "epoch": 3.764705882352941,
-      "grad_norm": 1.4962043762207031,
-      "learning_rate": 0.0,
-      "loss": 8.9123,
       "step": 8
     },
     {
-      "epoch": 3.764705882352941,
-      "step": 8,
-      "total_flos": 36858669560664.0,
-      "train_loss": 9.197454690933228,
-      "train_runtime": 36.5767,
-      "train_samples_per_second": 3.609,
-      "train_steps_per_second": 0.219
     }
   ],
   "logging_steps": 2,
-  "max_steps": 8,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 4,
   "save_steps": 500,
@@ -63,7 +133,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 36858669560664.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.6721311475409837,
   "eval_steps": 500,
+  "global_step": 28,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.26229508196721313,
+      "grad_norm": 1.0287491083145142,
+      "learning_rate": 0.00018571428571428572,
+      "loss": 9.4306,
       "step": 2
     },
     {
+      "epoch": 0.5245901639344263,
+      "grad_norm": 1.8649983406066895,
+      "learning_rate": 0.00017142857142857143,
+      "loss": 9.1591,
       "step": 4
     },
     {
+      "epoch": 0.7868852459016393,
+      "grad_norm": 1.8567523956298828,
+      "learning_rate": 0.00015714285714285716,
+      "loss": 8.7072,
       "step": 6
     },
     {
+      "epoch": 1.0491803278688525,
+      "grad_norm": 2.180053234100342,
+      "learning_rate": 0.00014285714285714287,
+      "loss": 8.2864,
       "step": 8
     },
     {
+      "epoch": 1.3114754098360657,
+      "grad_norm": 2.318220853805542,
+      "learning_rate": 0.00012857142857142858,
+      "loss": 7.8084,
+      "step": 10
+    },
+    {
+      "epoch": 1.5737704918032787,
+      "grad_norm": 2.61151385307312,
+      "learning_rate": 0.00011428571428571428,
+      "loss": 7.8655,
+      "step": 12
+    },
+    {
+      "epoch": 1.8360655737704918,
+      "grad_norm": 2.6175003051757812,
+      "learning_rate": 0.0001,
+      "loss": 7.6385,
+      "step": 14
+    },
+    {
+      "epoch": 2.098360655737705,
+      "grad_norm": 1.4860339164733887,
+      "learning_rate": 8.571428571428571e-05,
+      "loss": 7.0809,
+      "step": 16
+    },
+    {
+      "epoch": 2.360655737704918,
+      "grad_norm": 1.5985082387924194,
+      "learning_rate": 7.142857142857143e-05,
+      "loss": 7.2482,
+      "step": 18
+    },
+    {
+      "epoch": 2.6229508196721314,
+      "grad_norm": 1.956580638885498,
+      "learning_rate": 5.714285714285714e-05,
+      "loss": 7.0691,
+      "step": 20
+    },
+    {
+      "epoch": 2.8852459016393444,
+      "grad_norm": 1.449498176574707,
+      "learning_rate": 4.2857142857142856e-05,
+      "loss": 7.0927,
+      "step": 22
+    },
+    {
+      "epoch": 3.1475409836065573,
+      "grad_norm": 1.9451191425323486,
+      "learning_rate": 2.857142857142857e-05,
+      "loss": 6.8079,
+      "step": 24
+    },
+    {
+      "epoch": 3.4098360655737707,
+      "grad_norm": 1.4124294519424438,
+      "learning_rate": 1.4285714285714285e-05,
+      "loss": 7.0556,
+      "step": 26
+    },
+    {
+      "epoch": 3.6721311475409837,
+      "grad_norm": 1.6439225673675537,
+      "learning_rate": 0.0,
+      "loss": 7.1598,
+      "step": 28
+    },
+    {
+      "epoch": 3.6721311475409837,
+      "step": 28,
+      "total_flos": 131289516862176.0,
+      "train_loss": 7.743570498057774,
+      "train_runtime": 121.4704,
+      "train_samples_per_second": 4.017,
+      "train_steps_per_second": 0.231
     }
   ],
   "logging_steps": 2,
+  "max_steps": 28,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 4,
   "save_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 131289516862176.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dda95e344fbc5fafe01ef7ae8bb96b4c7f86267c4bb377a7ff668174d581b215
 size 5304

 version https://git-lfs.github.com/spec/v1
+oid sha256:a1637a4130ec7c578e47549d30e4fc16da4b978ca4e0d66b5de6e12e322f6ff7
 size 5304