Training completed

Files changed (4) hide show

README.md CHANGED Viewed

@@ -46,7 +46,7 @@ The following hyperparameters were used during training:
 - total_train_batch_size: 160
 - total_eval_batch_size: 64
 - optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
-- lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.03
 - training_steps: 10

 - total_train_batch_size: 160
 - total_eval_batch_size: 64
 - optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: linear
 - lr_scheduler_warmup_ratio: 0.03
 - training_steps: 10

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 0.0182648401826484,
-    "total_flos": 8.713180396545638e+16,
-    "train_loss": 9.561991882324218,
-    "train_runtime": 174.8934,
-    "train_samples_per_second": 9.148,
-    "train_steps_per_second": 0.057
 }

 {
     "epoch": 0.0182648401826484,
+    "total_flos": 1.394108846267433e+17,
+    "train_loss": 5.07354736328125,
+    "train_runtime": 154.4303,
+    "train_samples_per_second": 10.361,
+    "train_steps_per_second": 0.065
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 0.0182648401826484,
-    "total_flos": 8.713180396545638e+16,
-    "train_loss": 9.561991882324218,
-    "train_runtime": 174.8934,
-    "train_samples_per_second": 9.148,
-    "train_steps_per_second": 0.057
 }

 {
     "epoch": 0.0182648401826484,
+    "total_flos": 1.394108846267433e+17,
+    "train_loss": 5.07354736328125,
+    "train_runtime": 154.4303,
+    "train_samples_per_second": 10.361,
+    "train_steps_per_second": 0.065
 }

trainer_state.json CHANGED Viewed

@@ -9,17 +9,24 @@
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0182648401826484,
       "step": 10,
-      "total_flos": 8.713180396545638e+16,
-      "train_loss": 9.561991882324218,
-      "train_runtime": 174.8934,
-      "train_samples_per_second": 9.148,
-      "train_steps_per_second": 0.057
     }
   ],
-  "logging_steps": 50,
   "max_steps": 10,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
@@ -36,7 +43,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.713180396545638e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
+    {
+      "epoch": 0.0182648401826484,
+      "grad_norm": 0.36667829751968384,
+      "learning_rate": 0.0001,
+      "loss": 5.0735,
+      "step": 10
+    },
     {
       "epoch": 0.0182648401826484,
       "step": 10,
+      "total_flos": 1.394108846267433e+17,
+      "train_loss": 5.07354736328125,
+      "train_runtime": 154.4303,
+      "train_samples_per_second": 10.361,
+      "train_steps_per_second": 0.065
     }
   ],
+  "logging_steps": 10,
   "max_steps": 10,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.394108846267433e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null