Training in progress, step 20, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:684a382d1a65aca0614baf01997112210a378b2132bb2fffc6af5fb22125def7
 size 17640136

 version https://git-lfs.github.com/spec/v1
+oid sha256:0fdc23f1213146453a075053e93bc4cbc4caf0d1904286b8e30e0dbf5b4795b1
 size 17640136

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2bca7a3ecebf37e850e0bb5a00c7695805a8477ddb7861b9c757b428e0aa7394
 size 9568884

 version https://git-lfs.github.com/spec/v1
+oid sha256:f3386e4d9cbb35b7a15e6a94f035e296499d252beb243cb2aa31b83947ceb5d8
 size 9568884

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:935d993b21fda70c12f88fe1e791989f8500ea824d33d8cb59fa10d3462e1c7c
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:9ddb7b575b177a0f4a3c1bf5ad5c41eb95c3cd6853ac85a61ebf5719b0e442ff
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bb578e75c11a81e85dda67a691f96ba4793a02960f1409fd3e1511aac873491a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:1d95f3fb1f9df4cdd5f470d1684a242bf1d1940d47b9622802f603a91ffa5bc0
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.5592914819717407,
-  "best_model_checkpoint": "miner_id_24/checkpoint-10",
-  "epoch": 0.011841326228537596,
   "eval_steps": 5,
-  "global_step": 10,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -101,6 +101,92 @@
       "eval_samples_per_second": 6.647,
       "eval_steps_per_second": 3.324,
       "step": 10
     }
   ],
   "logging_steps": 1,
@@ -129,7 +215,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 133557245706240.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.443589687347412,
+  "best_model_checkpoint": "miner_id_24/checkpoint-20",
+  "epoch": 0.023682652457075192,
   "eval_steps": 5,
+  "global_step": 20,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 6.647,
       "eval_steps_per_second": 3.324,
       "step": 10
+    },
+    {
+      "epoch": 0.013025458851391355,
+      "grad_norm": 0.9684340357780457,
+      "learning_rate": 0.00019781476007338058,
+      "loss": 1.9317,
+      "step": 11
+    },
+    {
+      "epoch": 0.014209591474245116,
+      "grad_norm": 1.5347967147827148,
+      "learning_rate": 0.0001913545457642601,
+      "loss": 2.2451,
+      "step": 12
+    },
+    {
+      "epoch": 0.015393724097098875,
+      "grad_norm": 0.6658350825309753,
+      "learning_rate": 0.00018090169943749476,
+      "loss": 1.1592,
+      "step": 13
+    },
+    {
+      "epoch": 0.016577856719952634,
+      "grad_norm": 0.5862579345703125,
+      "learning_rate": 0.00016691306063588583,
+      "loss": 1.0437,
+      "step": 14
+    },
+    {
+      "epoch": 0.017761989342806393,
+      "grad_norm": 0.8402700424194336,
+      "learning_rate": 0.00015000000000000001,
+      "loss": 1.6701,
+      "step": 15
+    },
+    {
+      "epoch": 0.017761989342806393,
+      "eval_loss": 1.4690113067626953,
+      "eval_runtime": 58.5466,
+      "eval_samples_per_second": 6.081,
+      "eval_steps_per_second": 3.04,
+      "step": 15
+    },
+    {
+      "epoch": 0.018946121965660152,
+      "grad_norm": 1.071670413017273,
+      "learning_rate": 0.00013090169943749476,
+      "loss": 1.7594,
+      "step": 16
+    },
+    {
+      "epoch": 0.020130254588513915,
+      "grad_norm": 1.167551040649414,
+      "learning_rate": 0.00011045284632676536,
+      "loss": 1.8349,
+      "step": 17
+    },
+    {
+      "epoch": 0.021314387211367674,
+      "grad_norm": 0.730896532535553,
+      "learning_rate": 8.954715367323468e-05,
+      "loss": 1.137,
+      "step": 18
+    },
+    {
+      "epoch": 0.022498519834221433,
+      "grad_norm": 0.7160881757736206,
+      "learning_rate": 6.909830056250527e-05,
+      "loss": 1.7813,
+      "step": 19
+    },
+    {
+      "epoch": 0.023682652457075192,
+      "grad_norm": 0.6176623106002808,
+      "learning_rate": 5.000000000000002e-05,
+      "loss": 0.993,
+      "step": 20
+    },
+    {
+      "epoch": 0.023682652457075192,
+      "eval_loss": 1.443589687347412,
+      "eval_runtime": 55.9559,
+      "eval_samples_per_second": 6.362,
+      "eval_steps_per_second": 3.181,
+      "step": 20
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 276018307792896.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null