Training in progress, step 714, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +102 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:50b1d2ba2733fb32ba9ae7869157021c125589ce9edf74a29b6d5122feb1c57b
 size 1001465824

 version https://git-lfs.github.com/spec/v1
+oid sha256:31949e3beef1c9644fadd722124d7e9efb5189cc688f46b7444456220e09c973
 size 1001465824

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f541cb1d23774d9a832ecca9a8bd4c75a07423d665daeed9feb4cf3a053814b7
 size 509177556

 version https://git-lfs.github.com/spec/v1
+oid sha256:3b73d6749f34c834bfd1413be7ccea161370653a987271156f945ab7dd962edb
 size 509177556

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b9849c595b3d1408534e576e2fe74ffffa8a13d64045843806a2b3e623f7ac2f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:c1fe0070b3c7b42ade8d0ee03ab5cb8ffb3bc1ceba2a2a3a77f8a56cf55ec43e
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5eae9d759cd879a3225c386ee5c5b05dd4099eecf648f218bccd70e50b1fceed
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:fbead2b15bcf2538a82bf72fc57c0f7afbfbd35caedd54a6bcc7131cfe5e9d1e
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.11092506349086761,
   "best_model_checkpoint": "miner_id_24/checkpoint-700",
-  "epoch": 0.7482629609834314,
   "eval_steps": 100,
-  "global_step": 700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4971,6 +4971,104 @@
       "eval_samples_per_second": 4.318,
       "eval_steps_per_second": 1.079,
       "step": 700
     }
   ],
   "logging_steps": 1,
@@ -4994,12 +5092,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 3.614380671369216e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.11092506349086761,
   "best_model_checkpoint": "miner_id_24/checkpoint-700",
+  "epoch": 0.7632282202031,
   "eval_steps": 100,
+  "global_step": 714,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 4.318,
       "eval_steps_per_second": 1.079,
       "step": 700
+    },
+    {
+      "epoch": 0.7493319080705505,
+      "grad_norm": 0.16759201884269714,
+      "learning_rate": 1.6822453383367186e-07,
+      "loss": 0.1136,
+      "step": 701
+    },
+    {
+      "epoch": 0.7504008551576697,
+      "grad_norm": 0.149668887257576,
+      "learning_rate": 1.4334519492711362e-07,
+      "loss": 0.1026,
+      "step": 702
+    },
+    {
+      "epoch": 0.7514698022447889,
+      "grad_norm": 0.14984771609306335,
+      "learning_rate": 1.204543794827595e-07,
+      "loss": 0.0942,
+      "step": 703
+    },
+    {
+      "epoch": 0.7525387493319081,
+      "grad_norm": 0.15921737253665924,
+      "learning_rate": 9.955254334328423e-08,
+      "loss": 0.1044,
+      "step": 704
+    },
+    {
+      "epoch": 0.7536076964190273,
+      "grad_norm": 0.14484407007694244,
+      "learning_rate": 8.064010274324573e-08,
+      "loss": 0.0849,
+      "step": 705
+    },
+    {
+      "epoch": 0.7546766435061465,
+      "grad_norm": 0.1964549571275711,
+      "learning_rate": 6.37174343008251e-08,
+      "loss": 0.125,
+      "step": 706
+    },
+    {
+      "epoch": 0.7557455905932656,
+      "grad_norm": 0.1271902620792389,
+      "learning_rate": 4.878487501033258e-08,
+      "loss": 0.0783,
+      "step": 707
+    },
+    {
+      "epoch": 0.7568145376803849,
+      "grad_norm": 0.155805766582489,
+      "learning_rate": 3.584272223546847e-08,
+      "loss": 0.0972,
+      "step": 708
+    },
+    {
+      "epoch": 0.757883484767504,
+      "grad_norm": 0.15836969017982483,
+      "learning_rate": 2.4891233703394634e-08,
+      "loss": 0.095,
+      "step": 709
+    },
+    {
+      "epoch": 0.7589524318546232,
+      "grad_norm": 0.1573915183544159,
+      "learning_rate": 1.593062749967178e-08,
+      "loss": 0.1093,
+      "step": 710
+    },
+    {
+      "epoch": 0.7600213789417424,
+      "grad_norm": 0.15478433668613434,
+      "learning_rate": 8.961082063829729e-09,
+      "loss": 0.0977,
+      "step": 711
+    },
+    {
+      "epoch": 0.7610903260288616,
+      "grad_norm": 0.1593605875968933,
+      "learning_rate": 3.982736185859093e-09,
+      "loss": 0.1136,
+      "step": 712
+    },
+    {
+      "epoch": 0.7621592731159808,
+      "grad_norm": 0.1565905064344406,
+      "learning_rate": 9.956890034468202e-10,
+      "loss": 0.0978,
+      "step": 713
+    },
+    {
+      "epoch": 0.7632282202031,
+      "grad_norm": 0.1467771828174591,
+      "learning_rate": 0.0,
+      "loss": 0.1067,
+      "step": 714
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 3.6866682847966003e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null