Training in progress, step 1500, checkpoint

Files changed (5) hide show

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ade4fd5beedb4191d64c03bca152b1c17a345e375fcaf2dfa6ffad12d2366747
 size 1625426996

 version https://git-lfs.github.com/spec/v1
+oid sha256:ed82d2d3fd3dca5c56db6bb6f389e1c264d8a4f733329c457b26cad0f1e94eae
 size 1625426996

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d269c67b342cae322fb0152b0230d35c50e5e0f5a57a35b7a6fd734a593923f2
 size 3250745679

 version https://git-lfs.github.com/spec/v1
+oid sha256:2a7e90b7d7b76bcf81f764ef2452898faaea25b5d7e461d45a1464ec3fc0923c
 size 3250745679

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3c613a839bcb7d06e7368dc36f0320a479dd007dc186f0d81d260353cc66c073
 size 13990

 version https://git-lfs.github.com/spec/v1
+oid sha256:ef1b6ee4749d1a3d9805190b4dc5cb543f0ffb0a14d498a79d69fe68014a6896
 size 13990

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:68cc3faa5b21cb7551f4d74471ed42adcbd244ca538ed6e68b6237148ae59ce0
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:04f172f01cb77e8d14118289d685eb7f697a2a376c73318b03a86d16e22b22dd
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.5,
   "eval_steps": 500,
-  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -35,13 +35,27 @@
       "eval_samples_per_second": 0.198,
       "eval_steps_per_second": 0.049,
       "step": 1000
     }
   ],
   "logging_steps": 500,
   "max_steps": 6000,
   "num_train_epochs": 3,
   "save_steps": 500,
-  "total_flos": 4334209204224000.0,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.75,
   "eval_steps": 500,
+  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 0.198,
       "eval_steps_per_second": 0.049,
       "step": 1000
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 3.756260434056762e-05,
+      "loss": 0.1096,
+      "step": 1500
+    },
+    {
+      "epoch": 0.75,
+      "eval_loss": 0.041419126093387604,
+      "eval_runtime": 2505.8009,
+      "eval_samples_per_second": 0.2,
+      "eval_steps_per_second": 0.05,
+      "step": 1500
     }
   ],
   "logging_steps": 500,
   "max_steps": 6000,
   "num_train_epochs": 3,
   "save_steps": 500,
+  "total_flos": 6501313806336000.0,
   "trial_name": null,
   "trial_params": null
 }