Training in progress, step 36, checkpoint

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0cfb84e66e6d7e6ac9cb1fba4e7fe0194263d9a4f3624128ea2c3e7b48ca92a2
 size 167832240

 version https://git-lfs.github.com/spec/v1
+oid sha256:430d1b2713445a662ccf110f86e8833b748e732cac421189ebe75ad3c4887379
 size 167832240

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:807363c14a34f42629792a1dcd97052ae3445965d99cfce3b7ced0835245fa04
 size 85723284

 version https://git-lfs.github.com/spec/v1
+oid sha256:1134086ee4a1ff2a80530a4d0036fe055170285fca67039bbdd3dc88101a32d1
 size 85723284

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cc3af19de247348acb313345a43a4aa9e3e74629a4910adb275427735ab53b92
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:87c522dcd1e4b502aba9b066a9d8ab7c80ee5dcffa17dfeef57048e2b65b6eba
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:95e5b5e126f269e3dd52e13e2ce68743557810f4e2bb59a1eda63231c7828066
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:bc389ed2ec8a0148b9b29024154a8f2f11c6a7454ef1d0724563562d03a46e01
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.19424460431654678,
   "eval_steps": 9,
-  "global_step": 27,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -102,6 +102,35 @@
       "eval_samples_per_second": 12.072,
       "eval_steps_per_second": 1.548,
       "step": 27
     }
   ],
   "logging_steps": 3,
@@ -121,7 +150,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.605498216362803e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.2589928057553957,
   "eval_steps": 9,
+  "global_step": 36,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 12.072,
       "eval_steps_per_second": 1.548,
       "step": 27
+    },
+    {
+      "epoch": 0.2158273381294964,
+      "grad_norm": 2.0901005268096924,
+      "learning_rate": 4.415111107797445e-05,
+      "loss": 4.397,
+      "step": 30
+    },
+    {
+      "epoch": 0.23741007194244604,
+      "grad_norm": 3.103538751602173,
+      "learning_rate": 4.2366459261474933e-05,
+      "loss": 4.2221,
+      "step": 33
+    },
+    {
+      "epoch": 0.2589928057553957,
+      "grad_norm": 1.9494324922561646,
+      "learning_rate": 4.039153688314145e-05,
+      "loss": 4.3688,
+      "step": 36
+    },
+    {
+      "epoch": 0.2589928057553957,
+      "eval_loss": 1.0416053533554077,
+      "eval_runtime": 19.3673,
+      "eval_samples_per_second": 12.082,
+      "eval_steps_per_second": 1.549,
+      "step": 36
     }
   ],
   "logging_steps": 3,
       "attributes": {}
     }
   },
+  "total_flos": 6.082070163593626e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null