Training in progress, step 36, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +77 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:35965e106d6c24f57f6add5fe6f1a22a20181eb32fb6d0a32f9233febf452608
 size 83945296

 version https://git-lfs.github.com/spec/v1
+oid sha256:af45f5a20c7781427e7d13de0ca4866a1cf71bade19be14ca66dbe14b1506f58
 size 83945296

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2d0692876634f0af2937bee77494f409c7849c1e8c3f39ae0055cff65b167315
 size 168149074

 version https://git-lfs.github.com/spec/v1
+oid sha256:6cecc7bb05c4bb579b040038b3f705ed45416975b87e35007c8e22c6569d7a45
 size 168149074

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:834583889f2c9cb654ef5c623b5eaf9441713a3db16fdde1d4afd1caee298f82
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:c7034eba1ae19e0d8d26b6a7beae9c6e8303193d228a3589cb78845a2ac46c6a
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f2cf2c4048d6740354979367cfe53d0c735909b56d447ba3e528d55c38895176
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:24f70974ebe6e16031ce63527ce3fea95f8e56e83073513783f6d8a14f9aa0e8
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.05508798775822494,
   "eval_steps": 5,
-  "global_step": 18,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -81,6 +81,80 @@
       "learning_rate": 0.0002,
       "loss": 0.7708,
       "step": 18
     }
   ],
   "logging_steps": 3,
@@ -100,7 +174,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6658431293325312.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.11017597551644988,
   "eval_steps": 5,
+  "global_step": 36,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.0002,
       "loss": 0.7708,
       "step": 18
+    },
+    {
+      "epoch": 0.061208875286916604,
+      "eval_loss": 0.7175387144088745,
+      "eval_runtime": 26.0285,
+      "eval_samples_per_second": 5.302,
+      "eval_steps_per_second": 2.651,
+      "step": 20
+    },
+    {
+      "epoch": 0.06426931905126243,
+      "grad_norm": 0.667968213558197,
+      "learning_rate": 0.0001879473751206489,
+      "loss": 0.7045,
+      "step": 21
+    },
+    {
+      "epoch": 0.07345065034429993,
+      "grad_norm": 0.618311882019043,
+      "learning_rate": 0.00015469481581224272,
+      "loss": 0.6921,
+      "step": 24
+    },
+    {
+      "epoch": 0.07651109410864575,
+      "eval_loss": 0.6743873953819275,
+      "eval_runtime": 26.0301,
+      "eval_samples_per_second": 5.302,
+      "eval_steps_per_second": 2.651,
+      "step": 25
+    },
+    {
+      "epoch": 0.08263198163733741,
+      "grad_norm": 0.48745396733283997,
+      "learning_rate": 0.00010825793454723325,
+      "loss": 0.6098,
+      "step": 27
+    },
+    {
+      "epoch": 0.09181331293037491,
+      "grad_norm": 0.530785083770752,
+      "learning_rate": 5.983045753470308e-05,
+      "loss": 0.611,
+      "step": 30
+    },
+    {
+      "epoch": 0.09181331293037491,
+      "eval_loss": 0.6592618227005005,
+      "eval_runtime": 26.2376,
+      "eval_samples_per_second": 5.26,
+      "eval_steps_per_second": 2.63,
+      "step": 30
+    },
+    {
+      "epoch": 0.1009946442234124,
+      "grad_norm": 0.5798205733299255,
+      "learning_rate": 2.1085949060360654e-05,
+      "loss": 0.7136,
+      "step": 33
+    },
+    {
+      "epoch": 0.10711553175210406,
+      "eval_loss": 0.6530157923698425,
+      "eval_runtime": 26.1128,
+      "eval_samples_per_second": 5.285,
+      "eval_steps_per_second": 2.642,
+      "step": 35
+    },
+    {
+      "epoch": 0.11017597551644988,
+      "grad_norm": 0.5891212821006775,
+      "learning_rate": 1.3638696597277679e-06,
+      "loss": 0.6765,
+      "step": 36
     }
   ],
   "logging_steps": 3,
       "attributes": {}
     }
   },
+  "total_flos": 1.340934079905792e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null