Training in progress, epoch 9, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +66 -2

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ce3c64ce65f09d500bf0cfae9c6075a92da4f200db8fbfbab3524bc47aa8f4f3
 size 540033204

 version https://git-lfs.github.com/spec/v1
+oid sha256:ff33ba1981fd23c9a70194ad44249bad6efd85e3f45f87477a5679eb64fba9d6
 size 540033204

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7e55ca99603e17f395aaf1f9b2636edb297cd89ef45162c1dd9b3edd9d5f8e92
 size 1080178938

 version https://git-lfs.github.com/spec/v1
+oid sha256:ce259efefbd0a669e092d069f8b7d0abeebece2ba65572da40dbc9cb4f2c7f00
 size 1080178938

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ed735e3f99132bb65fd1fb7add5b0b7a7d8becc0ddeb5d97dfd35319e0195378
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:7b884a31436e5a926c6a4b2ab322392a191669d607ca1d807ba3a04c0729344f
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e763bac2f027799c42d03eb657c76226e9c49c441f5c57ed896d4ba286bc8c37
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:8c1a5a0490d673c1b146e0e96e5387b572aaad76740cc2aa549f781d311acc2b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 8.0,
   "eval_steps": 500,
-  "global_step": 64,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -519,6 +519,70 @@
       "eval_samples_per_second": 29.974,
       "eval_steps_per_second": 0.307,
       "step": 64
     }
   ],
   "logging_steps": 1,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 9.0,
   "eval_steps": 500,
+  "global_step": 72,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 29.974,
       "eval_steps_per_second": 0.307,
       "step": 64
+    },
+    {
+      "epoch": 8.125,
+      "grad_norm": 48.37006759643555,
+      "learning_rate": 1.0207286432160806e-07,
+      "loss": 3.8137,
+      "step": 65
+    },
+    {
+      "epoch": 8.25,
+      "grad_norm": 47.9218635559082,
+      "learning_rate": 1.0364321608040202e-07,
+      "loss": 3.7862,
+      "step": 66
+    },
+    {
+      "epoch": 8.375,
+      "grad_norm": 48.484378814697266,
+      "learning_rate": 1.05213567839196e-07,
+      "loss": 3.789,
+      "step": 67
+    },
+    {
+      "epoch": 8.5,
+      "grad_norm": 48.121212005615234,
+      "learning_rate": 1.0678391959798996e-07,
+      "loss": 3.7609,
+      "step": 68
+    },
+    {
+      "epoch": 8.625,
+      "grad_norm": 48.182281494140625,
+      "learning_rate": 1.0835427135678393e-07,
+      "loss": 3.7594,
+      "step": 69
+    },
+    {
+      "epoch": 8.75,
+      "grad_norm": 48.09780502319336,
+      "learning_rate": 1.099246231155779e-07,
+      "loss": 3.6978,
+      "step": 70
+    },
+    {
+      "epoch": 8.875,
+      "grad_norm": 47.829345703125,
+      "learning_rate": 1.1149497487437187e-07,
+      "loss": 3.7101,
+      "step": 71
+    },
+    {
+      "epoch": 9.0,
+      "grad_norm": 47.34735107421875,
+      "learning_rate": 1.1306532663316584e-07,
+      "loss": 3.6672,
+      "step": 72
+    },
+    {
+      "epoch": 9.0,
+      "eval_loss": 3.3924500942230225,
+      "eval_runtime": 42.4081,
+      "eval_samples_per_second": 32.211,
+      "eval_steps_per_second": 0.33,
+      "step": 72
     }
   ],
   "logging_steps": 1,