Training in progress, step 8000, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +81 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:48ab6fbe729d04037d979e3727d665bb8a3d92ea87dfd2ed84a826f73114e2ff
 size 1783055976

 version https://git-lfs.github.com/spec/v1
+oid sha256:f672218c5e4e6a2121de04b65360eb70212979671319a6b7ccc699db76402d01
 size 1783055976

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:34887632667319441e15da8fbef52c84ef86e33be3a881d2c79ccd5c4dfd7e52
 size 3566173562

 version https://git-lfs.github.com/spec/v1
+oid sha256:2097d5365d132bf9645baefe54a0be746abe632499a074cdbc93777d0e5c34c3
 size 3566173562

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6cfe3540f24c66f9bc38a546448a9e5d9989705fafc8d4b37aa5dafd0c7460f2
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:f83fe17529e572dff2734bb21512b28dd7cf5d20ef0e84688f5068ffbf24e765
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a43c200beec982be6ba6814f2f475edee50b971e23470ab6b587b0a72dccb9b7
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:97bba99094cb6ba509984c3fb752cc4387fde3be7cca9c123af30577d2dd911a
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:af2924a0eb31db835ecc1090391e433a4e9097b02bdc25d6cb879aecfffdd0e2
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d45cef01a0c03a5fc76309b06f41731c4ef0f05769be4b933a78626a0c047135
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.016775014622221078,
   "eval_steps": 500,
-  "global_step": 7500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1178,6 +1178,84 @@
       "eval_samples_per_second": 6.218,
       "eval_steps_per_second": 6.218,
       "step": 7500
     }
   ],
   "logging_steps": 50,
@@ -1197,7 +1275,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.206216593408e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.01789334893036915,
   "eval_steps": 500,
+  "global_step": 8000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 6.218,
       "eval_steps_per_second": 6.218,
       "step": 7500
+    },
+    {
+      "epoch": 0.016886848053035888,
+      "grad_norm": 1.009393334388733,
+      "learning_rate": 9.380203285369915e-06,
+      "loss": 0.3244,
+      "step": 7550
+    },
+    {
+      "epoch": 0.016998681483850694,
+      "grad_norm": 1.1191552877426147,
+      "learning_rate": 9.442332065906211e-06,
+      "loss": 0.325,
+      "step": 7600
+    },
+    {
+      "epoch": 0.0171105149146655,
+      "grad_norm": 1.2570810317993164,
+      "learning_rate": 9.504460846442507e-06,
+      "loss": 0.3417,
+      "step": 7650
+    },
+    {
+      "epoch": 0.01722234834548031,
+      "grad_norm": 0.9457122683525085,
+      "learning_rate": 9.566589626978801e-06,
+      "loss": 0.3141,
+      "step": 7700
+    },
+    {
+      "epoch": 0.017334181776295116,
+      "grad_norm": 0.85469651222229,
+      "learning_rate": 9.628718407515097e-06,
+      "loss": 0.3235,
+      "step": 7750
+    },
+    {
+      "epoch": 0.01744601520710992,
+      "grad_norm": 1.2483268976211548,
+      "learning_rate": 9.690847188051395e-06,
+      "loss": 0.3207,
+      "step": 7800
+    },
+    {
+      "epoch": 0.017557848637924728,
+      "grad_norm": 0.8644481897354126,
+      "learning_rate": 9.752975968587689e-06,
+      "loss": 0.3203,
+      "step": 7850
+    },
+    {
+      "epoch": 0.017669682068739537,
+      "grad_norm": 0.9396805763244629,
+      "learning_rate": 9.815104749123985e-06,
+      "loss": 0.3317,
+      "step": 7900
+    },
+    {
+      "epoch": 0.017781515499554344,
+      "grad_norm": 1.322040319442749,
+      "learning_rate": 9.877233529660281e-06,
+      "loss": 0.3333,
+      "step": 7950
+    },
+    {
+      "epoch": 0.01789334893036915,
+      "grad_norm": 0.8326611518859863,
+      "learning_rate": 9.939362310196577e-06,
+      "loss": 0.3115,
+      "step": 8000
+    },
+    {
+      "epoch": 0.01789334893036915,
+      "eval_loss": 0.3215126693248749,
+      "eval_runtime": 1461.5546,
+      "eval_samples_per_second": 6.18,
+      "eval_steps_per_second": 6.18,
+      "step": 8000
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 8.7532976996352e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null