Training in progress, step 1980, checkpoint

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:736ce521e7280bd2c0975bc603cc94348d6eccc9990efd864828bf986063810d
 size 100697728

 version https://git-lfs.github.com/spec/v1
+oid sha256:09e0f85bcaec40105033574eeb2ea2d00ffa4f19c4827469d435c8d983135ba9
 size 100697728

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d5d973aa7ba038a74b7db64dcfe60c4781913554719fcda63eaae556dc3e290b
 size 201541754

 version https://git-lfs.github.com/spec/v1
+oid sha256:eb367bf17d757f09f15d71ca1434661c0b521cf6dcc22f86c9a6a04cb5338c65
 size 201541754

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f02d6e86658ff6b5c2087c9efdb8f98bc5474610047eb47a7fd80ecf387cb826
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:e2472623869c21ab6aa274a60ff7028939f11ff92530a722bec38d4e2fae101e
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:07fafb27edca5562e76184af344027e6c5895e3f1fc53905ab247cd738263f94
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:12668937a663fe1d51e58a4a78fe6002afedcdaa7ad142ebb2d8568de4c073cc
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.7012522361359571,
   "eval_steps": 500,
-  "global_step": 1960,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1575,14 +1575,30 @@
       "loss": 0.3683,
       "num_input_tokens_seen": 1326200,
       "step": 1960
     }
   ],
   "logging_steps": 10,
   "max_steps": 2795,
-  "num_input_tokens_seen": 1326200,
   "num_train_epochs": 1,
   "save_steps": 20,
-  "total_flos": 2.98215546679296e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.7084078711985689,
   "eval_steps": 500,
+  "global_step": 1980,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "loss": 0.3683,
       "num_input_tokens_seen": 1326200,
       "step": 1960
+    },
+    {
+      "epoch": 0.7048300536672629,
+      "grad_norm": 0.3898317217826843,
+      "learning_rate": 5.9033989266547405e-05,
+      "loss": 0.4181,
+      "num_input_tokens_seen": 1333316,
+      "step": 1970
+    },
+    {
+      "epoch": 0.7084078711985689,
+      "grad_norm": 0.2924859821796417,
+      "learning_rate": 5.831842576028623e-05,
+      "loss": 0.3828,
+      "num_input_tokens_seen": 1339225,
+      "step": 1980
     }
   ],
   "logging_steps": 10,
   "max_steps": 2795,
+  "num_input_tokens_seen": 1339225,
   "num_train_epochs": 1,
   "save_steps": 20,
+  "total_flos": 3.01144409215488e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null