Training in progress, step 2000, checkpoint

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:09e0f85bcaec40105033574eeb2ea2d00ffa4f19c4827469d435c8d983135ba9
 size 100697728

 version https://git-lfs.github.com/spec/v1
+oid sha256:b5f86dd9371b781155ba643a548b4de3e51acb102f7bc37f5826e1d50947b2f0
 size 100697728

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb367bf17d757f09f15d71ca1434661c0b521cf6dcc22f86c9a6a04cb5338c65
 size 201541754

 version https://git-lfs.github.com/spec/v1
+oid sha256:04e3e81d18fadc24063e623e9d4cc0d12eb575ca5424a5a8f3ebf2648240568b
 size 201541754

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e2472623869c21ab6aa274a60ff7028939f11ff92530a722bec38d4e2fae101e
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:2191a9ab0ab41e50985488533d64dae12c867360e85f064297a87e2f978e6536
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:12668937a663fe1d51e58a4a78fe6002afedcdaa7ad142ebb2d8568de4c073cc
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:16253ca7555b24e595f70e545999ce4ef3d7193309d16f3cd6b13443ca20da3e
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.7084078711985689,
   "eval_steps": 500,
-  "global_step": 1980,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1591,14 +1591,30 @@
       "loss": 0.3828,
       "num_input_tokens_seen": 1339225,
       "step": 1980
     }
   ],
   "logging_steps": 10,
   "max_steps": 2795,
-  "num_input_tokens_seen": 1339225,
   "num_train_epochs": 1,
   "save_steps": 20,
-  "total_flos": 3.01144409215488e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.7155635062611807,
   "eval_steps": 500,
+  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "loss": 0.3828,
       "num_input_tokens_seen": 1339225,
       "step": 1980
+    },
+    {
+      "epoch": 0.7119856887298748,
+      "grad_norm": 0.3090393543243408,
+      "learning_rate": 5.7602862254025045e-05,
+      "loss": 0.3932,
+      "num_input_tokens_seen": 1346104,
+      "step": 1990
+    },
+    {
+      "epoch": 0.7155635062611807,
+      "grad_norm": 0.4194253981113434,
+      "learning_rate": 5.6887298747763865e-05,
+      "loss": 0.4041,
+      "num_input_tokens_seen": 1352944,
+      "step": 2000
     }
   ],
   "logging_steps": 10,
   "max_steps": 2795,
+  "num_input_tokens_seen": 1352944,
   "num_train_epochs": 1,
   "save_steps": 20,
+  "total_flos": 3.042293278438195e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null