Training in progress, step 300, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aa4586cd39b6095e3e3350c4b4fd4a423feddd57d5b89309521c271dd1edfcea
 size 144748392

 version https://git-lfs.github.com/spec/v1
+oid sha256:846434ca50ba2a07c1aa914ac92335cf2e993e47f0a4fb98035e3767df707187
 size 144748392

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:940d506977625c427e4f4d8efd30db209d869dd599b81aaccc1fdfb648b4baf9
-size 289690562

 version https://git-lfs.github.com/spec/v1
+oid sha256:76bd4bbf6bad97827cd2d1c96918889601fe5549f9ddbaa27e3833ca7ecf5226
+size 289690498

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0c134142163f210ef636989093f8a3cf420b7af01245544ebe6b11eca5dd0cfe
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:3bcf421949ef5e2cf610a12a564035f1eafe2c2459ad36aec2693cef4a5645fc
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8d4a0c3221fa3abf4dadac0cf9d8e01267c0b24a8953a99482185a67eeee3950
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:e2a61a0595dd1862605bddb150b0c4ebd6b684b46d33bd5e4926bf5e77255160
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.113584280014038,
-  "best_model_checkpoint": "./output/checkpoint-150",
-  "epoch": 0.009560229445506692,
   "eval_steps": 150,
-  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -120,6 +120,119 @@
       "eval_samples_per_second": 12.171,
       "eval_steps_per_second": 12.171,
       "step": 150
     }
   ],
   "logging_steps": 10,
@@ -139,7 +252,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4199804000010240.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.0569764375686646,
+  "best_model_checkpoint": "./output/checkpoint-300",
+  "epoch": 0.019120458891013385,
   "eval_steps": 150,
+  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 12.171,
       "eval_steps_per_second": 12.171,
       "step": 150
+    },
+    {
+      "epoch": 0.010197578075207138,
+      "grad_norm": 0.8378329873085022,
+      "learning_rate": 0.00012495376120044173,
+      "loss": 1.0766,
+      "step": 160
+    },
+    {
+      "epoch": 0.010834926704907584,
+      "grad_norm": 0.7584741711616516,
+      "learning_rate": 0.00012493706665883217,
+      "loss": 1.1184,
+      "step": 170
+    },
+    {
+      "epoch": 0.011472275334608031,
+      "grad_norm": 0.7753424048423767,
+      "learning_rate": 0.00012491780557396154,
+      "loss": 1.089,
+      "step": 180
+    },
+    {
+      "epoch": 0.012109623964308477,
+      "grad_norm": 0.801698625087738,
+      "learning_rate": 0.00012489597873757756,
+      "loss": 1.0882,
+      "step": 190
+    },
+    {
+      "epoch": 0.012746972594008922,
+      "grad_norm": 0.7822267413139343,
+      "learning_rate": 0.00012487158704689602,
+      "loss": 1.0684,
+      "step": 200
+    },
+    {
+      "epoch": 0.01338432122370937,
+      "grad_norm": 0.689703106880188,
+      "learning_rate": 0.0001248446315045638,
+      "loss": 1.0564,
+      "step": 210
+    },
+    {
+      "epoch": 0.014021669853409816,
+      "grad_norm": 0.768937349319458,
+      "learning_rate": 0.00012481511321861763,
+      "loss": 1.0662,
+      "step": 220
+    },
+    {
+      "epoch": 0.014659018483110261,
+      "grad_norm": 0.6786907315254211,
+      "learning_rate": 0.00012478303340243864,
+      "loss": 1.067,
+      "step": 230
+    },
+    {
+      "epoch": 0.015296367112810707,
+      "grad_norm": 0.7319411039352417,
+      "learning_rate": 0.00012474839337470246,
+      "loss": 1.0751,
+      "step": 240
+    },
+    {
+      "epoch": 0.015933715742511154,
+      "grad_norm": 0.707256555557251,
+      "learning_rate": 0.0001247111945593249,
+      "loss": 1.0672,
+      "step": 250
+    },
+    {
+      "epoch": 0.0165710643722116,
+      "grad_norm": 0.7429525256156921,
+      "learning_rate": 0.00012467143848540359,
+      "loss": 1.086,
+      "step": 260
+    },
+    {
+      "epoch": 0.017208413001912046,
+      "grad_norm": 0.7446891069412231,
+      "learning_rate": 0.000124629126787155,
+      "loss": 1.0906,
+      "step": 270
+    },
+    {
+      "epoch": 0.017845761631612493,
+      "grad_norm": 0.7032232284545898,
+      "learning_rate": 0.00012458426120384738,
+      "loss": 1.0761,
+      "step": 280
+    },
+    {
+      "epoch": 0.018483110261312937,
+      "grad_norm": 0.7499470114707947,
+      "learning_rate": 0.00012453684357972906,
+      "loss": 1.0472,
+      "step": 290
+    },
+    {
+      "epoch": 0.019120458891013385,
+      "grad_norm": 0.7211316227912903,
+      "learning_rate": 0.00012448687586395289,
+      "loss": 1.0621,
+      "step": 300
+    },
+    {
+      "epoch": 0.019120458891013385,
+      "eval_loss": 1.0569764375686646,
+      "eval_runtime": 41.5487,
+      "eval_samples_per_second": 12.034,
+      "eval_steps_per_second": 12.034,
+      "step": 300
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 8380319636520960.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null