Training in progress, step 57, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +144 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:40978b6045d435860bdc653f2c1ad8723d28aa9333e29555d66768df70c763bb
 size 50899792

 version https://git-lfs.github.com/spec/v1
+oid sha256:5b838e37c6acc3226cb23a05e8da8e401052de7ec8d63320c4dea86d5b9791f8
 size 50899792

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d6d6739e3b80f0c91dc11e94b1399835f20bb5b0a93df5bd3138f9f3a59d2d13
 size 26231300

 version https://git-lfs.github.com/spec/v1
+oid sha256:44ab86fafce39c2b8346177e57d4e4368a643eb8bc217de77945ce8f27c78395
 size 26231300

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d606d31d447120bc1b4de5890ffaff6e62d8521d8976078b55323f24cb5690d3
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:8f489b33e4ce6b4592438133f0f8030528235eaffcbc7196d436c439dd611d61
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3c4f0183aec085119f27cd46c60ab3f231930ae66c7ca01d0adff96b44d5e0e2
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:be205ee2b4780d487b513e30ac9c545724d6f8bbbacf91c0e0793417bf18e789
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.5049833887043189,
   "eval_steps": 19,
-  "global_step": 38,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -297,6 +297,147 @@
       "eval_samples_per_second": 34.029,
       "eval_steps_per_second": 17.015,
       "step": 38
     }
   ],
   "logging_steps": 1,
@@ -316,7 +457,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3157187360194560.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.7574750830564784,
   "eval_steps": 19,
+  "global_step": 57,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 34.029,
       "eval_steps_per_second": 17.015,
       "step": 38
+    },
+    {
+      "epoch": 0.5182724252491694,
+      "grad_norm": 0.3961353003978729,
+      "learning_rate": 0.00011892512443604102,
+      "loss": 0.6232,
+      "step": 39
+    },
+    {
+      "epoch": 0.53156146179402,
+      "grad_norm": 0.4052596986293793,
+      "learning_rate": 0.00011423148382732853,
+      "loss": 0.5982,
+      "step": 40
+    },
+    {
+      "epoch": 0.5448504983388704,
+      "grad_norm": 0.2967623472213745,
+      "learning_rate": 0.00010950560433041826,
+      "loss": 0.2795,
+      "step": 41
+    },
+    {
+      "epoch": 0.5581395348837209,
+      "grad_norm": 0.3998267352581024,
+      "learning_rate": 0.00010475819158237425,
+      "loss": 0.6561,
+      "step": 42
+    },
+    {
+      "epoch": 0.5714285714285714,
+      "grad_norm": 0.3726865351200104,
+      "learning_rate": 0.0001,
+      "loss": 0.4405,
+      "step": 43
+    },
+    {
+      "epoch": 0.584717607973422,
+      "grad_norm": 0.33510908484458923,
+      "learning_rate": 9.524180841762577e-05,
+      "loss": 0.5434,
+      "step": 44
+    },
+    {
+      "epoch": 0.5980066445182725,
+      "grad_norm": 0.49725764989852905,
+      "learning_rate": 9.049439566958175e-05,
+      "loss": 0.5958,
+      "step": 45
+    },
+    {
+      "epoch": 0.6112956810631229,
+      "grad_norm": 0.4520473778247833,
+      "learning_rate": 8.57685161726715e-05,
+      "loss": 0.5766,
+      "step": 46
+    },
+    {
+      "epoch": 0.6245847176079734,
+      "grad_norm": 0.4540534019470215,
+      "learning_rate": 8.107487556395901e-05,
+      "loss": 0.5456,
+      "step": 47
+    },
+    {
+      "epoch": 0.6378737541528239,
+      "grad_norm": 0.41648876667022705,
+      "learning_rate": 7.642410644905726e-05,
+      "loss": 0.5473,
+      "step": 48
+    },
+    {
+      "epoch": 0.6511627906976745,
+      "grad_norm": 0.4036474823951721,
+      "learning_rate": 7.182674431585704e-05,
+      "loss": 0.5227,
+      "step": 49
+    },
+    {
+      "epoch": 0.6644518272425249,
+      "grad_norm": 0.4946843385696411,
+      "learning_rate": 6.729320366825784e-05,
+      "loss": 0.5725,
+      "step": 50
+    },
+    {
+      "epoch": 0.6777408637873754,
+      "grad_norm": 0.4965102970600128,
+      "learning_rate": 6.283375443396726e-05,
+      "loss": 0.5691,
+      "step": 51
+    },
+    {
+      "epoch": 0.6910299003322259,
+      "grad_norm": 0.4677567183971405,
+      "learning_rate": 5.845849869981137e-05,
+      "loss": 0.5973,
+      "step": 52
+    },
+    {
+      "epoch": 0.7043189368770764,
+      "grad_norm": 0.42778217792510986,
+      "learning_rate": 5.417734782725896e-05,
+      "loss": 0.5476,
+      "step": 53
+    },
+    {
+      "epoch": 0.717607973421927,
+      "grad_norm": 0.6459518671035767,
+      "learning_rate": 5.000000000000002e-05,
+      "loss": 0.7396,
+      "step": 54
+    },
+    {
+      "epoch": 0.7308970099667774,
+      "grad_norm": 0.4538530707359314,
+      "learning_rate": 4.593591825444028e-05,
+      "loss": 0.5768,
+      "step": 55
+    },
+    {
+      "epoch": 0.7441860465116279,
+      "grad_norm": 0.4008188247680664,
+      "learning_rate": 4.19943090428802e-05,
+      "loss": 0.5298,
+      "step": 56
+    },
+    {
+      "epoch": 0.7574750830564784,
+      "grad_norm": 0.3514866232872009,
+      "learning_rate": 3.8184101377939476e-05,
+      "loss": 0.3634,
+      "step": 57
+    },
+    {
+      "epoch": 0.7574750830564784,
+      "eval_loss": 0.679520845413208,
+      "eval_runtime": 0.9423,
+      "eval_samples_per_second": 33.96,
+      "eval_steps_per_second": 16.98,
+      "step": 57
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 4715279823667200.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null