Training in progress, step 2850, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +116 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:966b1eba27b60a69de9941a4adc40d47f6930990f3711e0c6b943dcd7e8be6f8
 size 17447528

 version https://git-lfs.github.com/spec/v1
+oid sha256:507b0045580eaf7396aaa0f06eed3c9395cf84e452522665d7d9c90deb17eb9b
 size 17447528

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f50057a5284d267fe090961c400974b32cf269a0ae5da66fea9da29dacdba32d
 size 34959674

 version https://git-lfs.github.com/spec/v1
+oid sha256:e23f7491d13f76c7387fce24e6f4ca9afba3426a99cb9bcef450bb8c23de9fc8
 size 34959674

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c64140e0046965aea8413f1656f4090612556428328ec675266a89312bb1ca8f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:163146a068117fb98f41c23ddbb66802e20f4e6a275e3f9a2f37a754bb33ba25
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:631e61b76e4f847dac83ed69bd0682bc8277236b03d3ca41b916b7838850a58e
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:675b3a9e5fe7372c3c43243a8218917ed6d7710114a3dd64818b1e7e3d4370e0
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.000862631481140852,
   "best_model_checkpoint": "./output/checkpoint-1950",
-  "epoch": 0.7529280535415505,
   "eval_steps": 150,
-  "global_step": 2700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2041,6 +2041,119 @@
       "eval_samples_per_second": 13.942,
       "eval_steps_per_second": 13.942,
       "step": 2700
     }
   ],
   "logging_steps": 10,
@@ -2060,7 +2173,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.5811377525633843e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.000862631481140852,
   "best_model_checkpoint": "./output/checkpoint-1950",
+  "epoch": 0.7947573898494144,
   "eval_steps": 150,
+  "global_step": 2850,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 13.942,
       "eval_steps_per_second": 13.942,
       "step": 2700
+    },
+    {
+      "epoch": 0.7557166759620747,
+      "grad_norm": 0.011520965956151485,
+      "learning_rate": 5.609982526366054e-05,
+      "loss": 0.0006,
+      "step": 2710
+    },
+    {
+      "epoch": 0.758505298382599,
+      "grad_norm": 0.023217786103487015,
+      "learning_rate": 5.570135273266683e-05,
+      "loss": 0.0008,
+      "step": 2720
+    },
+    {
+      "epoch": 0.7612939208031233,
+      "grad_norm": 0.09491502493619919,
+      "learning_rate": 5.53031596674338e-05,
+      "loss": 0.0002,
+      "step": 2730
+    },
+    {
+      "epoch": 0.7640825432236475,
+      "grad_norm": 0.13169516623020172,
+      "learning_rate": 5.490526243611873e-05,
+      "loss": 0.0003,
+      "step": 2740
+    },
+    {
+      "epoch": 0.7668711656441718,
+      "grad_norm": 0.0027904631569981575,
+      "learning_rate": 5.450767739471837e-05,
+      "loss": 0.0007,
+      "step": 2750
+    },
+    {
+      "epoch": 0.769659788064696,
+      "grad_norm": 0.006744542624801397,
+      "learning_rate": 5.411042088639655e-05,
+      "loss": 0.0007,
+      "step": 2760
+    },
+    {
+      "epoch": 0.7724484104852203,
+      "grad_norm": 0.043837904930114746,
+      "learning_rate": 5.371350924081234e-05,
+      "loss": 0.0007,
+      "step": 2770
+    },
+    {
+      "epoch": 0.7752370329057445,
+      "grad_norm": 0.0588638074696064,
+      "learning_rate": 5.331695877344888e-05,
+      "loss": 0.0002,
+      "step": 2780
+    },
+    {
+      "epoch": 0.7780256553262688,
+      "grad_norm": 0.22443899512290955,
+      "learning_rate": 5.292078578494275e-05,
+      "loss": 0.0005,
+      "step": 2790
+    },
+    {
+      "epoch": 0.7808142777467931,
+      "grad_norm": 0.037049710750579834,
+      "learning_rate": 5.2525006560413816e-05,
+      "loss": 0.0003,
+      "step": 2800
+    },
+    {
+      "epoch": 0.7836029001673174,
+      "grad_norm": 0.018167397007346153,
+      "learning_rate": 5.212963736879578e-05,
+      "loss": 0.0014,
+      "step": 2810
+    },
+    {
+      "epoch": 0.7863915225878416,
+      "grad_norm": 0.0031329223420470953,
+      "learning_rate": 5.173469446216757e-05,
+      "loss": 0.0004,
+      "step": 2820
+    },
+    {
+      "epoch": 0.7891801450083659,
+      "grad_norm": 0.0297186728566885,
+      "learning_rate": 5.134019407508521e-05,
+      "loss": 0.0006,
+      "step": 2830
+    },
+    {
+      "epoch": 0.7919687674288901,
+      "grad_norm": 0.21967540681362152,
+      "learning_rate": 5.0946152423914456e-05,
+      "loss": 0.0002,
+      "step": 2840
+    },
+    {
+      "epoch": 0.7947573898494144,
+      "grad_norm": 0.013743867166340351,
+      "learning_rate": 5.0552585706164246e-05,
+      "loss": 0.0011,
+      "step": 2850
+    },
+    {
+      "epoch": 0.7947573898494144,
+      "eval_loss": 0.0009596548043191433,
+      "eval_runtime": 34.7856,
+      "eval_samples_per_second": 14.374,
+      "eval_steps_per_second": 14.374,
+      "step": 2850
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 2.7249325604477338e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null