Training in progress, step 4950, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:074d4757496860c4cc665302bc58aa004033bae0d34002951c4e70bafa2bd247
 size 144748392

 version https://git-lfs.github.com/spec/v1
+oid sha256:c3188867b6f42afdb97c5bca90592a0c41475f1cfd089e363bff836d0a7df867
 size 144748392

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ed5b53a2ea2843d426ba36bb8029c56532fed5d6c08462376b24bf8303eb62fe
 size 289690562

 version https://git-lfs.github.com/spec/v1
+oid sha256:52e83bd4539b423c6cee6ac6b4335758b2d772bbbc891a82bdb9000ae6534494
 size 289690562

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3d86dde06404ebd0628d3803eaab27e4207f5ed3b3928e40e158f7e918aeb97f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:705c175951ebab99d40ba2403cb35a326c43403983d8b488b4507196bb3297d6
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:741e5a74b4b8a7e18ee94356eb03e28c998d3e32cf81a6bc98c8f2bfb8fb01d7
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:10a0f55d24fa7f397f288a11330d31c57855416af9f1e0cdf88c93033ba0b0e8
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.8962875008583069,
-  "best_model_checkpoint": "./output/checkpoint-4800",
-  "epoch": 0.30592734225621415,
   "eval_steps": 150,
-  "global_step": 4800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3623,6 +3623,119 @@
       "eval_samples_per_second": 17.418,
       "eval_steps_per_second": 17.418,
       "step": 4800
     }
   ],
   "logging_steps": 10,
@@ -3642,7 +3755,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.3399278300168192e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.8959836363792419,
+  "best_model_checkpoint": "./output/checkpoint-4950",
+  "epoch": 0.3154875717017208,
   "eval_steps": 150,
+  "global_step": 4950,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 17.418,
       "eval_steps_per_second": 17.418,
       "step": 4800
+    },
+    {
+      "epoch": 0.3065646908859146,
+      "grad_norm": 0.6662583947181702,
+      "learning_rate": 4.631564202709354e-07,
+      "loss": 0.8852,
+      "step": 4810
+    },
+    {
+      "epoch": 0.30720203951561503,
+      "grad_norm": 0.6384733319282532,
+      "learning_rate": 4.1573879615262185e-07,
+      "loss": 0.8942,
+      "step": 4820
+    },
+    {
+      "epoch": 0.3078393881453155,
+      "grad_norm": 0.6545524597167969,
+      "learning_rate": 3.708732128449785e-07,
+      "loss": 0.8838,
+      "step": 4830
+    },
+    {
+      "epoch": 0.3084767367750159,
+      "grad_norm": 0.6367482542991638,
+      "learning_rate": 3.2856151459641216e-07,
+      "loss": 0.885,
+      "step": 4840
+    },
+    {
+      "epoch": 0.30911408540471635,
+      "grad_norm": 0.6313434839248657,
+      "learning_rate": 2.888054406751106e-07,
+      "loss": 0.8586,
+      "step": 4850
+    },
+    {
+      "epoch": 0.30975143403441685,
+      "grad_norm": 0.676314115524292,
+      "learning_rate": 2.5160662529755823e-07,
+      "loss": 0.9016,
+      "step": 4860
+    },
+    {
+      "epoch": 0.3103887826641173,
+      "grad_norm": 0.675794780254364,
+      "learning_rate": 2.169665975613605e-07,
+      "loss": 0.9129,
+      "step": 4870
+    },
+    {
+      "epoch": 0.31102613129381773,
+      "grad_norm": 0.6678455471992493,
+      "learning_rate": 1.8488678138238456e-07,
+      "loss": 0.8879,
+      "step": 4880
+    },
+    {
+      "epoch": 0.31166347992351817,
+      "grad_norm": 0.6081501245498657,
+      "learning_rate": 1.5536849543621584e-07,
+      "loss": 0.9111,
+      "step": 4890
+    },
+    {
+      "epoch": 0.3123008285532186,
+      "grad_norm": 0.6105800867080688,
+      "learning_rate": 1.2841295310397905e-07,
+      "loss": 0.911,
+      "step": 4900
+    },
+    {
+      "epoch": 0.31293817718291905,
+      "grad_norm": 0.6674126386642456,
+      "learning_rate": 1.0402126242244764e-07,
+      "loss": 0.8656,
+      "step": 4910
+    },
+    {
+      "epoch": 0.3135755258126195,
+      "grad_norm": 0.6117984652519226,
+      "learning_rate": 8.219442603847605e-08,
+      "loss": 0.8972,
+      "step": 4920
+    },
+    {
+      "epoch": 0.31421287444231993,
+      "grad_norm": 0.6295472979545593,
+      "learning_rate": 6.293334116783817e-08,
+      "loss": 0.9093,
+      "step": 4930
+    },
+    {
+      "epoch": 0.3148502230720204,
+      "grad_norm": 0.6571193933486938,
+      "learning_rate": 4.623879955827082e-08,
+      "loss": 0.8851,
+      "step": 4940
+    },
+    {
+      "epoch": 0.3154875717017208,
+      "grad_norm": 0.6322770118713379,
+      "learning_rate": 3.211148745700665e-08,
+      "loss": 0.8817,
+      "step": 4950
+    },
+    {
+      "epoch": 0.3154875717017208,
+      "eval_loss": 0.8959836363792419,
+      "eval_runtime": 28.4889,
+      "eval_samples_per_second": 17.551,
+      "eval_steps_per_second": 17.551,
+      "step": 4950
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.3818563054272512e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null