Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +189 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cc013c6dd41c2415b467198d5be131f462b6ef08825b595a238c2a6a986d55c6
 size 871457448

 version https://git-lfs.github.com/spec/v1
+oid sha256:46ed79fe92b6f748562de877008d1593e41dfa909403fc3c711d852d0d86e69d
 size 871457448

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5dfba3bcbb84f150725e8b2489a9097c99f44432af2a952ae6dfe8d5a4c02765
 size 443280340

 version https://git-lfs.github.com/spec/v1
+oid sha256:bfcbf52c0aabfbdbe014dd66420986f05ba80733359c817c54be5a6e5c023f95
 size 443280340

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1b20e05258b93ff4fe7b16531a343820ee5e32ba49ec02783595ff6a367e5cc7
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:0fa73dbb8f94ac39c8308ca73aac92a19eb5639046740e68e982fdbc7c6e67d0
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb15fdd4c0ab874f4afa0ea95fae119cbc74554df5fbe92ab825fe27063eaa04
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b1df0528620c07325b8faa7567e59b0c1e86a1f1ee6af1245a69c6c0463fe4e2
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.5349808931350708,
-  "best_model_checkpoint": "miner_id_24/checkpoint-25",
-  "epoch": 0.007844983133286264,
   "eval_steps": 25,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -198,6 +198,189 @@
       "eval_samples_per_second": 12.521,
       "eval_steps_per_second": 1.565,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -221,12 +404,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 4.31805475848192e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.4298853874206543,
+  "best_model_checkpoint": "miner_id_24/checkpoint-50",
+  "epoch": 0.015689966266572528,
   "eval_steps": 25,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 12.521,
       "eval_steps_per_second": 1.565,
       "step": 25
+    },
+    {
+      "epoch": 0.008158782458617715,
+      "grad_norm": 0.581712543964386,
+      "learning_rate": 5.522642316338268e-05,
+      "loss": 1.4572,
+      "step": 26
+    },
+    {
+      "epoch": 0.008472581783949164,
+      "grad_norm": 0.5190452933311462,
+      "learning_rate": 5.174497483512506e-05,
+      "loss": 1.46,
+      "step": 27
+    },
+    {
+      "epoch": 0.008786381109280615,
+      "grad_norm": 0.49950864911079407,
+      "learning_rate": 4.825502516487497e-05,
+      "loss": 1.4293,
+      "step": 28
+    },
+    {
+      "epoch": 0.009100180434612066,
+      "grad_norm": 0.4966989755630493,
+      "learning_rate": 4.477357683661734e-05,
+      "loss": 1.3865,
+      "step": 29
+    },
+    {
+      "epoch": 0.009413979759943516,
+      "grad_norm": 0.5303559899330139,
+      "learning_rate": 4.131759111665349e-05,
+      "loss": 1.4005,
+      "step": 30
+    },
+    {
+      "epoch": 0.009727779085274967,
+      "grad_norm": 0.5324942469596863,
+      "learning_rate": 3.790390522001662e-05,
+      "loss": 1.3493,
+      "step": 31
+    },
+    {
+      "epoch": 0.010041578410606418,
+      "grad_norm": 0.5072336792945862,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 1.3621,
+      "step": 32
+    },
+    {
+      "epoch": 0.010355377735937867,
+      "grad_norm": 0.513353168964386,
+      "learning_rate": 3.12696703292044e-05,
+      "loss": 1.3126,
+      "step": 33
+    },
+    {
+      "epoch": 0.010669177061269318,
+      "grad_norm": 0.5334987044334412,
+      "learning_rate": 2.8081442660546125e-05,
+      "loss": 1.4084,
+      "step": 34
+    },
+    {
+      "epoch": 0.010982976386600769,
+      "grad_norm": 0.5283213257789612,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 1.432,
+      "step": 35
+    },
+    {
+      "epoch": 0.01129677571193222,
+      "grad_norm": 0.5237407684326172,
+      "learning_rate": 2.2040354826462668e-05,
+      "loss": 1.2658,
+      "step": 36
+    },
+    {
+      "epoch": 0.01161057503726367,
+      "grad_norm": 0.5264328718185425,
+      "learning_rate": 1.9216926233717085e-05,
+      "loss": 1.2676,
+      "step": 37
+    },
+    {
+      "epoch": 0.01192437436259512,
+      "grad_norm": 0.5637994408607483,
+      "learning_rate": 1.6543469682057106e-05,
+      "loss": 1.4679,
+      "step": 38
+    },
+    {
+      "epoch": 0.012238173687926571,
+      "grad_norm": 0.7660686373710632,
+      "learning_rate": 1.4033009983067452e-05,
+      "loss": 1.338,
+      "step": 39
+    },
+    {
+      "epoch": 0.01255197301325802,
+      "grad_norm": 0.7592644095420837,
+      "learning_rate": 1.1697777844051105e-05,
+      "loss": 1.542,
+      "step": 40
+    },
+    {
+      "epoch": 0.012865772338589472,
+      "grad_norm": 0.7567748427391052,
+      "learning_rate": 9.549150281252633e-06,
+      "loss": 1.4495,
+      "step": 41
+    },
+    {
+      "epoch": 0.013179571663920923,
+      "grad_norm": 0.7984277009963989,
+      "learning_rate": 7.597595192178702e-06,
+      "loss": 1.3868,
+      "step": 42
+    },
+    {
+      "epoch": 0.013493370989252374,
+      "grad_norm": 0.8109346032142639,
+      "learning_rate": 5.852620357053651e-06,
+      "loss": 1.4577,
+      "step": 43
+    },
+    {
+      "epoch": 0.013807170314583823,
+      "grad_norm": 0.9241611361503601,
+      "learning_rate": 4.322727117869951e-06,
+      "loss": 1.4876,
+      "step": 44
+    },
+    {
+      "epoch": 0.014120969639915274,
+      "grad_norm": 0.9513115882873535,
+      "learning_rate": 3.0153689607045845e-06,
+      "loss": 1.5707,
+      "step": 45
+    },
+    {
+      "epoch": 0.014434768965246725,
+      "grad_norm": 1.0616438388824463,
+      "learning_rate": 1.9369152030840556e-06,
+      "loss": 1.6025,
+      "step": 46
+    },
+    {
+      "epoch": 0.014748568290578174,
+      "grad_norm": 1.202399730682373,
+      "learning_rate": 1.0926199633097157e-06,
+      "loss": 1.5899,
+      "step": 47
+    },
+    {
+      "epoch": 0.015062367615909626,
+      "grad_norm": 1.5035125017166138,
+      "learning_rate": 4.865965629214819e-07,
+      "loss": 1.6971,
+      "step": 48
+    },
+    {
+      "epoch": 0.015376166941241077,
+      "grad_norm": 2.0101044178009033,
+      "learning_rate": 1.2179748700879012e-07,
+      "loss": 1.96,
+      "step": 49
+    },
+    {
+      "epoch": 0.015689966266572528,
+      "grad_norm": 4.8594207763671875,
+      "learning_rate": 0.0,
+      "loss": 2.6711,
+      "step": 50
+    },
+    {
+      "epoch": 0.015689966266572528,
+      "eval_loss": 1.4298853874206543,
+      "eval_runtime": 428.3669,
+      "eval_samples_per_second": 12.531,
+      "eval_steps_per_second": 1.566,
+      "step": 50
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 7.59977637492818e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null