Training in progress, step 1540, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +155 -7

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7f8ca0cba6e6a99c2851249a2e6ed60e10abe6b88020013ba9ee3f0e7f1c70fe
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:41429cf5571ce18285a141d961caa3f0f825a72c254ea213d3abcf32d26cf102
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7c16ff90267c588b5044fb7db4096eea96f708905cc9ffa37cc90fc09b54759b
 size 511723621

 version https://git-lfs.github.com/spec/v1
+oid sha256:944e69c6bc8e57b2bf73b9346c469498e8ae2c8baaba15889acd8b4c7669601e
 size 511723621

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:05e8f9f3a20550c9a15ff7fdae2661fabd0e379d66918792caa6d978fd6c6e88
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:f4a52571f49e27c7eab31d97001843fe6934ba9e93fcb85a79308d038f084c2a
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:570bee8fc5bb0a7fce804ef10812bf516398a83bcb0b67c8617738fc33ea82b8
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:45489b655fbbe1ef592059bf1880ab60c4a3129300be9869b9bec372ecbdf27e
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 1480,
-  "best_metric": 1.8547732830047607,
-  "best_model_checkpoint": "miner_id_24/checkpoint-1480",
-  "epoch": 0.08647664561643056,
   "eval_steps": 20,
-  "global_step": 1520,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -11264,6 +11264,154 @@
       "eval_samples_per_second": 2.182,
       "eval_steps_per_second": 1.091,
       "step": 1520
     }
   ],
   "logging_steps": 1,
@@ -11278,7 +11426,7 @@
         "early_stopping_threshold": 0.0
       },
       "attributes": {
-        "early_stopping_patience_counter": 2
       }
     },
     "TrainerControl": {
@@ -11292,7 +11440,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.1751194217925837e+18,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 1540,
+  "best_metric": 1.8535445928573608,
+  "best_model_checkpoint": "miner_id_24/checkpoint-1540",
+  "epoch": 0.08761449621664676,
   "eval_steps": 20,
+  "global_step": 1540,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 2.182,
       "eval_steps_per_second": 1.091,
       "step": 1520
+    },
+    {
+      "epoch": 0.08653353814644137,
+      "grad_norm": 0.43319040536880493,
+      "learning_rate": 0.0001995954582663373,
+      "loss": 1.9505,
+      "step": 1521
+    },
+    {
+      "epoch": 0.08659043067645218,
+      "grad_norm": 0.457925409078598,
+      "learning_rate": 0.00019959492263420728,
+      "loss": 1.7886,
+      "step": 1522
+    },
+    {
+      "epoch": 0.086647323206463,
+      "grad_norm": 0.4349290728569031,
+      "learning_rate": 0.00019959438664843054,
+      "loss": 1.9586,
+      "step": 1523
+    },
+    {
+      "epoch": 0.0867042157364738,
+      "grad_norm": 0.4642198979854584,
+      "learning_rate": 0.0001995938503090089,
+      "loss": 1.7877,
+      "step": 1524
+    },
+    {
+      "epoch": 0.08676110826648462,
+      "grad_norm": 0.4763820171356201,
+      "learning_rate": 0.00019959331361594438,
+      "loss": 1.5194,
+      "step": 1525
+    },
+    {
+      "epoch": 0.08681800079649542,
+      "grad_norm": 0.4941880702972412,
+      "learning_rate": 0.00019959277656923883,
+      "loss": 1.8568,
+      "step": 1526
+    },
+    {
+      "epoch": 0.08687489332650623,
+      "grad_norm": 0.4190940260887146,
+      "learning_rate": 0.00019959223916889412,
+      "loss": 1.7104,
+      "step": 1527
+    },
+    {
+      "epoch": 0.08693178585651704,
+      "grad_norm": 0.5554546117782593,
+      "learning_rate": 0.0001995917014149122,
+      "loss": 1.6767,
+      "step": 1528
+    },
+    {
+      "epoch": 0.08698867838652785,
+      "grad_norm": 0.5352862477302551,
+      "learning_rate": 0.00019959116330729498,
+      "loss": 1.8475,
+      "step": 1529
+    },
+    {
+      "epoch": 0.08704557091653865,
+      "grad_norm": 0.4974481165409088,
+      "learning_rate": 0.00019959062484604438,
+      "loss": 1.8802,
+      "step": 1530
+    },
+    {
+      "epoch": 0.08710246344654947,
+      "grad_norm": 0.5199314951896667,
+      "learning_rate": 0.00019959008603116226,
+      "loss": 1.7377,
+      "step": 1531
+    },
+    {
+      "epoch": 0.08715935597656027,
+      "grad_norm": 0.49977415800094604,
+      "learning_rate": 0.0001995895468626506,
+      "loss": 1.8371,
+      "step": 1532
+    },
+    {
+      "epoch": 0.08721624850657109,
+      "grad_norm": 0.49237269163131714,
+      "learning_rate": 0.0001995890073405113,
+      "loss": 1.954,
+      "step": 1533
+    },
+    {
+      "epoch": 0.0872731410365819,
+      "grad_norm": 0.4401033818721771,
+      "learning_rate": 0.00019958846746474622,
+      "loss": 1.7293,
+      "step": 1534
+    },
+    {
+      "epoch": 0.0873300335665927,
+      "grad_norm": 0.5493918061256409,
+      "learning_rate": 0.00019958792723535733,
+      "loss": 1.7184,
+      "step": 1535
+    },
+    {
+      "epoch": 0.08738692609660352,
+      "grad_norm": 0.4993182420730591,
+      "learning_rate": 0.00019958738665234655,
+      "loss": 1.885,
+      "step": 1536
+    },
+    {
+      "epoch": 0.08744381862661432,
+      "grad_norm": 0.4622989892959595,
+      "learning_rate": 0.00019958684571571574,
+      "loss": 1.6466,
+      "step": 1537
+    },
+    {
+      "epoch": 0.08750071115662514,
+      "grad_norm": 0.5067393779754639,
+      "learning_rate": 0.0001995863044254669,
+      "loss": 1.664,
+      "step": 1538
+    },
+    {
+      "epoch": 0.08755760368663594,
+      "grad_norm": 0.5939873456954956,
+      "learning_rate": 0.00019958576278160191,
+      "loss": 2.0013,
+      "step": 1539
+    },
+    {
+      "epoch": 0.08761449621664676,
+      "grad_norm": 0.48256736993789673,
+      "learning_rate": 0.0001995852207841227,
+      "loss": 1.8087,
+      "step": 1540
+    },
+    {
+      "epoch": 0.08761449621664676,
+      "eval_loss": 1.8535445928573608,
+      "eval_runtime": 129.0453,
+      "eval_samples_per_second": 2.185,
+      "eval_steps_per_second": 1.093,
+      "step": 1540
     }
   ],
   "logging_steps": 1,
         "early_stopping_threshold": 0.0
       },
       "attributes": {
+        "early_stopping_patience_counter": 0
       }
     },
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 2.2037394141845914e+18,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null