Training in progress, step 50, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +189 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7dd854e00bded9212ff507faf62017869d8537a3a1e09df64e01cdedbddeebc2
 size 445688440

 version https://git-lfs.github.com/spec/v1
+oid sha256:5923452e8059b1810628e34e9adce8c56f88c6e69a07435921fe3e0a4168ebe9
 size 445688440

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9bcf85b4f908620d617e76ef57d582257315e5e6db7438f56bf8496b7a5f37d7
 size 891559354

 version https://git-lfs.github.com/spec/v1
+oid sha256:7552ba7340c7c3fa8eb10a41d5720064ebdb330ba9b30d24d605439696a43f72
 size 891559354

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fc0ab4f98f68c53b635f81ec5888f8a45b000117c237f08f893b71e8af4e7dce
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:eecca0e1e2b33fca559d134a973a4f42be5662d22660e501b28f5d0eeaca863f
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6948fcec475370d1eb2496b74d5177e2255ab5db70987b7f72155eac771acd1c
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:51feb6ac94210b02c9cb2b112801fbb2a86cca6701d69573a3c9f7fb98bfac65
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e4ac336ca116c62f514e0d6cb47e89e2292a1286d21b22399cdf93784283c68f
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:443e227024e3250f7302ade99fd9804c53956768bd6bdde69713bb792c88550f
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ea19e25e7c8d0744298068a70fe210c96317a6b9ae599be56c5fcbced618de52
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:1fdb53363e01270ab82cc42493bbecf063ea9a2989ff479a6cbc5af44c5a5e5e
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f37b2aa490ccb1598b01e14cda36e9081f7ce646deab4d3c2d03de0d2169a755
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b1df0528620c07325b8faa7567e59b0c1e86a1f1ee6af1245a69c6c0463fe4e2
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.1033322736620903,
-  "best_model_checkpoint": "miner_id_24/checkpoint-25",
-  "epoch": 0.11844832691738229,
   "eval_steps": 25,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -198,6 +198,189 @@
       "eval_samples_per_second": 15.139,
       "eval_steps_per_second": 1.895,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -221,12 +404,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 5.468644419043328e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.06123066693544388,
+  "best_model_checkpoint": "miner_id_24/checkpoint-50",
+  "epoch": 0.23689665383476458,
   "eval_steps": 25,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 15.139,
       "eval_steps_per_second": 1.895,
       "step": 25
+    },
+    {
+      "epoch": 0.12318625999407759,
+      "grad_norm": 8.260644912719727,
+      "learning_rate": 5e-05,
+      "loss": 0.0799,
+      "step": 26
+    },
+    {
+      "epoch": 0.12792419307077288,
+      "grad_norm": 19.179166793823242,
+      "learning_rate": 4.6729843538492847e-05,
+      "loss": 0.1616,
+      "step": 27
+    },
+    {
+      "epoch": 0.13266212614746817,
+      "grad_norm": 16.56215476989746,
+      "learning_rate": 4.347369038899744e-05,
+      "loss": 0.122,
+      "step": 28
+    },
+    {
+      "epoch": 0.13740005922416346,
+      "grad_norm": 8.13351058959961,
+      "learning_rate": 4.0245483899193595e-05,
+      "loss": 0.1073,
+      "step": 29
+    },
+    {
+      "epoch": 0.14213799230085875,
+      "grad_norm": 6.613006591796875,
+      "learning_rate": 3.705904774487396e-05,
+      "loss": 0.0833,
+      "step": 30
+    },
+    {
+      "epoch": 0.14687592537755403,
+      "grad_norm": 5.962475299835205,
+      "learning_rate": 3.392802673484193e-05,
+      "loss": 0.0568,
+      "step": 31
+    },
+    {
+      "epoch": 0.15161385845424932,
+      "grad_norm": 12.22464370727539,
+      "learning_rate": 3.086582838174551e-05,
+      "loss": 0.083,
+      "step": 32
+    },
+    {
+      "epoch": 0.1563517915309446,
+      "grad_norm": 8.224514961242676,
+      "learning_rate": 2.7885565489049946e-05,
+      "loss": 0.0595,
+      "step": 33
+    },
+    {
+      "epoch": 0.16108972460763993,
+      "grad_norm": 8.671944618225098,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 0.0695,
+      "step": 34
+    },
+    {
+      "epoch": 0.16582765768433522,
+      "grad_norm": 7.786879539489746,
+      "learning_rate": 2.2221488349019903e-05,
+      "loss": 0.0842,
+      "step": 35
+    },
+    {
+      "epoch": 0.1705655907610305,
+      "grad_norm": 6.3661651611328125,
+      "learning_rate": 1.9561928549563968e-05,
+      "loss": 0.0665,
+      "step": 36
+    },
+    {
+      "epoch": 0.1753035238377258,
+      "grad_norm": 5.761310577392578,
+      "learning_rate": 1.703270924499656e-05,
+      "loss": 0.0637,
+      "step": 37
+    },
+    {
+      "epoch": 0.18004145691442108,
+      "grad_norm": 6.241346836090088,
+      "learning_rate": 1.4644660940672627e-05,
+      "loss": 0.0949,
+      "step": 38
+    },
+    {
+      "epoch": 0.18477938999111637,
+      "grad_norm": 5.52647066116333,
+      "learning_rate": 1.2408009626051137e-05,
+      "loss": 0.0901,
+      "step": 39
+    },
+    {
+      "epoch": 0.18951732306781166,
+      "grad_norm": 4.935317516326904,
+      "learning_rate": 1.0332332985438248e-05,
+      "loss": 0.0837,
+      "step": 40
+    },
+    {
+      "epoch": 0.19425525614450695,
+      "grad_norm": 6.299217700958252,
+      "learning_rate": 8.426519384872733e-06,
+      "loss": 0.0788,
+      "step": 41
+    },
+    {
+      "epoch": 0.19899318922120224,
+      "grad_norm": 5.384281158447266,
+      "learning_rate": 6.698729810778065e-06,
+      "loss": 0.0628,
+      "step": 42
+    },
+    {
+      "epoch": 0.20373112229789755,
+      "grad_norm": 5.419621467590332,
+      "learning_rate": 5.156362923365588e-06,
+      "loss": 0.0601,
+      "step": 43
+    },
+    {
+      "epoch": 0.20846905537459284,
+      "grad_norm": 5.761849403381348,
+      "learning_rate": 3.8060233744356633e-06,
+      "loss": 0.0755,
+      "step": 44
+    },
+    {
+      "epoch": 0.21320698845128813,
+      "grad_norm": 3.9190921783447266,
+      "learning_rate": 2.653493525244721e-06,
+      "loss": 0.0361,
+      "step": 45
+    },
+    {
+      "epoch": 0.21794492152798342,
+      "grad_norm": 4.561317443847656,
+      "learning_rate": 1.70370868554659e-06,
+      "loss": 0.0649,
+      "step": 46
+    },
+    {
+      "epoch": 0.2226828546046787,
+      "grad_norm": 4.831967830657959,
+      "learning_rate": 9.607359798384785e-07,
+      "loss": 0.0485,
+      "step": 47
+    },
+    {
+      "epoch": 0.227420787681374,
+      "grad_norm": 6.556378364562988,
+      "learning_rate": 4.277569313094809e-07,
+      "loss": 0.0835,
+      "step": 48
+    },
+    {
+      "epoch": 0.2321587207580693,
+      "grad_norm": 3.2636804580688477,
+      "learning_rate": 1.0705383806982606e-07,
+      "loss": 0.0443,
+      "step": 49
+    },
+    {
+      "epoch": 0.23689665383476458,
+      "grad_norm": 9.330513954162598,
+      "learning_rate": 0.0,
+      "loss": 0.0776,
+      "step": 50
+    },
+    {
+      "epoch": 0.23689665383476458,
+      "eval_loss": 0.06123066693544388,
+      "eval_runtime": 93.9167,
+      "eval_samples_per_second": 15.141,
+      "eval_steps_per_second": 1.895,
+      "step": 50
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 1.0937288838086656e+18,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null