Training in progress, step 141, checkpoint

Browse files

Files changed (12) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +291 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3da08353f199053e68f42ba3883449e2dd6f0282330e508b01d0b777eb1467f4
 size 389074464

 version https://git-lfs.github.com/spec/v1
+oid sha256:fde7902b6d7bff637d29597652a6b56ef95c5e1dd6da9c1dab080e2e6a85d377
 size 389074464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e0ae10a35807f6134231bcc430fa722565fde0652dbec87b967720fc35713b96
 size 198011252

 version https://git-lfs.github.com/spec/v1
+oid sha256:c5ae170ed1a15355e349e50927ed30d7df573fedf3137707fcfd954426a88c0c
 size 198011252

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:63add0586146b851f47d881f8a2c86d2e7bbd1031b34991ea727eda767e3ba6f
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:d9faa80e895f2ee441f65233c3b9d99d52a69600429d38bbddd6eead4f9c541b
 size 15984

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8187a6c88d7933f4442806aa816104ffa2abe40157d1b5941b707067b0f91484
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:1ef808943930759c29df7d6cb43c7ce42f18630028d7057fa5027d9913fbda00
 size 15984

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:428d17df5bbcb9c5bba8928ed07c3ac1e2473387421762fc2dd2a18dad7163cb
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:400862bf97811c06d931cbea4873b2c4f76e79cd2ca67b0903bcbae23651c690
 size 15984

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:10e76a88b495596517a8c5e8dd0c9cf73e2fa8d302cb53089a3a0a19398d0705
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:2c9ee43196afab265d60dcd4c1c900179ab22f775dc75282af2f09c2068eaf05
 size 15984

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7e07c2149652b1186dc91873797838ca755d72668f5e0d5315a9746f87efcc58
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:a2bc9793c1138e05078b265d5eaf89968ed1a8a6e30d8d2e6c8cd400956edb28
 size 15984

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ea6c246d355698e0da22b783baa4cd562f3bf8472a265e83f06d63d516cc95c7
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:6d6e96260fd16c14c9f9f12f3b8f9c8c35af2268f7c6f573e7123e9610bf0097
 size 15984

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:55aa132a1f6a464d42b97932e211287aa777c051c2c25ed9e36ac7ddda94bf95
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:ad3f1ce05ff8747c562da4063aca1d62d228d34ae20324fd91268b964a6f1fd5
 size 15984

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:15a7d871d8fc1dcb9a693c26cb0b989af2ab985ab337aecb1daa8032f9df0a10
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:aec81ebc5fec1f650ab3e9c5c8e2325a8fbc2b8c2c20649882b77b60f6d6de60
 size 15984

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:90a8ac56c83b98807975f58ce50f3f82ea8b0179e01258b4bbfc026cbfdfe2db
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:9b4b05240aaf058fc01b05a9ba4d8dfa7cad8002a61cd9b25680b47dc809e03c
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.9274308681488037,
   "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 2.127659574468085,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,293 @@
       "eval_samples_per_second": 195.604,
       "eval_steps_per_second": 6.18,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -754,12 +1041,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 4.586475853185024e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.9274308681488037,
   "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 3.0,
   "eval_steps": 50,
+  "global_step": 141,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 195.604,
       "eval_steps_per_second": 6.18,
       "step": 100
+    },
+    {
+      "epoch": 2.148936170212766,
+      "grad_norm": 0.2774420976638794,
+      "learning_rate": 2.1719778394743813e-05,
+      "loss": 0.212,
+      "step": 101
+    },
+    {
+      "epoch": 2.1702127659574466,
+      "grad_norm": 0.3814822733402252,
+      "learning_rate": 2.0726886931772476e-05,
+      "loss": 0.7554,
+      "step": 102
+    },
+    {
+      "epoch": 2.1914893617021276,
+      "grad_norm": 0.423093318939209,
+      "learning_rate": 1.9751405254395587e-05,
+      "loss": 1.3008,
+      "step": 103
+    },
+    {
+      "epoch": 2.2127659574468086,
+      "grad_norm": 0.38136741518974304,
+      "learning_rate": 1.879389435304766e-05,
+      "loss": 1.1388,
+      "step": 104
+    },
+    {
+      "epoch": 2.2340425531914896,
+      "grad_norm": 0.39356493949890137,
+      "learning_rate": 1.7854904883337184e-05,
+      "loss": 0.9796,
+      "step": 105
+    },
+    {
+      "epoch": 2.25531914893617,
+      "grad_norm": 0.47382405400276184,
+      "learning_rate": 1.693497684936963e-05,
+      "loss": 0.8731,
+      "step": 106
+    },
+    {
+      "epoch": 2.276595744680851,
+      "grad_norm": 0.4495427906513214,
+      "learning_rate": 1.6034639293196224e-05,
+      "loss": 0.4196,
+      "step": 107
+    },
+    {
+      "epoch": 2.297872340425532,
+      "grad_norm": 0.26799333095550537,
+      "learning_rate": 1.515440999056669e-05,
+      "loss": 0.338,
+      "step": 108
+    },
+    {
+      "epoch": 2.3191489361702127,
+      "grad_norm": 0.4940812587738037,
+      "learning_rate": 1.429479515316127e-05,
+      "loss": 1.1992,
+      "step": 109
+    },
+    {
+      "epoch": 2.3404255319148937,
+      "grad_norm": 0.4212472140789032,
+      "learning_rate": 1.3456289137473124e-05,
+      "loss": 1.153,
+      "step": 110
+    },
+    {
+      "epoch": 2.3617021276595747,
+      "grad_norm": 0.4149324893951416,
+      "learning_rate": 1.263937416050847e-05,
+      "loss": 1.05,
+      "step": 111
+    },
+    {
+      "epoch": 2.382978723404255,
+      "grad_norm": 0.4490218460559845,
+      "learning_rate": 1.1844520022468092e-05,
+      "loss": 0.9362,
+      "step": 112
+    },
+    {
+      "epoch": 2.404255319148936,
+      "grad_norm": 0.5155778527259827,
+      "learning_rate": 1.1072183836569599e-05,
+      "loss": 0.615,
+      "step": 113
+    },
+    {
+      "epoch": 2.425531914893617,
+      "grad_norm": 0.1996319442987442,
+      "learning_rate": 1.0322809766165916e-05,
+      "loss": 0.1577,
+      "step": 114
+    },
+    {
+      "epoch": 2.4468085106382977,
+      "grad_norm": 0.5449104905128479,
+      "learning_rate": 9.596828769311028e-06,
+      "loss": 1.2252,
+      "step": 115
+    },
+    {
+      "epoch": 2.4680851063829787,
+      "grad_norm": 0.4638878405094147,
+      "learning_rate": 8.894658350919999e-06,
+      "loss": 1.2128,
+      "step": 116
+    },
+    {
+      "epoch": 2.4893617021276597,
+      "grad_norm": 0.4165002107620239,
+      "learning_rate": 8.216702322665849e-06,
+      "loss": 1.0802,
+      "step": 117
+    },
+    {
+      "epoch": 2.5106382978723403,
+      "grad_norm": 0.42553117871284485,
+      "learning_rate": 7.563350570751137e-06,
+      "loss": 0.9043,
+      "step": 118
+    },
+    {
+      "epoch": 2.5319148936170213,
+      "grad_norm": 0.5580489039421082,
+      "learning_rate": 6.934978831688112e-06,
+      "loss": 0.7406,
+      "step": 119
+    },
+    {
+      "epoch": 2.5531914893617023,
+      "grad_norm": 0.14457367360591888,
+      "learning_rate": 6.331948476216073e-06,
+      "loss": 0.0878,
+      "step": 120
+    },
+    {
+      "epoch": 2.574468085106383,
+      "grad_norm": 0.46198827028274536,
+      "learning_rate": 5.754606301480452e-06,
+      "loss": 1.0055,
+      "step": 121
+    },
+    {
+      "epoch": 2.595744680851064,
+      "grad_norm": 0.4651603102684021,
+      "learning_rate": 5.2032843315930305e-06,
+      "loss": 1.2232,
+      "step": 122
+    },
+    {
+      "epoch": 2.617021276595745,
+      "grad_norm": 0.41709625720977783,
+      "learning_rate": 4.678299626687903e-06,
+      "loss": 1.0644,
+      "step": 123
+    },
+    {
+      "epoch": 2.6382978723404253,
+      "grad_norm": 0.42545390129089355,
+      "learning_rate": 4.179954100583199e-06,
+      "loss": 0.9916,
+      "step": 124
+    },
+    {
+      "epoch": 2.6595744680851063,
+      "grad_norm": 0.5188893675804138,
+      "learning_rate": 3.708534347153212e-06,
+      "loss": 0.8641,
+      "step": 125
+    },
+    {
+      "epoch": 2.6808510638297873,
+      "grad_norm": 0.30658212304115295,
+      "learning_rate": 3.26431147551097e-06,
+      "loss": 0.1864,
+      "step": 126
+    },
+    {
+      "epoch": 2.702127659574468,
+      "grad_norm": 0.4011896252632141,
+      "learning_rate": 2.8475409540958616e-06,
+      "loss": 0.6371,
+      "step": 127
+    },
+    {
+      "epoch": 2.723404255319149,
+      "grad_norm": 0.4772135615348816,
+      "learning_rate": 2.45846246375617e-06,
+      "loss": 1.2719,
+      "step": 128
+    },
+    {
+      "epoch": 2.74468085106383,
+      "grad_norm": 0.44009700417518616,
+      "learning_rate": 2.097299759910797e-06,
+      "loss": 1.1568,
+      "step": 129
+    },
+    {
+      "epoch": 2.7659574468085104,
+      "grad_norm": 0.42015552520751953,
+      "learning_rate": 1.7642605438696306e-06,
+      "loss": 1.0539,
+      "step": 130
+    },
+    {
+      "epoch": 2.7872340425531914,
+      "grad_norm": 0.4982571303844452,
+      "learning_rate": 1.4595363433864484e-06,
+      "loss": 0.8517,
+      "step": 131
+    },
+    {
+      "epoch": 2.8085106382978724,
+      "grad_norm": 0.4780231714248657,
+      "learning_rate": 1.1833024025130858e-06,
+      "loss": 0.3794,
+      "step": 132
+    },
+    {
+      "epoch": 2.829787234042553,
+      "grad_norm": 0.3601129949092865,
+      "learning_rate": 9.357175808182305e-07,
+      "loss": 0.5229,
+      "step": 133
+    },
+    {
+      "epoch": 2.851063829787234,
+      "grad_norm": 0.5078785419464111,
+      "learning_rate": 7.169242620287227e-07,
+      "loss": 1.2511,
+      "step": 134
+    },
+    {
+      "epoch": 2.872340425531915,
+      "grad_norm": 0.42775991559028625,
+      "learning_rate": 5.270482721460563e-07,
+      "loss": 1.1546,
+      "step": 135
+    },
+    {
+      "epoch": 2.8936170212765955,
+      "grad_norm": 0.43165627121925354,
+      "learning_rate": 3.6619880708494724e-07,
+      "loss": 1.0596,
+      "step": 136
+    },
+    {
+      "epoch": 2.9148936170212765,
+      "grad_norm": 0.4631091356277466,
+      "learning_rate": 2.3446836987585295e-07,
+      "loss": 0.9146,
+      "step": 137
+    },
+    {
+      "epoch": 2.9361702127659575,
+      "grad_norm": 0.5159528851509094,
+      "learning_rate": 1.319327174672832e-07,
+      "loss": 0.5763,
+      "step": 138
+    },
+    {
+      "epoch": 2.9574468085106385,
+      "grad_norm": 0.426923006772995,
+      "learning_rate": 5.865081715870424e-08,
+      "loss": 0.7757,
+      "step": 139
+    },
+    {
+      "epoch": 2.978723404255319,
+      "grad_norm": 0.4215574264526367,
+      "learning_rate": 1.4664812689001438e-08,
+      "loss": 1.14,
+      "step": 140
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 0.5064499378204346,
+      "learning_rate": 0.0,
+      "loss": 0.8367,
+      "step": 141
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 6.466930952990884e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null