Training in progress, step 250, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3b2de8b9c49da0702145eca4649d5e27fb8b37259f1fbf501749e7780ae33249
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:3e5e70313e832a97b4a5f909837ad9943129a92cc5051d6a727def5672f1a649
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b85797c129ff1060ce0dc1d96ef77a9b4c61c1d637d5f0c81561a97d564ac164
 size 1342555602

 version https://git-lfs.github.com/spec/v1
+oid sha256:a2d53e875526cc7f45b9ee008df430f17f426411218e934f51ade9ef8b575fcb
 size 1342555602

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:579394abb2c244ad26cc7a4fe6ac0f2c5b0a50affcc1f3a70e165a1601351152
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:3055d414afa45ec35d956573da41804fc6e7dcd64cd4972d9d8a03f439aed732
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:721fbab3fb8bec5f97cdbed7b104a2d545aa7387136ca9cabeed23ace817187d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:0cc9840a370c6adb27f4a6f97aa77bff7e496e9a0cca1d81b87512770179ee98
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.62479567527771,
-  "best_model_checkpoint": "miner_id_24/checkpoint-200",
-  "epoch": 0.04571689810846334,
   "eval_steps": 50,
-  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1447,6 +1447,364 @@
       "eval_samples_per_second": 5.533,
       "eval_steps_per_second": 2.767,
       "step": 200
     }
   ],
   "logging_steps": 1,
@@ -1475,7 +1833,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.4575587979965235e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.5557529926300049,
+  "best_model_checkpoint": "miner_id_24/checkpoint-250",
+  "epoch": 0.05714612263557917,
   "eval_steps": 50,
+  "global_step": 250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.533,
       "eval_steps_per_second": 2.767,
       "step": 200
+    },
+    {
+      "epoch": 0.04594548259900566,
+      "grad_norm": 10.6249418258667,
+      "learning_rate": 2.9663167846209998e-05,
+      "loss": 3.5265,
+      "step": 201
+    },
+    {
+      "epoch": 0.04617406708954797,
+      "grad_norm": 8.47287368774414,
+      "learning_rate": 2.9133077275909108e-05,
+      "loss": 3.4879,
+      "step": 202
+    },
+    {
+      "epoch": 0.04640265158009029,
+      "grad_norm": 7.781945705413818,
+      "learning_rate": 2.86058117529173e-05,
+      "loss": 3.0601,
+      "step": 203
+    },
+    {
+      "epoch": 0.04663123607063261,
+      "grad_norm": 7.176991939544678,
+      "learning_rate": 2.8081442660546125e-05,
+      "loss": 2.6794,
+      "step": 204
+    },
+    {
+      "epoch": 0.04685982056117492,
+      "grad_norm": 6.956686496734619,
+      "learning_rate": 2.7560040989976892e-05,
+      "loss": 2.3741,
+      "step": 205
+    },
+    {
+      "epoch": 0.04708840505171724,
+      "grad_norm": 7.541036605834961,
+      "learning_rate": 2.7041677330649407e-05,
+      "loss": 2.4602,
+      "step": 206
+    },
+    {
+      "epoch": 0.04731698954225956,
+      "grad_norm": 26.17896270751953,
+      "learning_rate": 2.6526421860705473e-05,
+      "loss": 1.7172,
+      "step": 207
+    },
+    {
+      "epoch": 0.04754557403280187,
+      "grad_norm": 44.718421936035156,
+      "learning_rate": 2.6014344337487707e-05,
+      "loss": 1.8271,
+      "step": 208
+    },
+    {
+      "epoch": 0.04777415852334419,
+      "grad_norm": 23.585582733154297,
+      "learning_rate": 2.5505514088095655e-05,
+      "loss": 1.1668,
+      "step": 209
+    },
+    {
+      "epoch": 0.04800274301388651,
+      "grad_norm": 18.206127166748047,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 0.7469,
+      "step": 210
+    },
+    {
+      "epoch": 0.04823132750442882,
+      "grad_norm": 4.393265724182129,
+      "learning_rate": 2.4497870511716235e-05,
+      "loss": 0.1077,
+      "step": 211
+    },
+    {
+      "epoch": 0.04845991199497114,
+      "grad_norm": 4.106040954589844,
+      "learning_rate": 2.399919360353923e-05,
+      "loss": 0.2907,
+      "step": 212
+    },
+    {
+      "epoch": 0.04868849648551346,
+      "grad_norm": 13.828383445739746,
+      "learning_rate": 2.350403678833976e-05,
+      "loss": 0.8737,
+      "step": 213
+    },
+    {
+      "epoch": 0.04891708097605577,
+      "grad_norm": 59.581298828125,
+      "learning_rate": 2.3012467102424373e-05,
+      "loss": 4.8994,
+      "step": 214
+    },
+    {
+      "epoch": 0.04914566546659809,
+      "grad_norm": 52.219642639160156,
+      "learning_rate": 2.25245510964597e-05,
+      "loss": 4.3086,
+      "step": 215
+    },
+    {
+      "epoch": 0.04937424995714041,
+      "grad_norm": 57.01164627075195,
+      "learning_rate": 2.2040354826462668e-05,
+      "loss": 3.0226,
+      "step": 216
+    },
+    {
+      "epoch": 0.04960283444768272,
+      "grad_norm": 35.1441764831543,
+      "learning_rate": 2.1559943844857422e-05,
+      "loss": 1.8326,
+      "step": 217
+    },
+    {
+      "epoch": 0.04983141893822504,
+      "grad_norm": 23.194089889526367,
+      "learning_rate": 2.1083383191600674e-05,
+      "loss": 0.9515,
+      "step": 218
+    },
+    {
+      "epoch": 0.05006000342876736,
+      "grad_norm": 20.370725631713867,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 2.2338,
+      "step": 219
+    },
+    {
+      "epoch": 0.05028858791930967,
+      "grad_norm": 31.7033634185791,
+      "learning_rate": 2.0142070414860704e-05,
+      "loss": 2.838,
+      "step": 220
+    },
+    {
+      "epoch": 0.05051717240985199,
+      "grad_norm": 30.212299346923828,
+      "learning_rate": 1.9677445730059346e-05,
+      "loss": 3.5437,
+      "step": 221
+    },
+    {
+      "epoch": 0.05074575690039431,
+      "grad_norm": 24.48371124267578,
+      "learning_rate": 1.9216926233717085e-05,
+      "loss": 2.1516,
+      "step": 222
+    },
+    {
+      "epoch": 0.05097434139093662,
+      "grad_norm": 26.28635597229004,
+      "learning_rate": 1.8760574272802e-05,
+      "loss": 1.8107,
+      "step": 223
+    },
+    {
+      "epoch": 0.05120292588147894,
+      "grad_norm": 64.8018569946289,
+      "learning_rate": 1.8308451630064484e-05,
+      "loss": 3.8766,
+      "step": 224
+    },
+    {
+      "epoch": 0.05143151037202126,
+      "grad_norm": 79.22872161865234,
+      "learning_rate": 1.7860619515673033e-05,
+      "loss": 5.5396,
+      "step": 225
+    },
+    {
+      "epoch": 0.05166009486256357,
+      "grad_norm": 81.44451904296875,
+      "learning_rate": 1.7417138558927244e-05,
+      "loss": 5.3564,
+      "step": 226
+    },
+    {
+      "epoch": 0.05188867935310589,
+      "grad_norm": 74.99747467041016,
+      "learning_rate": 1.6978068800049624e-05,
+      "loss": 4.2999,
+      "step": 227
+    },
+    {
+      "epoch": 0.05211726384364821,
+      "grad_norm": 30.039758682250977,
+      "learning_rate": 1.6543469682057106e-05,
+      "loss": 4.5715,
+      "step": 228
+    },
+    {
+      "epoch": 0.05234584833419052,
+      "grad_norm": 25.890417098999023,
+      "learning_rate": 1.611340004271339e-05,
+      "loss": 4.2147,
+      "step": 229
+    },
+    {
+      "epoch": 0.05257443282473284,
+      "grad_norm": 24.455820083618164,
+      "learning_rate": 1.5687918106563326e-05,
+      "loss": 3.6963,
+      "step": 230
+    },
+    {
+      "epoch": 0.05280301731527516,
+      "grad_norm": 13.776949882507324,
+      "learning_rate": 1.526708147705013e-05,
+      "loss": 2.5523,
+      "step": 231
+    },
+    {
+      "epoch": 0.05303160180581747,
+      "grad_norm": 14.489748001098633,
+      "learning_rate": 1.4850947128716913e-05,
+      "loss": 2.8481,
+      "step": 232
+    },
+    {
+      "epoch": 0.05326018629635979,
+      "grad_norm": 14.851402282714844,
+      "learning_rate": 1.4439571399493146e-05,
+      "loss": 2.9429,
+      "step": 233
+    },
+    {
+      "epoch": 0.05348877078690211,
+      "grad_norm": 14.959819793701172,
+      "learning_rate": 1.4033009983067452e-05,
+      "loss": 2.7784,
+      "step": 234
+    },
+    {
+      "epoch": 0.05371735527744442,
+      "grad_norm": 10.266538619995117,
+      "learning_rate": 1.3631317921347563e-05,
+      "loss": 2.1112,
+      "step": 235
+    },
+    {
+      "epoch": 0.05394593976798674,
+      "grad_norm": 13.498571395874023,
+      "learning_rate": 1.3234549597008571e-05,
+      "loss": 2.61,
+      "step": 236
+    },
+    {
+      "epoch": 0.05417452425852906,
+      "grad_norm": 13.794647216796875,
+      "learning_rate": 1.2842758726130283e-05,
+      "loss": 2.655,
+      "step": 237
+    },
+    {
+      "epoch": 0.05440310874907137,
+      "grad_norm": 12.700047492980957,
+      "learning_rate": 1.245599835092504e-05,
+      "loss": 2.1982,
+      "step": 238
+    },
+    {
+      "epoch": 0.05463169323961369,
+      "grad_norm": 11.33856201171875,
+      "learning_rate": 1.2074320832556556e-05,
+      "loss": 1.8852,
+      "step": 239
+    },
+    {
+      "epoch": 0.05486027773015601,
+      "grad_norm": 12.628767013549805,
+      "learning_rate": 1.1697777844051105e-05,
+      "loss": 2.6147,
+      "step": 240
+    },
+    {
+      "epoch": 0.05508886222069832,
+      "grad_norm": 12.457136154174805,
+      "learning_rate": 1.132642036330181e-05,
+      "loss": 2.2797,
+      "step": 241
+    },
+    {
+      "epoch": 0.05531744671124064,
+      "grad_norm": 16.78705406188965,
+      "learning_rate": 1.096029866616704e-05,
+      "loss": 2.1772,
+      "step": 242
+    },
+    {
+      "epoch": 0.05554603120178296,
+      "grad_norm": 20.40379524230957,
+      "learning_rate": 1.0599462319663905e-05,
+      "loss": 4.4865,
+      "step": 243
+    },
+    {
+      "epoch": 0.05577461569232527,
+      "grad_norm": 47.940460205078125,
+      "learning_rate": 1.0243960175257606e-05,
+      "loss": 4.1248,
+      "step": 244
+    },
+    {
+      "epoch": 0.05600320018286759,
+      "grad_norm": 20.962236404418945,
+      "learning_rate": 9.893840362247809e-06,
+      "loss": 5.0609,
+      "step": 245
+    },
+    {
+      "epoch": 0.05623178467340991,
+      "grad_norm": 17.944730758666992,
+      "learning_rate": 9.549150281252633e-06,
+      "loss": 5.8087,
+      "step": 246
+    },
+    {
+      "epoch": 0.05646036916395222,
+      "grad_norm": 14.370197296142578,
+      "learning_rate": 9.209936597791407e-06,
+      "loss": 4.9449,
+      "step": 247
+    },
+    {
+      "epoch": 0.05668895365449454,
+      "grad_norm": 13.268957138061523,
+      "learning_rate": 8.876245235966885e-06,
+      "loss": 4.4975,
+      "step": 248
+    },
+    {
+      "epoch": 0.05691753814503686,
+      "grad_norm": 13.039083480834961,
+      "learning_rate": 8.548121372247918e-06,
+      "loss": 3.907,
+      "step": 249
+    },
+    {
+      "epoch": 0.05714612263557917,
+      "grad_norm": 14.2072172164917,
+      "learning_rate": 8.225609429353187e-06,
+      "loss": 3.7406,
+      "step": 250
+    },
+    {
+      "epoch": 0.05714612263557917,
+      "eval_loss": 0.5557529926300049,
+      "eval_runtime": 1331.7964,
+      "eval_samples_per_second": 5.532,
+      "eval_steps_per_second": 2.766,
+      "step": 250
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 5.566582254961951e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null