Training in progress, step 250, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f6a807852768ce2ccfda9549fd58cf83073aeb8e0dcfc544e8b523b0a5212bca
 size 500770656

 version https://git-lfs.github.com/spec/v1
+oid sha256:b091bf5f1ce9e8388e64b336bdb4cf8f02f0eb007585067a4b0747d3b743c3aa
 size 500770656

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1031a80aa022fef633fe2a9b86c4674285e249960c92983d151a972bb23abbc8
 size 254917780

 version https://git-lfs.github.com/spec/v1
+oid sha256:d24339e9d80ca13375893d5df939b469a5841bd9782322090d796d0025d923d0
 size 254917780

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:90dbd62f0b1c6fdca03988ec1ba0af067e521a02fdd2e714aba518c99f3bbc7c
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:98fa1f833b77a5bef15319c574c6083893d7c2840ec5da7147454424b67d975e
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c822dec639f0641927f6a0448fd2ae65913fdbdae3d08ed0701aa491ca071f0a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:477e1ab9e7e387f392e0bb68fb7cd86779a760a788b2ed973ec470f1c83dd5f7
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.4887339770793915,
-  "best_model_checkpoint": "miner_id_24/checkpoint-200",
-  "epoch": 0.06457992775120583,
   "eval_steps": 50,
-  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1447,6 +1447,364 @@
       "eval_samples_per_second": 2.678,
       "eval_steps_per_second": 2.678,
       "step": 200
     }
   ],
   "logging_steps": 1,
@@ -1475,7 +1833,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.1792581360091136e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.4805048406124115,
+  "best_model_checkpoint": "miner_id_24/checkpoint-250",
+  "epoch": 0.08072490968900728,
   "eval_steps": 50,
+  "global_step": 250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 2.678,
       "eval_steps_per_second": 2.678,
       "step": 200
+    },
+    {
+      "epoch": 0.06490282738996185,
+      "grad_norm": 0.318142294883728,
+      "learning_rate": 7.830721146206451e-05,
+      "loss": 0.5384,
+      "step": 201
+    },
+    {
+      "epoch": 0.06522572702871789,
+      "grad_norm": 0.288631409406662,
+      "learning_rate": 7.688410249570214e-05,
+      "loss": 0.5078,
+      "step": 202
+    },
+    {
+      "epoch": 0.06554862666747392,
+      "grad_norm": 0.280100554227829,
+      "learning_rate": 7.54695740040912e-05,
+      "loss": 0.4788,
+      "step": 203
+    },
+    {
+      "epoch": 0.06587152630622994,
+      "grad_norm": 0.279681533575058,
+      "learning_rate": 7.406379198842189e-05,
+      "loss": 0.4447,
+      "step": 204
+    },
+    {
+      "epoch": 0.06619442594498598,
+      "grad_norm": 0.2892783284187317,
+      "learning_rate": 7.266692142344672e-05,
+      "loss": 0.4932,
+      "step": 205
+    },
+    {
+      "epoch": 0.066517325583742,
+      "grad_norm": 0.2658500075340271,
+      "learning_rate": 7.127912623811993e-05,
+      "loss": 0.4682,
+      "step": 206
+    },
+    {
+      "epoch": 0.06684022522249804,
+      "grad_norm": 0.2946866452693939,
+      "learning_rate": 6.990056929635957e-05,
+      "loss": 0.4838,
+      "step": 207
+    },
+    {
+      "epoch": 0.06716312486125406,
+      "grad_norm": 0.2683822214603424,
+      "learning_rate": 6.853141237793506e-05,
+      "loss": 0.4408,
+      "step": 208
+    },
+    {
+      "epoch": 0.0674860245000101,
+      "grad_norm": 0.3225007653236389,
+      "learning_rate": 6.717181615948126e-05,
+      "loss": 0.4949,
+      "step": 209
+    },
+    {
+      "epoch": 0.06780892413876612,
+      "grad_norm": 0.25332513451576233,
+      "learning_rate": 6.582194019564266e-05,
+      "loss": 0.4141,
+      "step": 210
+    },
+    {
+      "epoch": 0.06813182377752215,
+      "grad_norm": 0.2799530625343323,
+      "learning_rate": 6.448194290034848e-05,
+      "loss": 0.4445,
+      "step": 211
+    },
+    {
+      "epoch": 0.06845472341627817,
+      "grad_norm": 0.27327555418014526,
+      "learning_rate": 6.315198152822272e-05,
+      "loss": 0.4138,
+      "step": 212
+    },
+    {
+      "epoch": 0.06877762305503421,
+      "grad_norm": 0.3778553903102875,
+      "learning_rate": 6.183221215612904e-05,
+      "loss": 0.4804,
+      "step": 213
+    },
+    {
+      "epoch": 0.06910052269379023,
+      "grad_norm": 0.3077884614467621,
+      "learning_rate": 6.052278966485491e-05,
+      "loss": 0.4657,
+      "step": 214
+    },
+    {
+      "epoch": 0.06942342233254627,
+      "grad_norm": 0.29660362005233765,
+      "learning_rate": 5.922386772093526e-05,
+      "loss": 0.4297,
+      "step": 215
+    },
+    {
+      "epoch": 0.06974632197130229,
+      "grad_norm": 0.3540116548538208,
+      "learning_rate": 5.793559875861938e-05,
+      "loss": 0.466,
+      "step": 216
+    },
+    {
+      "epoch": 0.07006922161005832,
+      "grad_norm": 0.2957676351070404,
+      "learning_rate": 5.6658133961981894e-05,
+      "loss": 0.4421,
+      "step": 217
+    },
+    {
+      "epoch": 0.07039212124881435,
+      "grad_norm": 0.3042965233325958,
+      "learning_rate": 5.5391623247180744e-05,
+      "loss": 0.441,
+      "step": 218
+    },
+    {
+      "epoch": 0.07071502088757038,
+      "grad_norm": 0.36982765793800354,
+      "learning_rate": 5.413621524486363e-05,
+      "loss": 0.4114,
+      "step": 219
+    },
+    {
+      "epoch": 0.07103792052632642,
+      "grad_norm": 0.3452307879924774,
+      "learning_rate": 5.289205728272586e-05,
+      "loss": 0.4562,
+      "step": 220
+    },
+    {
+      "epoch": 0.07136082016508244,
+      "grad_norm": 0.3854043483734131,
+      "learning_rate": 5.165929536822059e-05,
+      "loss": 0.5003,
+      "step": 221
+    },
+    {
+      "epoch": 0.07168371980383847,
+      "grad_norm": 0.3237496018409729,
+      "learning_rate": 5.043807417142436e-05,
+      "loss": 0.4592,
+      "step": 222
+    },
+    {
+      "epoch": 0.0720066194425945,
+      "grad_norm": 0.32223159074783325,
+      "learning_rate": 4.922853700805909e-05,
+      "loss": 0.4553,
+      "step": 223
+    },
+    {
+      "epoch": 0.07232951908135053,
+      "grad_norm": 0.40129488706588745,
+      "learning_rate": 4.8030825822673814e-05,
+      "loss": 0.4276,
+      "step": 224
+    },
+    {
+      "epoch": 0.07265241872010655,
+      "grad_norm": 0.34809187054634094,
+      "learning_rate": 4.684508117198648e-05,
+      "loss": 0.4856,
+      "step": 225
+    },
+    {
+      "epoch": 0.07297531835886259,
+      "grad_norm": 0.3367185592651367,
+      "learning_rate": 4.567144220838923e-05,
+      "loss": 0.4555,
+      "step": 226
+    },
+    {
+      "epoch": 0.07329821799761861,
+      "grad_norm": 0.35933539271354675,
+      "learning_rate": 4.4510046663617996e-05,
+      "loss": 0.4837,
+      "step": 227
+    },
+    {
+      "epoch": 0.07362111763637465,
+      "grad_norm": 0.3718101382255554,
+      "learning_rate": 4.336103083258942e-05,
+      "loss": 0.4789,
+      "step": 228
+    },
+    {
+      "epoch": 0.07394401727513067,
+      "grad_norm": 0.3542415201663971,
+      "learning_rate": 4.2224529557405645e-05,
+      "loss": 0.5075,
+      "step": 229
+    },
+    {
+      "epoch": 0.0742669169138867,
+      "grad_norm": 0.3407626748085022,
+      "learning_rate": 4.1100676211530404e-05,
+      "loss": 0.4803,
+      "step": 230
+    },
+    {
+      "epoch": 0.07458981655264273,
+      "grad_norm": 0.39396294951438904,
+      "learning_rate": 3.998960268413666e-05,
+      "loss": 0.5117,
+      "step": 231
+    },
+    {
+      "epoch": 0.07491271619139876,
+      "grad_norm": 0.3785285949707031,
+      "learning_rate": 3.889143936462914e-05,
+      "loss": 0.4925,
+      "step": 232
+    },
+    {
+      "epoch": 0.07523561583015478,
+      "grad_norm": 0.36613747477531433,
+      "learning_rate": 3.780631512734241e-05,
+      "loss": 0.4434,
+      "step": 233
+    },
+    {
+      "epoch": 0.07555851546891082,
+      "grad_norm": 0.3978104591369629,
+      "learning_rate": 3.673435731641691e-05,
+      "loss": 0.4613,
+      "step": 234
+    },
+    {
+      "epoch": 0.07588141510766684,
+      "grad_norm": 0.43552708625793457,
+      "learning_rate": 3.567569173085454e-05,
+      "loss": 0.4177,
+      "step": 235
+    },
+    {
+      "epoch": 0.07620431474642288,
+      "grad_norm": 0.3718654215335846,
+      "learning_rate": 3.463044260975566e-05,
+      "loss": 0.4611,
+      "step": 236
+    },
+    {
+      "epoch": 0.07652721438517891,
+      "grad_norm": 0.41485676169395447,
+      "learning_rate": 3.3598732617739036e-05,
+      "loss": 0.5586,
+      "step": 237
+    },
+    {
+      "epoch": 0.07685011402393493,
+      "grad_norm": 0.37860673666000366,
+      "learning_rate": 3.258068283054666e-05,
+      "loss": 0.4256,
+      "step": 238
+    },
+    {
+      "epoch": 0.07717301366269097,
+      "grad_norm": 0.4362449645996094,
+      "learning_rate": 3.1576412720834746e-05,
+      "loss": 0.5763,
+      "step": 239
+    },
+    {
+      "epoch": 0.07749591330144699,
+      "grad_norm": 0.3914451003074646,
+      "learning_rate": 3.058604014415343e-05,
+      "loss": 0.4739,
+      "step": 240
+    },
+    {
+      "epoch": 0.07781881294020303,
+      "grad_norm": 0.3677349388599396,
+      "learning_rate": 2.960968132511567e-05,
+      "loss": 0.4716,
+      "step": 241
+    },
+    {
+      "epoch": 0.07814171257895905,
+      "grad_norm": 0.3888345956802368,
+      "learning_rate": 2.8647450843757897e-05,
+      "loss": 0.5218,
+      "step": 242
+    },
+    {
+      "epoch": 0.07846461221771509,
+      "grad_norm": 0.37700045108795166,
+      "learning_rate": 2.7699461622093304e-05,
+      "loss": 0.4978,
+      "step": 243
+    },
+    {
+      "epoch": 0.0787875118564711,
+      "grad_norm": 0.41537439823150635,
+      "learning_rate": 2.67658249108603e-05,
+      "loss": 0.4907,
+      "step": 244
+    },
+    {
+      "epoch": 0.07911041149522714,
+      "grad_norm": 0.40000054240226746,
+      "learning_rate": 2.584665027646643e-05,
+      "loss": 0.488,
+      "step": 245
+    },
+    {
+      "epoch": 0.07943331113398316,
+      "grad_norm": 0.395548552274704,
+      "learning_rate": 2.49420455881305e-05,
+      "loss": 0.4847,
+      "step": 246
+    },
+    {
+      "epoch": 0.0797562107727392,
+      "grad_norm": 0.4183206558227539,
+      "learning_rate": 2.4052117005223455e-05,
+      "loss": 0.5261,
+      "step": 247
+    },
+    {
+      "epoch": 0.08007911041149522,
+      "grad_norm": 0.37241002917289734,
+      "learning_rate": 2.317696896481024e-05,
+      "loss": 0.499,
+      "step": 248
+    },
+    {
+      "epoch": 0.08040201005025126,
+      "grad_norm": 0.4700750410556793,
+      "learning_rate": 2.231670416939364e-05,
+      "loss": 0.435,
+      "step": 249
+    },
+    {
+      "epoch": 0.08072490968900728,
+      "grad_norm": 0.47890686988830566,
+      "learning_rate": 2.147142357486164e-05,
+      "loss": 0.6928,
+      "step": 250
+    },
+    {
+      "epoch": 0.08072490968900728,
+      "eval_loss": 0.4805048406124115,
+      "eval_runtime": 93.118,
+      "eval_samples_per_second": 2.674,
+      "eval_steps_per_second": 2.674,
+      "step": 250
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.4707264776044544e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null