Training in progress, step 150, checkpoint

Browse files

Files changed (12) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b1e9350840587eb203432716b84bf38f0892199b78864473311d41ad9e304e04
 size 140815952

 version https://git-lfs.github.com/spec/v1
+oid sha256:824f09925e06dade0980b7b6f2673ad9313a1860d3955d0f6ec2c24b8d19dac8
 size 140815952

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3f8fef6ccb06ff3c24bb7a0686a8734b67b5f93291fcb3385ab55b27e3c096e4
 size 71878612

 version https://git-lfs.github.com/spec/v1
+oid sha256:0385716b1e421bc04c934b8f7557055a72735142692c3a1dba5e7471da2b24ea
 size 71878612

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a83b8c4488deb8cd397da2096d8a0daa40c8ecb31d14ce690fee69bab3faeb3f
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:254216cd1bfa077aac79ddf3aa991dd86be3d924b5693193fb57c269a3229fc5
 size 15984

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:438c47e09e1ad6945f15507fd53bac021b1f1a78602b0a94b2e541835c3eba00
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:98e93359c59ca311edbe89f16d5f0231bbab585603f1b0be35494b54b91a1828
 size 15984

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:89916923dbb9b79cee22798a2a03c6f663b43ba506ccad761f7801136c1713a7
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:4653009b10dd48c6a46766f75f0f4c3beaaf299dba0329a995450677bc18ca49
 size 15984

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:91d44a2d9c0d9e7d0fb61828c4526a2b0b47d002e00fca9f553c830082e53225
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:5415a05b9817c8d92f7f2ef1613eb04335e657362fb7e72f840691f4ab31dc13
 size 15984

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:48dfea6e4df90d66d1d45eb69f4399fe83524036c5ef42f89902d236419b6483
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:dfa835537978680c561926622f8191526b11e7115b2608526fb7b423c2761adb
 size 15984

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:efe5762349e9b46e27b422d2cc9cd7a3d3f39fa7cd45dc918677cc202d1e0c26
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:1d99df497585478105a47995bca143a42ccb608ae08ea70b6fa51f3ac15d28c3
 size 15984

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8b5bcced87ebe766f4445d1c89030bd9f26b7866183b87f288b52eabfbf6b1b6
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:975a341ff81520c4a9e0bf9eb1d42a63cc63f204e2529f8679b8c5258e9f3765
 size 15984

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:73eace61c3943c39badd29a3257047b16266bd145243edbcfb32202a868ef070
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:168986a5fc9ca577afbaa24ced94bae1c6aeb7a2e5577615a8f9fb71b2478a65
 size 15984

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:49be4161dc02d935809d37b98d9b10201fb1865fd2dcf2549c1f46447b26bb3a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4a1d4966bbb3ac4136a17b84f52768cf52a77159d3c183b2a8af35a019ee542b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 2.160346269607544,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.03457216940363008,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 302.956,
       "eval_steps_per_second": 9.468,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.343151930939802e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 2.138585329055786,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.05185825410544512,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 302.956,
       "eval_steps_per_second": 9.468,
       "step": 100
+    },
+    {
+      "epoch": 0.03491789109766638,
+      "grad_norm": 0.2299177050590515,
+      "learning_rate": 5.4370619800610666e-05,
+      "loss": 1.318,
+      "step": 101
+    },
+    {
+      "epoch": 0.03526361279170268,
+      "grad_norm": 0.3703376352787018,
+      "learning_rate": 5.352877148833434e-05,
+      "loss": 1.7293,
+      "step": 102
+    },
+    {
+      "epoch": 0.03560933448573898,
+      "grad_norm": 0.5616604685783386,
+      "learning_rate": 5.2686231835182714e-05,
+      "loss": 2.084,
+      "step": 103
+    },
+    {
+      "epoch": 0.035955056179775284,
+      "grad_norm": 0.6388251781463623,
+      "learning_rate": 5.184323118308429e-05,
+      "loss": 2.2635,
+      "step": 104
+    },
+    {
+      "epoch": 0.036300777873811585,
+      "grad_norm": 0.859301745891571,
+      "learning_rate": 5.1e-05,
+      "loss": 2.3282,
+      "step": 105
+    },
+    {
+      "epoch": 0.036646499567847886,
+      "grad_norm": 2.1892261505126953,
+      "learning_rate": 5.0156768816915715e-05,
+      "loss": 2.7334,
+      "step": 106
+    },
+    {
+      "epoch": 0.03699222126188419,
+      "grad_norm": 0.24318625032901764,
+      "learning_rate": 4.931376816481728e-05,
+      "loss": 1.3745,
+      "step": 107
+    },
+    {
+      "epoch": 0.03733794295592048,
+      "grad_norm": 0.3018660247325897,
+      "learning_rate": 4.8471228511665655e-05,
+      "loss": 1.4975,
+      "step": 108
+    },
+    {
+      "epoch": 0.03768366464995678,
+      "grad_norm": 0.42744195461273193,
+      "learning_rate": 4.7629380199389334e-05,
+      "loss": 2.0573,
+      "step": 109
+    },
+    {
+      "epoch": 0.03802938634399308,
+      "grad_norm": 0.5142998099327087,
+      "learning_rate": 4.6788453380911054e-05,
+      "loss": 2.2087,
+      "step": 110
+    },
+    {
+      "epoch": 0.03837510803802938,
+      "grad_norm": 0.7566731572151184,
+      "learning_rate": 4.5948677957226404e-05,
+      "loss": 2.3133,
+      "step": 111
+    },
+    {
+      "epoch": 0.038720829732065684,
+      "grad_norm": 1.5625238418579102,
+      "learning_rate": 4.511028351455111e-05,
+      "loss": 2.5176,
+      "step": 112
+    },
+    {
+      "epoch": 0.039066551426101985,
+      "grad_norm": 0.27059802412986755,
+      "learning_rate": 4.427349926155448e-05,
+      "loss": 1.447,
+      "step": 113
+    },
+    {
+      "epoch": 0.039412273120138286,
+      "grad_norm": 0.2744463086128235,
+      "learning_rate": 4.3438553966696056e-05,
+      "loss": 1.4258,
+      "step": 114
+    },
+    {
+      "epoch": 0.03975799481417459,
+      "grad_norm": 0.373234361410141,
+      "learning_rate": 4.260567589568256e-05,
+      "loss": 1.9323,
+      "step": 115
+    },
+    {
+      "epoch": 0.04010371650821089,
+      "grad_norm": 0.4722805917263031,
+      "learning_rate": 4.177509274906241e-05,
+      "loss": 2.1376,
+      "step": 116
+    },
+    {
+      "epoch": 0.04044943820224719,
+      "grad_norm": 0.6444010734558105,
+      "learning_rate": 4.094703159997451e-05,
+      "loss": 2.2428,
+      "step": 117
+    },
+    {
+      "epoch": 0.04079515989628349,
+      "grad_norm": 1.2310961484909058,
+      "learning_rate": 4.012171883206892e-05,
+      "loss": 2.5802,
+      "step": 118
+    },
+    {
+      "epoch": 0.04114088159031979,
+      "grad_norm": 0.37185004353523254,
+      "learning_rate": 3.929938007761567e-05,
+      "loss": 1.5409,
+      "step": 119
+    },
+    {
+      "epoch": 0.04148660328435609,
+      "grad_norm": 0.2401726394891739,
+      "learning_rate": 3.8480240155819247e-05,
+      "loss": 1.3984,
+      "step": 120
+    },
+    {
+      "epoch": 0.04183232497839239,
+      "grad_norm": 0.3750150501728058,
+      "learning_rate": 3.766452301135519e-05,
+      "loss": 1.8374,
+      "step": 121
+    },
+    {
+      "epoch": 0.04217804667242869,
+      "grad_norm": 0.4811207354068756,
+      "learning_rate": 3.685245165314594e-05,
+      "loss": 2.0736,
+      "step": 122
+    },
+    {
+      "epoch": 0.042523768366464994,
+      "grad_norm": 0.5793203115463257,
+      "learning_rate": 3.60442480933923e-05,
+      "loss": 2.2211,
+      "step": 123
+    },
+    {
+      "epoch": 0.042869490060501295,
+      "grad_norm": 0.9860462546348572,
+      "learning_rate": 3.5240133286877684e-05,
+      "loss": 2.3716,
+      "step": 124
+    },
+    {
+      "epoch": 0.043215211754537596,
+      "grad_norm": 4.702469825744629,
+      "learning_rate": 3.444032707056115e-05,
+      "loss": 3.0878,
+      "step": 125
+    },
+    {
+      "epoch": 0.043560933448573896,
+      "grad_norm": 0.2194783091545105,
+      "learning_rate": 3.36450481034762e-05,
+      "loss": 1.426,
+      "step": 126
+    },
+    {
+      "epoch": 0.0439066551426102,
+      "grad_norm": 0.3231513202190399,
+      "learning_rate": 3.285451380695165e-05,
+      "loss": 1.683,
+      "step": 127
+    },
+    {
+      "epoch": 0.0442523768366465,
+      "grad_norm": 0.4826495051383972,
+      "learning_rate": 3.2068940305170734e-05,
+      "loss": 2.0538,
+      "step": 128
+    },
+    {
+      "epoch": 0.0445980985306828,
+      "grad_norm": 0.6153631806373596,
+      "learning_rate": 3.128854236608495e-05,
+      "loss": 2.2823,
+      "step": 129
+    },
+    {
+      "epoch": 0.0449438202247191,
+      "grad_norm": 0.8221266269683838,
+      "learning_rate": 3.051353334269857e-05,
+      "loss": 2.3001,
+      "step": 130
+    },
+    {
+      "epoch": 0.0452895419187554,
+      "grad_norm": 2.2605419158935547,
+      "learning_rate": 2.9744125114740198e-05,
+      "loss": 2.8268,
+      "step": 131
+    },
+    {
+      "epoch": 0.0456352636127917,
+      "grad_norm": 0.25618210434913635,
+      "learning_rate": 2.898052803073687e-05,
+      "loss": 1.4537,
+      "step": 132
+    },
+    {
+      "epoch": 0.045980985306828,
+      "grad_norm": 0.3234250545501709,
+      "learning_rate": 2.822295085050687e-05,
+      "loss": 1.6086,
+      "step": 133
+    },
+    {
+      "epoch": 0.0463267070008643,
+      "grad_norm": 0.472940057516098,
+      "learning_rate": 2.747160068808693e-05,
+      "loss": 2.1081,
+      "step": 134
+    },
+    {
+      "epoch": 0.046672428694900604,
+      "grad_norm": 0.5351232290267944,
+      "learning_rate": 2.672668295510925e-05,
+      "loss": 2.1168,
+      "step": 135
+    },
+    {
+      "epoch": 0.047018150388936905,
+      "grad_norm": 0.6955279111862183,
+      "learning_rate": 2.5988401304644103e-05,
+      "loss": 2.2151,
+      "step": 136
+    },
+    {
+      "epoch": 0.047363872082973206,
+      "grad_norm": 1.3634015321731567,
+      "learning_rate": 2.5256957575522985e-05,
+      "loss": 2.5617,
+      "step": 137
+    },
+    {
+      "epoch": 0.04770959377700951,
+      "grad_norm": 0.2829039990901947,
+      "learning_rate": 2.453255173715804e-05,
+      "loss": 1.3504,
+      "step": 138
+    },
+    {
+      "epoch": 0.04805531547104581,
+      "grad_norm": 0.2663942277431488,
+      "learning_rate": 2.381538183487233e-05,
+      "loss": 1.4263,
+      "step": 139
+    },
+    {
+      "epoch": 0.04840103716508211,
+      "grad_norm": 0.3799867331981659,
+      "learning_rate": 2.310564393575624e-05,
+      "loss": 2.0021,
+      "step": 140
+    },
+    {
+      "epoch": 0.04874675885911841,
+      "grad_norm": 0.4954136908054352,
+      "learning_rate": 2.2403532075064698e-05,
+      "loss": 2.2683,
+      "step": 141
+    },
+    {
+      "epoch": 0.04909248055315471,
+      "grad_norm": 0.6524636149406433,
+      "learning_rate": 2.1709238203169878e-05,
+      "loss": 2.2982,
+      "step": 142
+    },
+    {
+      "epoch": 0.04943820224719101,
+      "grad_norm": 1.1989296674728394,
+      "learning_rate": 2.1022952133083876e-05,
+      "loss": 2.5617,
+      "step": 143
+    },
+    {
+      "epoch": 0.04978392394122731,
+      "grad_norm": 0.36062389612197876,
+      "learning_rate": 2.034486148856572e-05,
+      "loss": 1.3403,
+      "step": 144
+    },
+    {
+      "epoch": 0.05012964563526361,
+      "grad_norm": 0.2494451403617859,
+      "learning_rate": 1.967515165282694e-05,
+      "loss": 1.3838,
+      "step": 145
+    },
+    {
+      "epoch": 0.050475367329299914,
+      "grad_norm": 0.35722383856773376,
+      "learning_rate": 1.9014005717849613e-05,
+      "loss": 1.8768,
+      "step": 146
+    },
+    {
+      "epoch": 0.050821089023336215,
+      "grad_norm": 0.4523886740207672,
+      "learning_rate": 1.836160443433085e-05,
+      "loss": 2.1016,
+      "step": 147
+    },
+    {
+      "epoch": 0.051166810717372516,
+      "grad_norm": 0.5969461798667908,
+      "learning_rate": 1.7718126162267396e-05,
+      "loss": 2.223,
+      "step": 148
+    },
+    {
+      "epoch": 0.051512532411408817,
+      "grad_norm": 0.998309850692749,
+      "learning_rate": 1.7083746822193733e-05,
+      "loss": 2.3714,
+      "step": 149
+    },
+    {
+      "epoch": 0.05185825410544512,
+      "grad_norm": 3.694688558578491,
+      "learning_rate": 1.6458639847087217e-05,
+      "loss": 2.797,
+      "step": 150
+    },
+    {
+      "epoch": 0.05185825410544512,
+      "eval_loss": 2.138585329055786,
+      "eval_runtime": 129.102,
+      "eval_samples_per_second": 301.878,
+      "eval_steps_per_second": 9.434,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 9.515693955350528e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null