Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:257cb11372104ab3a4f7143cdd11742e13d6032c76c8c0cb4bc2305491b00a1f
 size 478211024

 version https://git-lfs.github.com/spec/v1
+oid sha256:fc8341e80ac0fbf04fba66a8809799ed495ede75dd96e70cd911ecf3ccc335db
 size 478211024

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:73b4be48a5b763176c82afa2e19eaf3bb6a5fe747e318a56d6fb2848725243f8
 size 243337876

 version https://git-lfs.github.com/spec/v1
+oid sha256:bddf571e0cbbf6e8dd7f38cf11cad62e9a17711bb37d860a4709c7d88191f42e
 size 243337876

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:69b1f823f95840d7f9c41d08ca399a2909b411989d5e3b4c217a276b432afc45
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:f559f96aa4718e0775b1ba1413fbbe63a38407dc074a3ed16103f8050cf87636
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4fe6f0a2f7a14e66c6816df9a38574183cedfa2cc544d1c8e8e8cea1139c2f76
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ef91cf09f7b6a58a39bbfe1ef78ac2fa91c0c15ca1705097a187d272d0433d8d
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.444609671831131,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.0025672293177588087,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 13.894,
       "eval_steps_per_second": 3.474,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.897919540939981e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.41922199726104736,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.003850843976638213,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 13.894,
       "eval_steps_per_second": 3.474,
       "step": 100
+    },
+    {
+      "epoch": 0.002592901610936397,
+      "grad_norm": 1.0906559228897095,
+      "learning_rate": 5.24178947368421e-05,
+      "loss": 1.5745,
+      "step": 101
+    },
+    {
+      "epoch": 0.002618573904113985,
+      "grad_norm": 1.057900071144104,
+      "learning_rate": 5.1888421052631585e-05,
+      "loss": 1.359,
+      "step": 102
+    },
+    {
+      "epoch": 0.002644246197291573,
+      "grad_norm": 1.1936546564102173,
+      "learning_rate": 5.135894736842106e-05,
+      "loss": 1.8506,
+      "step": 103
+    },
+    {
+      "epoch": 0.0026699184904691612,
+      "grad_norm": 1.1742337942123413,
+      "learning_rate": 5.082947368421053e-05,
+      "loss": 1.4235,
+      "step": 104
+    },
+    {
+      "epoch": 0.0026955907836467494,
+      "grad_norm": 1.4636642932891846,
+      "learning_rate": 5.03e-05,
+      "loss": 1.9341,
+      "step": 105
+    },
+    {
+      "epoch": 0.0027212630768243375,
+      "grad_norm": 1.366550087928772,
+      "learning_rate": 4.977052631578947e-05,
+      "loss": 1.7735,
+      "step": 106
+    },
+    {
+      "epoch": 0.0027469353700019256,
+      "grad_norm": 1.4252630472183228,
+      "learning_rate": 4.924105263157895e-05,
+      "loss": 1.8694,
+      "step": 107
+    },
+    {
+      "epoch": 0.0027726076631795133,
+      "grad_norm": 1.5163335800170898,
+      "learning_rate": 4.871157894736843e-05,
+      "loss": 1.8035,
+      "step": 108
+    },
+    {
+      "epoch": 0.0027982799563571015,
+      "grad_norm": 1.6696662902832031,
+      "learning_rate": 4.81821052631579e-05,
+      "loss": 2.4422,
+      "step": 109
+    },
+    {
+      "epoch": 0.0028239522495346896,
+      "grad_norm": 1.823583960533142,
+      "learning_rate": 4.765263157894737e-05,
+      "loss": 2.0223,
+      "step": 110
+    },
+    {
+      "epoch": 0.0028496245427122777,
+      "grad_norm": 1.7153486013412476,
+      "learning_rate": 4.7123157894736845e-05,
+      "loss": 2.3425,
+      "step": 111
+    },
+    {
+      "epoch": 0.002875296835889866,
+      "grad_norm": 1.597476601600647,
+      "learning_rate": 4.6593684210526316e-05,
+      "loss": 1.9461,
+      "step": 112
+    },
+    {
+      "epoch": 0.002900969129067454,
+      "grad_norm": 1.6382873058319092,
+      "learning_rate": 4.606421052631579e-05,
+      "loss": 1.7633,
+      "step": 113
+    },
+    {
+      "epoch": 0.002926641422245042,
+      "grad_norm": 1.7374053001403809,
+      "learning_rate": 4.553473684210527e-05,
+      "loss": 2.0122,
+      "step": 114
+    },
+    {
+      "epoch": 0.0029523137154226302,
+      "grad_norm": 1.976195216178894,
+      "learning_rate": 4.500526315789474e-05,
+      "loss": 2.218,
+      "step": 115
+    },
+    {
+      "epoch": 0.0029779860086002184,
+      "grad_norm": 2.0346622467041016,
+      "learning_rate": 4.447578947368421e-05,
+      "loss": 2.3013,
+      "step": 116
+    },
+    {
+      "epoch": 0.0030036583017778065,
+      "grad_norm": 1.756709337234497,
+      "learning_rate": 4.394631578947369e-05,
+      "loss": 1.9596,
+      "step": 117
+    },
+    {
+      "epoch": 0.003029330594955394,
+      "grad_norm": 1.9882556200027466,
+      "learning_rate": 4.341684210526316e-05,
+      "loss": 2.2595,
+      "step": 118
+    },
+    {
+      "epoch": 0.0030550028881329823,
+      "grad_norm": 2.60469388961792,
+      "learning_rate": 4.2887368421052636e-05,
+      "loss": 1.5153,
+      "step": 119
+    },
+    {
+      "epoch": 0.0030806751813105705,
+      "grad_norm": 0.9778649806976318,
+      "learning_rate": 4.2357894736842106e-05,
+      "loss": 0.0113,
+      "step": 120
+    },
+    {
+      "epoch": 0.0031063474744881586,
+      "grad_norm": 0.011567816138267517,
+      "learning_rate": 4.182842105263158e-05,
+      "loss": 0.0004,
+      "step": 121
+    },
+    {
+      "epoch": 0.0031320197676657467,
+      "grad_norm": 0.010046404786407948,
+      "learning_rate": 4.1298947368421053e-05,
+      "loss": 0.0004,
+      "step": 122
+    },
+    {
+      "epoch": 0.003157692060843335,
+      "grad_norm": 0.009395002387464046,
+      "learning_rate": 4.0769473684210524e-05,
+      "loss": 0.0003,
+      "step": 123
+    },
+    {
+      "epoch": 0.003183364354020923,
+      "grad_norm": 0.008893662132322788,
+      "learning_rate": 4.024000000000001e-05,
+      "loss": 0.0003,
+      "step": 124
+    },
+    {
+      "epoch": 0.003209036647198511,
+      "grad_norm": 0.008500020019710064,
+      "learning_rate": 3.971052631578948e-05,
+      "loss": 0.0003,
+      "step": 125
+    },
+    {
+      "epoch": 0.0032347089403760992,
+      "grad_norm": 0.0076544624753296375,
+      "learning_rate": 3.918105263157895e-05,
+      "loss": 0.0003,
+      "step": 126
+    },
+    {
+      "epoch": 0.0032603812335536874,
+      "grad_norm": 0.007298609241843224,
+      "learning_rate": 3.865157894736842e-05,
+      "loss": 0.0003,
+      "step": 127
+    },
+    {
+      "epoch": 0.003286053526731275,
+      "grad_norm": 0.006563248578459024,
+      "learning_rate": 3.8122105263157896e-05,
+      "loss": 0.0002,
+      "step": 128
+    },
+    {
+      "epoch": 0.003311725819908863,
+      "grad_norm": 0.006430802401155233,
+      "learning_rate": 3.759263157894737e-05,
+      "loss": 0.0002,
+      "step": 129
+    },
+    {
+      "epoch": 0.0033373981130864513,
+      "grad_norm": 0.006386774126440287,
+      "learning_rate": 3.7063157894736844e-05,
+      "loss": 0.0002,
+      "step": 130
+    },
+    {
+      "epoch": 0.0033630704062640395,
+      "grad_norm": 0.6408913731575012,
+      "learning_rate": 3.653368421052632e-05,
+      "loss": 0.0931,
+      "step": 131
+    },
+    {
+      "epoch": 0.0033887426994416276,
+      "grad_norm": 0.005842825397849083,
+      "learning_rate": 3.600421052631579e-05,
+      "loss": 0.0002,
+      "step": 132
+    },
+    {
+      "epoch": 0.0034144149926192157,
+      "grad_norm": 0.005725574214011431,
+      "learning_rate": 3.547473684210526e-05,
+      "loss": 0.0002,
+      "step": 133
+    },
+    {
+      "epoch": 0.003440087285796804,
+      "grad_norm": 0.006068081129342318,
+      "learning_rate": 3.494526315789474e-05,
+      "loss": 0.0002,
+      "step": 134
+    },
+    {
+      "epoch": 0.003465759578974392,
+      "grad_norm": 0.00514700124040246,
+      "learning_rate": 3.4415789473684216e-05,
+      "loss": 0.0002,
+      "step": 135
+    },
+    {
+      "epoch": 0.00349143187215198,
+      "grad_norm": 0.005522563587874174,
+      "learning_rate": 3.3886315789473686e-05,
+      "loss": 0.0002,
+      "step": 136
+    },
+    {
+      "epoch": 0.0035171041653295682,
+      "grad_norm": 0.0057330005802214146,
+      "learning_rate": 3.3356842105263156e-05,
+      "loss": 0.0002,
+      "step": 137
+    },
+    {
+      "epoch": 0.003542776458507156,
+      "grad_norm": 0.0057954080402851105,
+      "learning_rate": 3.2827368421052634e-05,
+      "loss": 0.0002,
+      "step": 138
+    },
+    {
+      "epoch": 0.003568448751684744,
+      "grad_norm": 0.005006751511245966,
+      "learning_rate": 3.2297894736842104e-05,
+      "loss": 0.0002,
+      "step": 139
+    },
+    {
+      "epoch": 0.003594121044862332,
+      "grad_norm": 0.005032096989452839,
+      "learning_rate": 3.176842105263158e-05,
+      "loss": 0.0002,
+      "step": 140
+    },
+    {
+      "epoch": 0.0036197933380399203,
+      "grad_norm": 0.004935144912451506,
+      "learning_rate": 3.123894736842106e-05,
+      "loss": 0.0002,
+      "step": 141
+    },
+    {
+      "epoch": 0.0036454656312175085,
+      "grad_norm": 0.00508884247392416,
+      "learning_rate": 3.070947368421053e-05,
+      "loss": 0.0002,
+      "step": 142
+    },
+    {
+      "epoch": 0.0036711379243950966,
+      "grad_norm": 0.004769055638462305,
+      "learning_rate": 3.018e-05,
+      "loss": 0.0002,
+      "step": 143
+    },
+    {
+      "epoch": 0.0036968102175726847,
+      "grad_norm": 0.004287198651582003,
+      "learning_rate": 2.9650526315789473e-05,
+      "loss": 0.0002,
+      "step": 144
+    },
+    {
+      "epoch": 0.003722482510750273,
+      "grad_norm": 0.004471136257052422,
+      "learning_rate": 2.912105263157895e-05,
+      "loss": 0.0002,
+      "step": 145
+    },
+    {
+      "epoch": 0.003748154803927861,
+      "grad_norm": 0.004509101156145334,
+      "learning_rate": 2.8591578947368424e-05,
+      "loss": 0.0002,
+      "step": 146
+    },
+    {
+      "epoch": 0.003773827097105449,
+      "grad_norm": 0.005288159940391779,
+      "learning_rate": 2.8062105263157894e-05,
+      "loss": 0.0002,
+      "step": 147
+    },
+    {
+      "epoch": 0.0037994993902830372,
+      "grad_norm": 1.4431769847869873,
+      "learning_rate": 2.753263157894737e-05,
+      "loss": 0.4431,
+      "step": 148
+    },
+    {
+      "epoch": 0.003825171683460625,
+      "grad_norm": 2.757993459701538,
+      "learning_rate": 2.7003157894736845e-05,
+      "loss": 1.9569,
+      "step": 149
+    },
+    {
+      "epoch": 0.003850843976638213,
+      "grad_norm": 6.777806758880615,
+      "learning_rate": 2.6473684210526315e-05,
+      "loss": 2.2696,
+      "step": 150
+    },
+    {
+      "epoch": 0.003850843976638213,
+      "eval_loss": 0.41922199726104736,
+      "eval_runtime": 1184.8981,
+      "eval_samples_per_second": 13.843,
+      "eval_steps_per_second": 3.461,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.842158118522061e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null