Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7a0416806242fe4fcf1cc5f48754af04c94cbc51204cc1490648085eca850118
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:50720302eddeaa190aaa861673d94e6c212b366753eccae7430f36351f0bfb96
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0a2a9aa460e17198377c91c7343119f036644266f606968b9c8f658447ffe9e1
 size 341314196

 version https://git-lfs.github.com/spec/v1
+oid sha256:24b6f329154a2c93ef867b98900d50cc9db5d746297db2025bd39ed954841a5c
 size 341314196

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:398739e87daa589f27d2d299aec698e2e30fe3f5a0e12fdf0c5be1ab9a400fd4
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:4f9d89b90d63b6b559a70193aa9b462a06b6ba3d227d5d0c8a18eb2b93f9a8fc
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0ddb9588ea654e56e83effcf81a2bc03480954babcf6415cb44d41d3bfb8039f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d8ce05761f46e7cf72fb17a02e3a0ca15c9d25ce3babf590eeb40568923b8bac
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.04322601482272148,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 1.3333333333333333,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 13.112,
       "eval_steps_per_second": 3.304,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.4296580574570086e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.004325200337916613,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 2.0,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 13.112,
       "eval_steps_per_second": 3.304,
       "step": 100
+    },
+    {
+      "epoch": 1.3466666666666667,
+      "grad_norm": 4.973781108856201,
+      "learning_rate": 5.330452921628497e-05,
+      "loss": 0.1892,
+      "step": 101
+    },
+    {
+      "epoch": 1.3599999999999999,
+      "grad_norm": 10.669159889221191,
+      "learning_rate": 5.247918773366112e-05,
+      "loss": 0.185,
+      "step": 102
+    },
+    {
+      "epoch": 1.3733333333333333,
+      "grad_norm": 4.0593390464782715,
+      "learning_rate": 5.165316846586541e-05,
+      "loss": 0.1722,
+      "step": 103
+    },
+    {
+      "epoch": 1.3866666666666667,
+      "grad_norm": 3.9478116035461426,
+      "learning_rate": 5.0826697238317935e-05,
+      "loss": 0.0804,
+      "step": 104
+    },
+    {
+      "epoch": 1.4,
+      "grad_norm": 12.696138381958008,
+      "learning_rate": 5e-05,
+      "loss": 0.2556,
+      "step": 105
+    },
+    {
+      "epoch": 1.4133333333333333,
+      "grad_norm": 3.372502326965332,
+      "learning_rate": 4.917330276168208e-05,
+      "loss": 0.1064,
+      "step": 106
+    },
+    {
+      "epoch": 1.4266666666666667,
+      "grad_norm": 9.539258003234863,
+      "learning_rate": 4.834683153413459e-05,
+      "loss": 0.119,
+      "step": 107
+    },
+    {
+      "epoch": 1.44,
+      "grad_norm": 2.4638707637786865,
+      "learning_rate": 4.7520812266338885e-05,
+      "loss": 0.0441,
+      "step": 108
+    },
+    {
+      "epoch": 1.4533333333333334,
+      "grad_norm": 8.411279678344727,
+      "learning_rate": 4.669547078371504e-05,
+      "loss": 0.3136,
+      "step": 109
+    },
+    {
+      "epoch": 1.4666666666666668,
+      "grad_norm": 2.2590298652648926,
+      "learning_rate": 4.5871032726383386e-05,
+      "loss": 0.1064,
+      "step": 110
+    },
+    {
+      "epoch": 1.48,
+      "grad_norm": 2.4205009937286377,
+      "learning_rate": 4.504772348747687e-05,
+      "loss": 0.0597,
+      "step": 111
+    },
+    {
+      "epoch": 1.4933333333333334,
+      "grad_norm": 4.619236946105957,
+      "learning_rate": 4.4225768151520694e-05,
+      "loss": 0.2368,
+      "step": 112
+    },
+    {
+      "epoch": 1.5066666666666668,
+      "grad_norm": 3.667818307876587,
+      "learning_rate": 4.3405391432896555e-05,
+      "loss": 0.1777,
+      "step": 113
+    },
+    {
+      "epoch": 1.52,
+      "grad_norm": 2.6507275104522705,
+      "learning_rate": 4.2586817614407895e-05,
+      "loss": 0.098,
+      "step": 114
+    },
+    {
+      "epoch": 1.5333333333333332,
+      "grad_norm": 6.714043140411377,
+      "learning_rate": 4.17702704859633e-05,
+      "loss": 0.1271,
+      "step": 115
+    },
+    {
+      "epoch": 1.5466666666666666,
+      "grad_norm": 3.4016287326812744,
+      "learning_rate": 4.095597328339452e-05,
+      "loss": 0.1648,
+      "step": 116
+    },
+    {
+      "epoch": 1.56,
+      "grad_norm": 3.2792365550994873,
+      "learning_rate": 4.0144148627425993e-05,
+      "loss": 0.0868,
+      "step": 117
+    },
+    {
+      "epoch": 1.5733333333333333,
+      "grad_norm": 2.558272361755371,
+      "learning_rate": 3.933501846281267e-05,
+      "loss": 0.066,
+      "step": 118
+    },
+    {
+      "epoch": 1.5866666666666667,
+      "grad_norm": 1.8633497953414917,
+      "learning_rate": 3.852880399766243e-05,
+      "loss": 0.0606,
+      "step": 119
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 4.817272663116455,
+      "learning_rate": 3.772572564296005e-05,
+      "loss": 0.1163,
+      "step": 120
+    },
+    {
+      "epoch": 1.6133333333333333,
+      "grad_norm": 1.7066318988800049,
+      "learning_rate": 3.6926002952309016e-05,
+      "loss": 0.0376,
+      "step": 121
+    },
+    {
+      "epoch": 1.6266666666666667,
+      "grad_norm": 62.322975158691406,
+      "learning_rate": 3.612985456190778e-05,
+      "loss": 0.1284,
+      "step": 122
+    },
+    {
+      "epoch": 1.6400000000000001,
+      "grad_norm": 1.8164634704589844,
+      "learning_rate": 3.533749813077677e-05,
+      "loss": 0.0299,
+      "step": 123
+    },
+    {
+      "epoch": 1.6533333333333333,
+      "grad_norm": 4.184752464294434,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 0.0258,
+      "step": 124
+    },
+    {
+      "epoch": 1.6666666666666665,
+      "grad_norm": 4.788540363311768,
+      "learning_rate": 3.3765026539765834e-05,
+      "loss": 0.041,
+      "step": 125
+    },
+    {
+      "epoch": 1.6800000000000002,
+      "grad_norm": 3.868875026702881,
+      "learning_rate": 3.298534127791785e-05,
+      "loss": 0.1127,
+      "step": 126
+    },
+    {
+      "epoch": 1.6933333333333334,
+      "grad_norm": 4.948379039764404,
+      "learning_rate": 3.221030765387417e-05,
+      "loss": 0.1151,
+      "step": 127
+    },
+    {
+      "epoch": 1.7066666666666666,
+      "grad_norm": 6.008472442626953,
+      "learning_rate": 3.144013755408895e-05,
+      "loss": 0.0948,
+      "step": 128
+    },
+    {
+      "epoch": 1.72,
+      "grad_norm": 5.2226033210754395,
+      "learning_rate": 3.0675041535377405e-05,
+      "loss": 0.0842,
+      "step": 129
+    },
+    {
+      "epoch": 1.7333333333333334,
+      "grad_norm": 3.3233368396759033,
+      "learning_rate": 2.991522876735154e-05,
+      "loss": 0.1126,
+      "step": 130
+    },
+    {
+      "epoch": 1.7466666666666666,
+      "grad_norm": 3.3976824283599854,
+      "learning_rate": 2.916090697523549e-05,
+      "loss": 0.1553,
+      "step": 131
+    },
+    {
+      "epoch": 1.76,
+      "grad_norm": 2.0290944576263428,
+      "learning_rate": 2.8412282383075363e-05,
+      "loss": 0.0559,
+      "step": 132
+    },
+    {
+      "epoch": 1.7733333333333334,
+      "grad_norm": 2.0413146018981934,
+      "learning_rate": 2.766955965735968e-05,
+      "loss": 0.0633,
+      "step": 133
+    },
+    {
+      "epoch": 1.7866666666666666,
+      "grad_norm": 4.638266086578369,
+      "learning_rate": 2.693294185106562e-05,
+      "loss": 0.068,
+      "step": 134
+    },
+    {
+      "epoch": 1.8,
+      "grad_norm": 3.9342634677886963,
+      "learning_rate": 2.6202630348146324e-05,
+      "loss": 0.0826,
+      "step": 135
+    },
+    {
+      "epoch": 1.8133333333333335,
+      "grad_norm": 1.4676851034164429,
+      "learning_rate": 2.547882480847461e-05,
+      "loss": 0.0489,
+      "step": 136
+    },
+    {
+      "epoch": 1.8266666666666667,
+      "grad_norm": 1.9415638446807861,
+      "learning_rate": 2.476172311325783e-05,
+      "loss": 0.0643,
+      "step": 137
+    },
+    {
+      "epoch": 1.8399999999999999,
+      "grad_norm": 2.260969877243042,
+      "learning_rate": 2.405152131093926e-05,
+      "loss": 0.0406,
+      "step": 138
+    },
+    {
+      "epoch": 1.8533333333333335,
+      "grad_norm": 0.2568335235118866,
+      "learning_rate": 2.3348413563600325e-05,
+      "loss": 0.0052,
+      "step": 139
+    },
+    {
+      "epoch": 1.8666666666666667,
+      "grad_norm": 1.0721421241760254,
+      "learning_rate": 2.2652592093878666e-05,
+      "loss": 0.008,
+      "step": 140
+    },
+    {
+      "epoch": 1.88,
+      "grad_norm": 7.019590377807617,
+      "learning_rate": 2.196424713241637e-05,
+      "loss": 0.08,
+      "step": 141
+    },
+    {
+      "epoch": 1.8933333333333333,
+      "grad_norm": 0.5075843334197998,
+      "learning_rate": 2.128356686585282e-05,
+      "loss": 0.0088,
+      "step": 142
+    },
+    {
+      "epoch": 1.9066666666666667,
+      "grad_norm": 1.6679000854492188,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 0.0071,
+      "step": 143
+    },
+    {
+      "epoch": 1.92,
+      "grad_norm": 0.8726446032524109,
+      "learning_rate": 1.9945942635848748e-05,
+      "loss": 0.0095,
+      "step": 144
+    },
+    {
+      "epoch": 1.9333333333333333,
+      "grad_norm": 4.830911636352539,
+      "learning_rate": 1.928936436551661e-05,
+      "loss": 0.0775,
+      "step": 145
+    },
+    {
+      "epoch": 1.9466666666666668,
+      "grad_norm": 1.4868309497833252,
+      "learning_rate": 1.8641182076323148e-05,
+      "loss": 0.0239,
+      "step": 146
+    },
+    {
+      "epoch": 1.96,
+      "grad_norm": 0.5674850940704346,
+      "learning_rate": 1.800157297483417e-05,
+      "loss": 0.0091,
+      "step": 147
+    },
+    {
+      "epoch": 1.9733333333333334,
+      "grad_norm": 1.390391230583191,
+      "learning_rate": 1.7370711923791567e-05,
+      "loss": 0.0363,
+      "step": 148
+    },
+    {
+      "epoch": 1.9866666666666668,
+      "grad_norm": 3.122633695602417,
+      "learning_rate": 1.6748771394307585e-05,
+      "loss": 0.0665,
+      "step": 149
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.1160033643245697,
+      "learning_rate": 1.6135921418712956e-05,
+      "loss": 0.0039,
+      "step": 150
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.004325200337916613,
+      "eval_runtime": 9.692,
+      "eval_samples_per_second": 13.104,
+      "eval_steps_per_second": 3.302,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.1438163051138253e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null