Training in progress, step 100, checkpoint

Browse files

Files changed (12) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4d14f6b7d6fc379a1cfbcdceccce5fe481c82a2d64823f2ad8d522c8085ed080
 size 140815952

 version https://git-lfs.github.com/spec/v1
+oid sha256:b1e9350840587eb203432716b84bf38f0892199b78864473311d41ad9e304e04
 size 140815952

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:03279e24eee120d322b37371fe14bcca4044e7a53a17cd70fed8fbe994f7b01e
 size 71878612

 version https://git-lfs.github.com/spec/v1
+oid sha256:3f8fef6ccb06ff3c24bb7a0686a8734b67b5f93291fcb3385ab55b27e3c096e4
 size 71878612

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7a3101ac85564bff1b2b7c818b4905c07e07a4a258534521c03ed75a3de25ea8
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:a83b8c4488deb8cd397da2096d8a0daa40c8ecb31d14ce690fee69bab3faeb3f
 size 15984

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:014034190c36a1977531d22890e64041b4f8161a56b231d52888929e0d4c3562
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:438c47e09e1ad6945f15507fd53bac021b1f1a78602b0a94b2e541835c3eba00
 size 15984

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cda01a438ac2af8bec29fddc6d566ac14b20ea424e8b0254422dd0bf495e1be0
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:89916923dbb9b79cee22798a2a03c6f663b43ba506ccad761f7801136c1713a7
 size 15984

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:47ef77614040cae4a73a1af83358243332240ed211418244cc4f031e225e5735
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:91d44a2d9c0d9e7d0fb61828c4526a2b0b47d002e00fca9f553c830082e53225
 size 15984

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3144742f8273d77664761e4494677ce8e1641352856b3299e30a3cfd58d06d59
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:48dfea6e4df90d66d1d45eb69f4399fe83524036c5ef42f89902d236419b6483
 size 15984

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:293cef724dcc13ee841d592a93c81b2230662287769b733ccfac9b9241c9818c
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:efe5762349e9b46e27b422d2cc9cd7a3d3f39fa7cd45dc918677cc202d1e0c26
 size 15984

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:641fd8947f2d691ccfb88e1effc533a5b0694cdb2c2494008890bda998fa842d
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:8b5bcced87ebe766f4445d1c89030bd9f26b7866183b87f288b52eabfbf6b1b6
 size 15984

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1a1267f2ff9b78e3e231b03af6e0dc76cc36780e151e4558ef09aca524cf140e
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:73eace61c3943c39badd29a3257047b16266bd145243edbcfb32202a868ef070
 size 15984

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5486f6f0bd9b5f99cf1f545905ed7c80b7b87a6167d7a58ae5063f0a3ede9932
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:49be4161dc02d935809d37b98d9b10201fb1865fd2dcf2549c1f46447b26bb3a
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 2.218632221221924,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.01728608470181504,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,364 @@
       "eval_samples_per_second": 300.936,
       "eval_steps_per_second": 9.405,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -401,7 +759,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.170609906529075e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 2.160346269607544,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.03457216940363008,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 300.936,
       "eval_steps_per_second": 9.405,
       "step": 50
+    },
+    {
+      "epoch": 0.01763180639585134,
+      "grad_norm": 0.2509137690067291,
+      "learning_rate": 9.072274121686774e-05,
+      "loss": 1.5414,
+      "step": 51
+    },
+    {
+      "epoch": 0.017977528089887642,
+      "grad_norm": 0.3450666666030884,
+      "learning_rate": 9.018845665369981e-05,
+      "loss": 1.774,
+      "step": 52
+    },
+    {
+      "epoch": 0.018323249783923943,
+      "grad_norm": 0.4648744761943817,
+      "learning_rate": 8.964345835777708e-05,
+      "loss": 2.1936,
+      "step": 53
+    },
+    {
+      "epoch": 0.01866897147796024,
+      "grad_norm": 0.5798072814941406,
+      "learning_rate": 8.908789532619184e-05,
+      "loss": 2.234,
+      "step": 54
+    },
+    {
+      "epoch": 0.01901469317199654,
+      "grad_norm": 1.0028549432754517,
+      "learning_rate": 8.852191944432972e-05,
+      "loss": 2.4077,
+      "step": 55
+    },
+    {
+      "epoch": 0.019360414866032842,
+      "grad_norm": 2.3588905334472656,
+      "learning_rate": 8.794568544434554e-05,
+      "loss": 2.9156,
+      "step": 56
+    },
+    {
+      "epoch": 0.019706136560069143,
+      "grad_norm": 0.25343000888824463,
+      "learning_rate": 8.735935086286125e-05,
+      "loss": 1.4416,
+      "step": 57
+    },
+    {
+      "epoch": 0.020051858254105444,
+      "grad_norm": 0.31482967734336853,
+      "learning_rate": 8.676307599789691e-05,
+      "loss": 1.5801,
+      "step": 58
+    },
+    {
+      "epoch": 0.020397579948141745,
+      "grad_norm": 0.42223572731018066,
+      "learning_rate": 8.615702386504686e-05,
+      "loss": 2.0174,
+      "step": 59
+    },
+    {
+      "epoch": 0.020743301642178046,
+      "grad_norm": 0.5405539274215698,
+      "learning_rate": 8.55413601529128e-05,
+      "loss": 2.2761,
+      "step": 60
+    },
+    {
+      "epoch": 0.021089023336214346,
+      "grad_norm": 0.7306252717971802,
+      "learning_rate": 8.491625317780626e-05,
+      "loss": 2.3521,
+      "step": 61
+    },
+    {
+      "epoch": 0.021434745030250647,
+      "grad_norm": 1.5089623928070068,
+      "learning_rate": 8.42818738377326e-05,
+      "loss": 2.539,
+      "step": 62
+    },
+    {
+      "epoch": 0.021780466724286948,
+      "grad_norm": 0.2931751608848572,
+      "learning_rate": 8.363839556566914e-05,
+      "loss": 1.5078,
+      "step": 63
+    },
+    {
+      "epoch": 0.02212618841832325,
+      "grad_norm": 0.2897321879863739,
+      "learning_rate": 8.298599428215039e-05,
+      "loss": 1.5167,
+      "step": 64
+    },
+    {
+      "epoch": 0.02247191011235955,
+      "grad_norm": 0.40968650579452515,
+      "learning_rate": 8.232484834717306e-05,
+      "loss": 1.9238,
+      "step": 65
+    },
+    {
+      "epoch": 0.02281763180639585,
+      "grad_norm": 0.5306880474090576,
+      "learning_rate": 8.165513851143427e-05,
+      "loss": 2.2291,
+      "step": 66
+    },
+    {
+      "epoch": 0.02316335350043215,
+      "grad_norm": 0.6686903238296509,
+      "learning_rate": 8.097704786691613e-05,
+      "loss": 2.2988,
+      "step": 67
+    },
+    {
+      "epoch": 0.023509075194468453,
+      "grad_norm": 1.1322516202926636,
+      "learning_rate": 8.029076179683012e-05,
+      "loss": 2.5347,
+      "step": 68
+    },
+    {
+      "epoch": 0.023854796888504753,
+      "grad_norm": 0.40775635838508606,
+      "learning_rate": 7.959646792493532e-05,
+      "loss": 1.4244,
+      "step": 69
+    },
+    {
+      "epoch": 0.024200518582541054,
+      "grad_norm": 0.2850429117679596,
+      "learning_rate": 7.889435606424378e-05,
+      "loss": 1.4512,
+      "step": 70
+    },
+    {
+      "epoch": 0.024546240276577355,
+      "grad_norm": 0.36548280715942383,
+      "learning_rate": 7.818461816512768e-05,
+      "loss": 1.8997,
+      "step": 71
+    },
+    {
+      "epoch": 0.024891961970613656,
+      "grad_norm": 0.4766691029071808,
+      "learning_rate": 7.746744826284197e-05,
+      "loss": 2.1727,
+      "step": 72
+    },
+    {
+      "epoch": 0.025237683664649957,
+      "grad_norm": 0.5860204696655273,
+      "learning_rate": 7.674304242447704e-05,
+      "loss": 2.2819,
+      "step": 73
+    },
+    {
+      "epoch": 0.025583405358686258,
+      "grad_norm": 1.0182549953460693,
+      "learning_rate": 7.601159869535592e-05,
+      "loss": 2.4377,
+      "step": 74
+    },
+    {
+      "epoch": 0.02592912705272256,
+      "grad_norm": 5.897623538970947,
+      "learning_rate": 7.527331704489076e-05,
+      "loss": 3.1797,
+      "step": 75
+    },
+    {
+      "epoch": 0.02627484874675886,
+      "grad_norm": 0.2246050238609314,
+      "learning_rate": 7.452839931191309e-05,
+      "loss": 1.3513,
+      "step": 76
+    },
+    {
+      "epoch": 0.02662057044079516,
+      "grad_norm": 0.34211429953575134,
+      "learning_rate": 7.377704914949315e-05,
+      "loss": 1.762,
+      "step": 77
+    },
+    {
+      "epoch": 0.02696629213483146,
+      "grad_norm": 0.5339072346687317,
+      "learning_rate": 7.301947196926314e-05,
+      "loss": 2.0723,
+      "step": 78
+    },
+    {
+      "epoch": 0.027312013828867762,
+      "grad_norm": 0.6479209065437317,
+      "learning_rate": 7.225587488525981e-05,
+      "loss": 2.3059,
+      "step": 79
+    },
+    {
+      "epoch": 0.027657735522904063,
+      "grad_norm": 0.9472398161888123,
+      "learning_rate": 7.148646665730145e-05,
+      "loss": 2.3957,
+      "step": 80
+    },
+    {
+      "epoch": 0.028003457216940364,
+      "grad_norm": 2.125983238220215,
+      "learning_rate": 7.071145763391506e-05,
+      "loss": 2.7949,
+      "step": 81
+    },
+    {
+      "epoch": 0.028349178910976665,
+      "grad_norm": 0.2520841658115387,
+      "learning_rate": 6.993105969482926e-05,
+      "loss": 1.4372,
+      "step": 82
+    },
+    {
+      "epoch": 0.028694900605012966,
+      "grad_norm": 0.30885252356529236,
+      "learning_rate": 6.914548619304835e-05,
+      "loss": 1.5828,
+      "step": 83
+    },
+    {
+      "epoch": 0.029040622299049267,
+      "grad_norm": 0.4247997999191284,
+      "learning_rate": 6.835495189652379e-05,
+      "loss": 2.0798,
+      "step": 84
+    },
+    {
+      "epoch": 0.029386343993085567,
+      "grad_norm": 0.5426101088523865,
+      "learning_rate": 6.755967292943886e-05,
+      "loss": 2.2466,
+      "step": 85
+    },
+    {
+      "epoch": 0.02973206568712187,
+      "grad_norm": 0.7472833395004272,
+      "learning_rate": 6.675986671312232e-05,
+      "loss": 2.2819,
+      "step": 86
+    },
+    {
+      "epoch": 0.03007778738115817,
+      "grad_norm": 1.5255942344665527,
+      "learning_rate": 6.595575190660771e-05,
+      "loss": 2.5036,
+      "step": 87
+    },
+    {
+      "epoch": 0.03042350907519447,
+      "grad_norm": 0.2901178002357483,
+      "learning_rate": 6.514754834685408e-05,
+      "loss": 1.238,
+      "step": 88
+    },
+    {
+      "epoch": 0.03076923076923077,
+      "grad_norm": 0.2801726758480072,
+      "learning_rate": 6.43354769886448e-05,
+      "loss": 1.5611,
+      "step": 89
+    },
+    {
+      "epoch": 0.03111495246326707,
+      "grad_norm": 0.37821948528289795,
+      "learning_rate": 6.351975984418075e-05,
+      "loss": 1.912,
+      "step": 90
+    },
+    {
+      "epoch": 0.03146067415730337,
+      "grad_norm": 0.4961099624633789,
+      "learning_rate": 6.270061992238433e-05,
+      "loss": 2.1775,
+      "step": 91
+    },
+    {
+      "epoch": 0.031806395851339674,
+      "grad_norm": 0.6510285139083862,
+      "learning_rate": 6.18782811679311e-05,
+      "loss": 2.257,
+      "step": 92
+    },
+    {
+      "epoch": 0.032152117545375974,
+      "grad_norm": 1.222731351852417,
+      "learning_rate": 6.105296840002549e-05,
+      "loss": 2.4218,
+      "step": 93
+    },
+    {
+      "epoch": 0.032497839239412275,
+      "grad_norm": 0.3821687400341034,
+      "learning_rate": 6.022490725093761e-05,
+      "loss": 1.3984,
+      "step": 94
+    },
+    {
+      "epoch": 0.032843560933448576,
+      "grad_norm": 0.24385333061218262,
+      "learning_rate": 5.9394324104317434e-05,
+      "loss": 1.4052,
+      "step": 95
+    },
+    {
+      "epoch": 0.03318928262748488,
+      "grad_norm": 0.36596474051475525,
+      "learning_rate": 5.856144603330394e-05,
+      "loss": 1.7953,
+      "step": 96
+    },
+    {
+      "epoch": 0.03353500432152118,
+      "grad_norm": 0.5025818347930908,
+      "learning_rate": 5.772650073844552e-05,
+      "loss": 2.1247,
+      "step": 97
+    },
+    {
+      "epoch": 0.03388072601555748,
+      "grad_norm": 0.597105860710144,
+      "learning_rate": 5.68897164854489e-05,
+      "loss": 2.2324,
+      "step": 98
+    },
+    {
+      "epoch": 0.03422644770959378,
+      "grad_norm": 0.9876322746276855,
+      "learning_rate": 5.605132204277361e-05,
+      "loss": 2.3542,
+      "step": 99
+    },
+    {
+      "epoch": 0.03457216940363008,
+      "grad_norm": 4.633794784545898,
+      "learning_rate": 5.521154661908896e-05,
+      "loss": 2.7884,
+      "step": 100
+    },
+    {
+      "epoch": 0.03457216940363008,
+      "eval_loss": 2.160346269607544,
+      "eval_runtime": 128.6423,
+      "eval_samples_per_second": 302.956,
+      "eval_steps_per_second": 9.468,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 6.343151930939802e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null