Training in progress, step 19, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/adapter_config.json +4 -4
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +2 -2
last-checkpoint/trainer_state.json +40 -40
last-checkpoint/training_args.bin +1 -1

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -20,13 +20,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "k_proj",
     "q_proj",
-    "v_proj",
-    "o_proj",
     "up_proj",
-    "gate_proj",
-    "down_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "v_proj",
+    "down_proj",
     "k_proj",
     "q_proj",
     "up_proj",
+    "o_proj",
+    "gate_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b2f3401b0402b266f3e3b5bfbb73b84afdb7a0a0d262944290a8e3db31c64872
 size 97728

 version https://git-lfs.github.com/spec/v1
+oid sha256:7e8fba98e1768d606b3e34fa33b7faf71e645f336bbf4b349a6f38ca19a99d12
 size 97728

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1a3c5028462d8a1682bdda3dec5634efa432ebcf38a15cf6f783475de0738269
 size 212298

 version https://git-lfs.github.com/spec/v1
+oid sha256:407550fe93e4144c0c7b535703dc0af4260cd8b7849192c0187960e061c4fd7e
 size 212298

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e4d26cc27bf3a8f71d0610bcf382effc83d34b654f5d07f90ab43930ebbd8325
-size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:5dc99727afc70938d9edd3168cd8e82139628f65521bfd34a77f52d1e4010a17
+size 14960

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -10,143 +10,143 @@
   "log_history": [
     {
       "epoch": 0.16326530612244897,
-      "grad_norm": 0.08094418048858643,
       "learning_rate": 9.931806517013612e-05,
       "loss": 10.3801,
       "step": 1
     },
     {
       "epoch": 0.16326530612244897,
-      "eval_loss": 10.379819869995117,
-      "eval_runtime": 0.0487,
-      "eval_samples_per_second": 862.113,
-      "eval_steps_per_second": 123.159,
       "step": 1
     },
     {
       "epoch": 0.32653061224489793,
-      "grad_norm": 0.086942657828331,
       "learning_rate": 9.729086208503174e-05,
       "loss": 10.3811,
       "step": 2
     },
     {
       "epoch": 0.4897959183673469,
-      "grad_norm": 0.09496694803237915,
       "learning_rate": 9.397368756032445e-05,
-      "loss": 10.3806,
       "step": 3
     },
     {
       "epoch": 0.6530612244897959,
-      "grad_norm": 0.07616405189037323,
       "learning_rate": 8.945702546981969e-05,
-      "loss": 10.3807,
       "step": 4
     },
     {
       "epoch": 0.8163265306122449,
-      "grad_norm": 0.0874004065990448,
       "learning_rate": 8.386407858128706e-05,
-      "loss": 10.38,
       "step": 5
     },
     {
       "epoch": 0.9795918367346939,
-      "grad_norm": 0.09588516503572464,
       "learning_rate": 7.734740790612136e-05,
-      "loss": 10.3792,
       "step": 6
     },
     {
       "epoch": 1.1428571428571428,
-      "grad_norm": 0.15574996173381805,
       "learning_rate": 7.008477123264848e-05,
-      "loss": 19.6951,
       "step": 7
     },
     {
       "epoch": 1.306122448979592,
-      "grad_norm": 0.08454212546348572,
       "learning_rate": 6.227427435703997e-05,
-      "loss": 10.0344,
       "step": 8
     },
     {
       "epoch": 1.469387755102041,
-      "grad_norm": 0.10501722246408463,
       "learning_rate": 5.4128967273616625e-05,
-      "loss": 10.7884,
       "step": 9
     },
     {
       "epoch": 1.6326530612244898,
-      "grad_norm": 0.08670323342084885,
       "learning_rate": 4.5871032726383386e-05,
-      "loss": 10.2937,
       "step": 10
     },
     {
       "epoch": 1.7959183673469388,
-      "grad_norm": 0.08873719722032547,
       "learning_rate": 3.772572564296005e-05,
-      "loss": 10.0212,
       "step": 11
     },
     {
       "epoch": 1.9591836734693877,
-      "grad_norm": 0.09139610081911087,
       "learning_rate": 2.991522876735154e-05,
-      "loss": 10.8236,
       "step": 12
     },
     {
       "epoch": 2.122448979591837,
-      "grad_norm": 0.16937825083732605,
       "learning_rate": 2.2652592093878666e-05,
-      "loss": 19.5605,
       "step": 13
     },
     {
       "epoch": 2.2857142857142856,
-      "grad_norm": 0.08272731304168701,
       "learning_rate": 1.6135921418712956e-05,
-      "loss": 9.6462,
       "step": 14
     },
     {
       "epoch": 2.4489795918367347,
-      "grad_norm": 0.09716588258743286,
       "learning_rate": 1.0542974530180327e-05,
-      "loss": 11.1995,
       "step": 15
     },
     {
       "epoch": 2.612244897959184,
-      "grad_norm": 0.09108325839042664,
       "learning_rate": 6.026312439675552e-06,
-      "loss": 10.3281,
       "step": 16
     },
     {
       "epoch": 2.7755102040816326,
-      "grad_norm": 0.08579767495393753,
       "learning_rate": 2.7091379149682685e-06,
-      "loss": 9.6129,
       "step": 17
     },
     {
       "epoch": 2.938775510204082,
-      "grad_norm": 0.10283508896827698,
       "learning_rate": 6.819348298638839e-07,
-      "loss": 11.1786,
       "step": 18
     },
     {
       "epoch": 3.1020408163265305,
-      "grad_norm": 0.17679283022880554,
       "learning_rate": 0.0,
-      "loss": 19.5204,
       "step": 19
     }
   ],

   "log_history": [
     {
       "epoch": 0.16326530612244897,
+      "grad_norm": 0.08699872344732285,
       "learning_rate": 9.931806517013612e-05,
       "loss": 10.3801,
       "step": 1
     },
     {
       "epoch": 0.16326530612244897,
+      "eval_loss": 10.379783630371094,
+      "eval_runtime": 0.0468,
+      "eval_samples_per_second": 897.854,
+      "eval_steps_per_second": 128.265,
       "step": 1
     },
     {
       "epoch": 0.32653061224489793,
+      "grad_norm": 0.09416474401950836,
       "learning_rate": 9.729086208503174e-05,
       "loss": 10.3811,
       "step": 2
     },
     {
       "epoch": 0.4897959183673469,
+      "grad_norm": 0.10440898686647415,
       "learning_rate": 9.397368756032445e-05,
+      "loss": 10.3805,
       "step": 3
     },
     {
       "epoch": 0.6530612244897959,
+      "grad_norm": 0.08457836508750916,
       "learning_rate": 8.945702546981969e-05,
+      "loss": 10.3806,
       "step": 4
     },
     {
       "epoch": 0.8163265306122449,
+      "grad_norm": 0.09569015353918076,
       "learning_rate": 8.386407858128706e-05,
+      "loss": 10.3799,
       "step": 5
     },
     {
       "epoch": 0.9795918367346939,
+      "grad_norm": 0.1072765588760376,
       "learning_rate": 7.734740790612136e-05,
+      "loss": 10.379,
       "step": 6
     },
     {
       "epoch": 1.1428571428571428,
+      "grad_norm": 0.17628832161426544,
       "learning_rate": 7.008477123264848e-05,
+      "loss": 19.6947,
       "step": 7
     },
     {
       "epoch": 1.306122448979592,
+      "grad_norm": 0.09385761618614197,
       "learning_rate": 6.227427435703997e-05,
+      "loss": 10.0342,
       "step": 8
     },
     {
       "epoch": 1.469387755102041,
+      "grad_norm": 0.1199827715754509,
       "learning_rate": 5.4128967273616625e-05,
+      "loss": 10.7881,
       "step": 9
     },
     {
       "epoch": 1.6326530612244898,
+      "grad_norm": 0.09820538759231567,
       "learning_rate": 4.5871032726383386e-05,
+      "loss": 10.2934,
       "step": 10
     },
     {
       "epoch": 1.7959183673469388,
+      "grad_norm": 0.10190445929765701,
       "learning_rate": 3.772572564296005e-05,
+      "loss": 10.0209,
       "step": 11
     },
     {
       "epoch": 1.9591836734693877,
+      "grad_norm": 0.10631943494081497,
       "learning_rate": 2.991522876735154e-05,
+      "loss": 10.8232,
       "step": 12
     },
     {
       "epoch": 2.122448979591837,
+      "grad_norm": 0.1966407150030136,
       "learning_rate": 2.2652592093878666e-05,
+      "loss": 19.5598,
       "step": 13
     },
     {
       "epoch": 2.2857142857142856,
+      "grad_norm": 0.09489902853965759,
       "learning_rate": 1.6135921418712956e-05,
+      "loss": 9.6459,
       "step": 14
     },
     {
       "epoch": 2.4489795918367347,
+      "grad_norm": 0.11150838434696198,
       "learning_rate": 1.0542974530180327e-05,
+      "loss": 11.1992,
       "step": 15
     },
     {
       "epoch": 2.612244897959184,
+      "grad_norm": 0.10458274930715561,
       "learning_rate": 6.026312439675552e-06,
+      "loss": 10.3278,
       "step": 16
     },
     {
       "epoch": 2.7755102040816326,
+      "grad_norm": 0.09886434674263,
       "learning_rate": 2.7091379149682685e-06,
+      "loss": 9.6125,
       "step": 17
     },
     {
       "epoch": 2.938775510204082,
+      "grad_norm": 0.11752457171678543,
       "learning_rate": 6.819348298638839e-07,
+      "loss": 11.1782,
       "step": 18
     },
     {
       "epoch": 3.1020408163265305,
+      "grad_norm": 0.20353963971138,
       "learning_rate": 0.0,
+      "loss": 19.5197,
       "step": 19
     }
   ],

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:adfd9a452340c7844714460d264a482b1e9ccd6cbf3924d826a08676c6660015
 size 6776

 version https://git-lfs.github.com/spec/v1
+oid sha256:b4ef1efafef513483c59b4bbfa46a3c48edfc43187f127f58ad06bf22c4d8c07
 size 6776