Uploaded from W&B

Browse files

Files changed (8) hide show

model-00001-of-00006.safetensors +1 -1
model-00002-of-00006.safetensors +1 -1
model-00003-of-00006.safetensors +1 -1
model-00004-of-00006.safetensors +1 -1
model-00005-of-00006.safetensors +1 -1
model-00006-of-00006.safetensors +1 -1
trainer_state.json +168 -413
training_args.bin +1 -1

model-00001-of-00006.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7f3e36a9c26faf5759a8de8aafb1103f3c3014c7b985efeb40fa04cec9f6835e
 size 4984780784

 version https://git-lfs.github.com/spec/v1
+oid sha256:e8f8796540da0ab8fe8314e7244ca2896d704f6e0b6b2ee83100ee18713ce16d
 size 4984780784

model-00002-of-00006.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:52da9a592813c982038192c0d1ca6aae38462f91e38977dfe2f3fbc44d531234
 size 4980892048

 version https://git-lfs.github.com/spec/v1
+oid sha256:883b8cd8920bb5272ad4371225b5f0b780999bd0004b79af4c6d4a54d5c489f6
 size 4980892048

model-00003-of-00006.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0846d5f654196b3a47e9dc58daf096b8f9ab737b3842e5b7665e6686248a5a79
 size 4928485104

 version https://git-lfs.github.com/spec/v1
+oid sha256:80ffb3e1525cf5c24986910381ac99a4d9cb85af1cff775ffc0e9096470e375b
 size 4928485104

model-00004-of-00006.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:167d586726268d26036c66c9e42443ab56cd914c18de2ca86155ebee18242a78
 size 4980892112

 version https://git-lfs.github.com/spec/v1
+oid sha256:a3a1e7a51aa9e3bcc672244bd97e05648170b3e0f692ef5beab1179fa4689d9f
 size 4980892112

model-00005-of-00006.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d7a98bd9e124e52ecf3348f59fb80014c8351049a9d8cf140383def1a5a365f5
 size 4928485104

 version https://git-lfs.github.com/spec/v1
+oid sha256:0bc50985995feedb7b126801a4b5c6e7dabaeb02766012b18aa5aa698cbd7d51
 size 4928485104

model-00006-of-00006.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a0d36d71dfc220db2b78f7a4181c9545043a1e2f16be72c51ee050a6a97703b5
 size 4733130504

 version https://git-lfs.github.com/spec/v1
+oid sha256:a7dce3ec5ad86726303028f879f98d3bd5588dda85f21fe2a6a462c74edac5de
 size 4733130504

trainer_state.json CHANGED Viewed

@@ -2,592 +2,347 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 4.709677419354839,
-  "eval_steps": 15,
-  "global_step": 75,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.06451612903225806,
-      "grad_norm": 3.71299409866333,
       "learning_rate": 0.0,
-      "loss": 0.5246,
       "step": 1
     },
     {
-      "epoch": 0.06451612903225806,
-      "eval_loss": 0.5421915650367737,
-      "eval_runtime": 48.3786,
-      "eval_samples_per_second": 9.281,
-      "eval_steps_per_second": 0.165,
       "step": 1
     },
     {
-      "epoch": 0.12903225806451613,
-      "grad_norm": 3.903559684753418,
       "learning_rate": 1.6666666666666668e-07,
-      "loss": 0.5377,
       "step": 2
     },
     {
-      "epoch": 0.1935483870967742,
-      "grad_norm": 3.736715793609619,
       "learning_rate": 3.3333333333333335e-07,
-      "loss": 0.5268,
       "step": 3
     },
     {
-      "epoch": 0.25806451612903225,
-      "grad_norm": 3.8966400623321533,
       "learning_rate": 5.000000000000001e-07,
-      "loss": 0.5587,
       "step": 4
     },
     {
-      "epoch": 0.3225806451612903,
-      "grad_norm": 3.7077558040618896,
       "learning_rate": 6.666666666666667e-07,
-      "loss": 0.5447,
       "step": 5
     },
     {
-      "epoch": 0.3870967741935484,
-      "grad_norm": 3.522481679916382,
       "learning_rate": 8.333333333333333e-07,
-      "loss": 0.5369,
       "step": 6
     },
     {
-      "epoch": 0.45161290322580644,
-      "grad_norm": 3.2097816467285156,
       "learning_rate": 1.0000000000000002e-06,
-      "loss": 0.5437,
       "step": 7
     },
     {
-      "epoch": 0.5161290322580645,
-      "grad_norm": 3.033029079437256,
       "learning_rate": 1.1666666666666668e-06,
-      "loss": 0.511,
       "step": 8
     },
     {
-      "epoch": 0.5806451612903226,
-      "grad_norm": 2.4357407093048096,
       "learning_rate": 1.3333333333333334e-06,
-      "loss": 0.4972,
       "step": 9
     },
     {
-      "epoch": 0.6451612903225806,
-      "grad_norm": 2.289113759994507,
       "learning_rate": 1.5e-06,
-      "loss": 0.4971,
       "step": 10
     },
     {
-      "epoch": 0.7096774193548387,
-      "grad_norm": 2.245663642883301,
       "learning_rate": 1.6666666666666667e-06,
-      "loss": 0.4985,
       "step": 11
     },
     {
-      "epoch": 0.7741935483870968,
-      "grad_norm": 1.333315372467041,
       "learning_rate": 1.8333333333333333e-06,
-      "loss": 0.4498,
       "step": 12
     },
     {
-      "epoch": 0.8387096774193549,
-      "grad_norm": 1.2719190120697021,
       "learning_rate": 2.0000000000000003e-06,
-      "loss": 0.4429,
       "step": 13
     },
     {
-      "epoch": 0.9032258064516129,
-      "grad_norm": 1.1698064804077148,
       "learning_rate": 2.166666666666667e-06,
-      "loss": 0.443,
       "step": 14
     },
     {
-      "epoch": 0.967741935483871,
-      "grad_norm": 0.9449278712272644,
       "learning_rate": 2.3333333333333336e-06,
-      "loss": 0.4219,
       "step": 15
     },
     {
-      "epoch": 0.967741935483871,
-      "eval_loss": 0.39319929480552673,
-      "eval_runtime": 46.7379,
-      "eval_samples_per_second": 9.607,
-      "eval_steps_per_second": 0.171,
-      "step": 15
     },
     {
-      "epoch": 1.0,
-      "grad_norm": 0.9449278712272644,
-      "learning_rate": 2.5e-06,
-      "loss": 0.3764,
       "step": 16
     },
     {
-      "epoch": 1.064516129032258,
-      "grad_norm": 0.43911686539649963,
       "learning_rate": 2.666666666666667e-06,
-      "loss": 0.3747,
       "step": 17
     },
     {
-      "epoch": 1.129032258064516,
-      "grad_norm": 0.4296239912509918,
       "learning_rate": 2.8333333333333335e-06,
-      "loss": 0.3729,
       "step": 18
     },
     {
-      "epoch": 1.1935483870967742,
-      "grad_norm": 0.3548150956630707,
       "learning_rate": 3e-06,
-      "loss": 0.3606,
       "step": 19
     },
     {
-      "epoch": 1.2580645161290323,
-      "grad_norm": 0.32105734944343567,
       "learning_rate": 3.1666666666666667e-06,
-      "loss": 0.3753,
       "step": 20
     },
     {
-      "epoch": 1.3225806451612903,
-      "grad_norm": 0.2587982416152954,
       "learning_rate": 3.3333333333333333e-06,
-      "loss": 0.3478,
       "step": 21
     },
     {
-      "epoch": 1.3870967741935485,
-      "grad_norm": 0.3211846649646759,
       "learning_rate": 3.5e-06,
-      "loss": 0.3304,
       "step": 22
     },
     {
-      "epoch": 1.4516129032258065,
-      "grad_norm": 0.3252200186252594,
       "learning_rate": 3.6666666666666666e-06,
-      "loss": 0.3343,
       "step": 23
     },
     {
-      "epoch": 1.5161290322580645,
-      "grad_norm": 0.24784031510353088,
       "learning_rate": 3.833333333333334e-06,
-      "loss": 0.3002,
       "step": 24
     },
     {
-      "epoch": 1.5806451612903225,
-      "grad_norm": 0.22013752162456512,
       "learning_rate": 4.000000000000001e-06,
-      "loss": 0.3007,
       "step": 25
     },
     {
-      "epoch": 1.6451612903225805,
-      "grad_norm": 0.1890474557876587,
       "learning_rate": 4.166666666666667e-06,
-      "loss": 0.2993,
       "step": 26
     },
     {
-      "epoch": 1.7096774193548387,
-      "grad_norm": 0.1612287163734436,
       "learning_rate": 4.333333333333334e-06,
-      "loss": 0.2967,
       "step": 27
     },
     {
-      "epoch": 1.7741935483870968,
-      "grad_norm": 0.12546223402023315,
       "learning_rate": 4.5e-06,
-      "loss": 0.285,
       "step": 28
     },
     {
-      "epoch": 1.838709677419355,
-      "grad_norm": 0.14152272045612335,
       "learning_rate": 4.666666666666667e-06,
-      "loss": 0.2763,
       "step": 29
     },
     {
-      "epoch": 1.903225806451613,
-      "grad_norm": 0.13795673847198486,
       "learning_rate": 4.833333333333333e-06,
-      "loss": 0.2765,
-      "step": 30
-    },
-    {
-      "epoch": 1.903225806451613,
-      "eval_loss": 0.2790633738040924,
-      "eval_runtime": 47.0271,
-      "eval_samples_per_second": 9.548,
-      "eval_steps_per_second": 0.17,
       "step": 30
     },
     {
-      "epoch": 1.967741935483871,
-      "grad_norm": 0.13757546246051788,
       "learning_rate": 5e-06,
-      "loss": 0.2728,
       "step": 31
     },
     {
-      "epoch": 2.0,
-      "grad_norm": 0.27934005856513977,
       "learning_rate": 5.1666666666666675e-06,
-      "loss": 0.2571,
       "step": 32
     },
     {
-      "epoch": 2.064516129032258,
-      "grad_norm": 0.1979674994945526,
       "learning_rate": 5.333333333333334e-06,
-      "loss": 0.2561,
       "step": 33
     },
     {
-      "epoch": 2.129032258064516,
-      "grad_norm": 0.20464259386062622,
       "learning_rate": 5.500000000000001e-06,
-      "loss": 0.2537,
       "step": 34
     },
     {
-      "epoch": 2.193548387096774,
-      "grad_norm": 0.16843488812446594,
       "learning_rate": 5.666666666666667e-06,
-      "loss": 0.2471,
       "step": 35
     },
     {
-      "epoch": 2.258064516129032,
-      "grad_norm": 0.17862671613693237,
       "learning_rate": 5.833333333333334e-06,
-      "loss": 0.2636,
       "step": 36
     },
     {
-      "epoch": 2.3225806451612905,
-      "grad_norm": 0.16075143218040466,
       "learning_rate": 6e-06,
-      "loss": 0.2484,
       "step": 37
     },
     {
-      "epoch": 2.3870967741935485,
-      "grad_norm": 0.14424891769886017,
       "learning_rate": 6.166666666666667e-06,
-      "loss": 0.2418,
       "step": 38
     },
     {
-      "epoch": 2.4516129032258065,
-      "grad_norm": 0.15151280164718628,
       "learning_rate": 6.333333333333333e-06,
-      "loss": 0.2482,
       "step": 39
     },
     {
-      "epoch": 2.5161290322580645,
-      "grad_norm": 0.13796761631965637,
       "learning_rate": 6.5000000000000004e-06,
-      "loss": 0.2222,
       "step": 40
     },
     {
-      "epoch": 2.5806451612903225,
-      "grad_norm": 0.14514990150928497,
-      "learning_rate": 6.666666666666667e-06,
-      "loss": 0.2267,
-      "step": 41
-    },
-    {
-      "epoch": 2.6451612903225805,
-      "grad_norm": 0.14072832465171814,
-      "learning_rate": 6.833333333333334e-06,
-      "loss": 0.2288,
-      "step": 42
-    },
-    {
-      "epoch": 2.709677419354839,
-      "grad_norm": 0.13627326488494873,
-      "learning_rate": 7e-06,
-      "loss": 0.2275,
-      "step": 43
-    },
-    {
-      "epoch": 2.774193548387097,
-      "grad_norm": 0.1376984417438507,
-      "learning_rate": 7.166666666666667e-06,
-      "loss": 0.2219,
-      "step": 44
-    },
-    {
-      "epoch": 2.838709677419355,
-      "grad_norm": 0.15370023250579834,
-      "learning_rate": 7.333333333333333e-06,
-      "loss": 0.2169,
-      "step": 45
-    },
-    {
-      "epoch": 2.838709677419355,
-      "eval_loss": 0.2274538278579712,
-      "eval_runtime": 47.3085,
-      "eval_samples_per_second": 9.491,
-      "eval_steps_per_second": 0.169,
-      "step": 45
-    },
-    {
-      "epoch": 2.903225806451613,
-      "grad_norm": 0.26084059476852417,
-      "learning_rate": 7.500000000000001e-06,
-      "loss": 0.2202,
-      "step": 46
-    },
-    {
-      "epoch": 2.967741935483871,
-      "grad_norm": 0.2038145810365677,
-      "learning_rate": 7.666666666666667e-06,
-      "loss": 0.2208,
-      "step": 47
-    },
-    {
-      "epoch": 3.0,
-      "grad_norm": 0.2038145810365677,
-      "learning_rate": 7.833333333333333e-06,
-      "loss": 0.2054,
-      "step": 48
-    },
-    {
-      "epoch": 3.064516129032258,
-      "grad_norm": 0.0778738260269165,
-      "learning_rate": 8.000000000000001e-06,
-      "loss": 0.2088,
-      "step": 49
-    },
-    {
-      "epoch": 3.129032258064516,
-      "grad_norm": 0.0922369435429573,
-      "learning_rate": 8.166666666666668e-06,
-      "loss": 0.2093,
-      "step": 50
-    },
-    {
-      "epoch": 3.193548387096774,
-      "grad_norm": 0.10241512209177017,
-      "learning_rate": 8.333333333333334e-06,
-      "loss": 0.2046,
-      "step": 51
-    },
-    {
-      "epoch": 3.258064516129032,
-      "grad_norm": 0.12188396602869034,
-      "learning_rate": 8.5e-06,
-      "loss": 0.2221,
-      "step": 52
-    },
-    {
-      "epoch": 3.3225806451612905,
-      "grad_norm": 0.08659562468528748,
-      "learning_rate": 8.666666666666668e-06,
-      "loss": 0.2101,
-      "step": 53
-    },
-    {
-      "epoch": 3.3870967741935485,
-      "grad_norm": 0.07995045930147171,
-      "learning_rate": 8.833333333333334e-06,
-      "loss": 0.2053,
-      "step": 54
-    },
-    {
-      "epoch": 3.4516129032258065,
-      "grad_norm": 0.08335064351558685,
-      "learning_rate": 9e-06,
-      "loss": 0.2128,
-      "step": 55
-    },
-    {
-      "epoch": 3.5161290322580645,
-      "grad_norm": 0.10316692292690277,
-      "learning_rate": 9.166666666666666e-06,
-      "loss": 0.191,
-      "step": 56
-    },
-    {
-      "epoch": 3.5806451612903225,
-      "grad_norm": 0.17479529976844788,
-      "learning_rate": 9.333333333333334e-06,
-      "loss": 0.1968,
-      "step": 57
-    },
-    {
-      "epoch": 3.6451612903225805,
-      "grad_norm": 0.12246640026569366,
-      "learning_rate": 9.5e-06,
-      "loss": 0.1997,
-      "step": 58
-    },
-    {
-      "epoch": 3.709677419354839,
-      "grad_norm": 0.0899316594004631,
-      "learning_rate": 9.666666666666667e-06,
-      "loss": 0.1987,
-      "step": 59
-    },
-    {
-      "epoch": 3.774193548387097,
-      "grad_norm": 0.08333521336317062,
-      "learning_rate": 9.833333333333333e-06,
-      "loss": 0.1955,
-      "step": 60
-    },
-    {
-      "epoch": 3.774193548387097,
-      "eval_loss": 0.2103077620267868,
-      "eval_runtime": 47.3577,
-      "eval_samples_per_second": 9.481,
-      "eval_steps_per_second": 0.169,
-      "step": 60
-    },
-    {
-      "epoch": 3.838709677419355,
-      "grad_norm": 0.07842453569173813,
-      "learning_rate": 1e-05,
-      "loss": 0.1921,
-      "step": 61
-    },
-    {
-      "epoch": 3.903225806451613,
-      "grad_norm": 0.08157943189144135,
-      "learning_rate": 9.890738003669029e-06,
-      "loss": 0.1981,
-      "step": 62
-    },
-    {
-      "epoch": 3.967741935483871,
-      "grad_norm": 0.08138000965118408,
-      "learning_rate": 9.567727288213005e-06,
-      "loss": 0.1986,
-      "step": 63
-    },
-    {
-      "epoch": 4.0,
-      "grad_norm": 0.171842560172081,
-      "learning_rate": 9.045084971874738e-06,
-      "loss": 0.1897,
-      "step": 64
-    },
-    {
-      "epoch": 4.064516129032258,
-      "grad_norm": 0.20634017884731293,
-      "learning_rate": 8.345653031794292e-06,
-      "loss": 0.1877,
-      "step": 65
-    },
-    {
-      "epoch": 4.129032258064516,
-      "grad_norm": 0.35513147711753845,
-      "learning_rate": 7.500000000000001e-06,
-      "loss": 0.1897,
-      "step": 66
-    },
-    {
-      "epoch": 4.193548387096774,
-      "grad_norm": 0.1434732973575592,
-      "learning_rate": 6.545084971874738e-06,
-      "loss": 0.1856,
-      "step": 67
-    },
-    {
-      "epoch": 4.258064516129032,
-      "grad_norm": 0.27667921781539917,
-      "learning_rate": 5.522642316338268e-06,
-      "loss": 0.2036,
-      "step": 68
-    },
-    {
-      "epoch": 4.32258064516129,
-      "grad_norm": 0.12108495831489563,
-      "learning_rate": 4.477357683661734e-06,
-      "loss": 0.1917,
-      "step": 69
-    },
-    {
-      "epoch": 4.387096774193548,
-      "grad_norm": 0.21641023457050323,
-      "learning_rate": 3.4549150281252635e-06,
-      "loss": 0.1878,
-      "step": 70
-    },
-    {
-      "epoch": 4.451612903225806,
-      "grad_norm": 0.12491529434919357,
-      "learning_rate": 2.5000000000000015e-06,
-      "loss": 0.1952,
-      "step": 71
-    },
-    {
-      "epoch": 4.516129032258064,
-      "grad_norm": 0.14404062926769257,
-      "learning_rate": 1.6543469682057105e-06,
-      "loss": 0.1761,
-      "step": 72
-    },
-    {
-      "epoch": 4.580645161290323,
-      "grad_norm": 0.1197192370891571,
-      "learning_rate": 9.549150281252633e-07,
-      "loss": 0.1836,
-      "step": 73
-    },
-    {
-      "epoch": 4.645161290322581,
-      "grad_norm": 0.10862907022237778,
-      "learning_rate": 4.322727117869951e-07,
-      "loss": 0.1861,
-      "step": 74
-    },
-    {
-      "epoch": 4.709677419354839,
-      "grad_norm": 0.1004861518740654,
-      "learning_rate": 1.0926199633097156e-07,
-      "loss": 0.1852,
-      "step": 75
-    },
-    {
-      "epoch": 4.709677419354839,
-      "eval_loss": 0.20321273803710938,
-      "eval_runtime": 47.2462,
-      "eval_samples_per_second": 9.503,
-      "eval_steps_per_second": 0.169,
-      "step": 75
     }
   ],
   "logging_steps": 1,
-  "max_steps": 75,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 5,
-  "save_steps": 15,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
@@ -600,7 +355,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.2850912942748598e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 4.470588235294118,
+  "eval_steps": 8,
+  "global_step": 40,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.11764705882352941,
+      "grad_norm": 4.44871711730957,
       "learning_rate": 0.0,
+      "loss": 0.8246,
       "step": 1
     },
     {
+      "epoch": 0.11764705882352941,
+      "eval_loss": 0.805208146572113,
+      "eval_runtime": 6.2252,
+      "eval_samples_per_second": 8.674,
+      "eval_steps_per_second": 0.161,
       "step": 1
     },
     {
+      "epoch": 0.23529411764705882,
+      "grad_norm": 4.301537036895752,
       "learning_rate": 1.6666666666666668e-07,
+      "loss": 0.7921,
       "step": 2
     },
     {
+      "epoch": 0.35294117647058826,
+      "grad_norm": 4.532798767089844,
       "learning_rate": 3.3333333333333335e-07,
+      "loss": 0.8146,
       "step": 3
     },
     {
+      "epoch": 0.47058823529411764,
+      "grad_norm": 4.427340984344482,
       "learning_rate": 5.000000000000001e-07,
+      "loss": 0.8033,
       "step": 4
     },
     {
+      "epoch": 0.5882352941176471,
+      "grad_norm": 4.337186813354492,
       "learning_rate": 6.666666666666667e-07,
+      "loss": 0.794,
       "step": 5
     },
     {
+      "epoch": 0.7058823529411765,
+      "grad_norm": 4.229191303253174,
       "learning_rate": 8.333333333333333e-07,
+      "loss": 0.7852,
       "step": 6
     },
     {
+      "epoch": 0.8235294117647058,
+      "grad_norm": 4.042285442352295,
       "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.8128,
       "step": 7
     },
     {
+      "epoch": 0.9411764705882353,
+      "grad_norm": 3.8515684604644775,
       "learning_rate": 1.1666666666666668e-06,
+      "loss": 0.7934,
       "step": 8
     },
     {
+      "epoch": 0.9411764705882353,
+      "eval_loss": 0.7717350721359253,
+      "eval_runtime": 6.2111,
+      "eval_samples_per_second": 8.694,
+      "eval_steps_per_second": 0.161,
+      "step": 8
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 3.8515684604644775,
       "learning_rate": 1.3333333333333334e-06,
+      "loss": 0.7954,
       "step": 9
     },
     {
+      "epoch": 1.1176470588235294,
+      "grad_norm": 1.560177206993103,
       "learning_rate": 1.5e-06,
+      "loss": 0.7693,
       "step": 10
     },
     {
+      "epoch": 1.2352941176470589,
+      "grad_norm": 1.4581290483474731,
       "learning_rate": 1.6666666666666667e-06,
+      "loss": 0.7423,
       "step": 11
     },
     {
+      "epoch": 1.3529411764705883,
+      "grad_norm": 1.034300446510315,
       "learning_rate": 1.8333333333333333e-06,
+      "loss": 0.7327,
       "step": 12
     },
     {
+      "epoch": 1.4705882352941178,
+      "grad_norm": 0.8479865193367004,
       "learning_rate": 2.0000000000000003e-06,
+      "loss": 0.7191,
       "step": 13
     },
     {
+      "epoch": 1.5882352941176472,
+      "grad_norm": 0.7605553269386292,
       "learning_rate": 2.166666666666667e-06,
+      "loss": 0.7157,
       "step": 14
     },
     {
+      "epoch": 1.7058823529411766,
+      "grad_norm": 0.7409340739250183,
       "learning_rate": 2.3333333333333336e-06,
+      "loss": 0.7046,
       "step": 15
     },
     {
+      "epoch": 1.8235294117647058,
+      "grad_norm": 0.494981974363327,
+      "learning_rate": 2.5e-06,
+      "loss": 0.655,
+      "step": 16
     },
     {
+      "epoch": 1.8235294117647058,
+      "eval_loss": 0.6643162369728088,
+      "eval_runtime": 6.2115,
+      "eval_samples_per_second": 8.694,
+      "eval_steps_per_second": 0.161,
       "step": 16
     },
     {
+      "epoch": 1.9411764705882353,
+      "grad_norm": 0.49645841121673584,
       "learning_rate": 2.666666666666667e-06,
+      "loss": 0.6661,
       "step": 17
     },
     {
+      "epoch": 2.0,
+      "grad_norm": 0.9438714981079102,
       "learning_rate": 2.8333333333333335e-06,
+      "loss": 0.6513,
       "step": 18
     },
     {
+      "epoch": 2.1176470588235294,
+      "grad_norm": 0.8686451315879822,
       "learning_rate": 3e-06,
+      "loss": 0.6513,
       "step": 19
     },
     {
+      "epoch": 2.235294117647059,
+      "grad_norm": 0.8095314502716064,
       "learning_rate": 3.1666666666666667e-06,
+      "loss": 0.6406,
       "step": 20
     },
     {
+      "epoch": 2.3529411764705883,
+      "grad_norm": 0.6763771772384644,
       "learning_rate": 3.3333333333333333e-06,
+      "loss": 0.616,
       "step": 21
     },
     {
+      "epoch": 2.4705882352941178,
+      "grad_norm": 0.8396726846694946,
       "learning_rate": 3.5e-06,
+      "loss": 0.6185,
       "step": 22
     },
     {
+      "epoch": 2.588235294117647,
+      "grad_norm": 0.8915113806724548,
       "learning_rate": 3.6666666666666666e-06,
+      "loss": 0.6013,
       "step": 23
     },
     {
+      "epoch": 2.7058823529411766,
+      "grad_norm": 0.7986668348312378,
       "learning_rate": 3.833333333333334e-06,
+      "loss": 0.5917,
+      "step": 24
+    },
+    {
+      "epoch": 2.7058823529411766,
+      "eval_loss": 0.5887576341629028,
+      "eval_runtime": 6.2271,
+      "eval_samples_per_second": 8.672,
+      "eval_steps_per_second": 0.161,
       "step": 24
     },
     {
+      "epoch": 2.8235294117647056,
+      "grad_norm": 0.6417509317398071,
       "learning_rate": 4.000000000000001e-06,
+      "loss": 0.5879,
       "step": 25
     },
     {
+      "epoch": 2.9411764705882355,
+      "grad_norm": 0.5458969473838806,
       "learning_rate": 4.166666666666667e-06,
+      "loss": 0.5844,
       "step": 26
     },
     {
+      "epoch": 3.0,
+      "grad_norm": 0.5458969473838806,
       "learning_rate": 4.333333333333334e-06,
+      "loss": 0.5812,
       "step": 27
     },
     {
+      "epoch": 3.1176470588235294,
+      "grad_norm": 0.2729341983795166,
       "learning_rate": 4.5e-06,
+      "loss": 0.5651,
       "step": 28
     },
     {
+      "epoch": 3.235294117647059,
+      "grad_norm": 0.2618759572505951,
       "learning_rate": 4.666666666666667e-06,
+      "loss": 0.537,
       "step": 29
     },
     {
+      "epoch": 3.3529411764705883,
+      "grad_norm": 0.2737997770309448,
       "learning_rate": 4.833333333333333e-06,
+      "loss": 0.5463,
       "step": 30
     },
     {
+      "epoch": 3.4705882352941178,
+      "grad_norm": 0.2667374610900879,
       "learning_rate": 5e-06,
+      "loss": 0.5399,
       "step": 31
     },
     {
+      "epoch": 3.588235294117647,
+      "grad_norm": 0.26491186022758484,
       "learning_rate": 5.1666666666666675e-06,
+      "loss": 0.5542,
+      "step": 32
+    },
+    {
+      "epoch": 3.588235294117647,
+      "eval_loss": 0.5400622487068176,
+      "eval_runtime": 6.2239,
+      "eval_samples_per_second": 8.676,
+      "eval_steps_per_second": 0.161,
       "step": 32
     },
     {
+      "epoch": 3.7058823529411766,
+      "grad_norm": 0.2621231973171234,
       "learning_rate": 5.333333333333334e-06,
+      "loss": 0.5184,
       "step": 33
     },
     {
+      "epoch": 3.8235294117647056,
+      "grad_norm": 0.2459402233362198,
       "learning_rate": 5.500000000000001e-06,
+      "loss": 0.5128,
       "step": 34
     },
     {
+      "epoch": 3.9411764705882355,
+      "grad_norm": 0.2450851947069168,
       "learning_rate": 5.666666666666667e-06,
+      "loss": 0.5173,
       "step": 35
     },
     {
+      "epoch": 4.0,
+      "grad_norm": 0.5196430087089539,
       "learning_rate": 5.833333333333334e-06,
+      "loss": 0.489,
       "step": 36
     },
     {
+      "epoch": 4.117647058823529,
+      "grad_norm": 0.4224274158477783,
       "learning_rate": 6e-06,
+      "loss": 0.5092,
       "step": 37
     },
     {
+      "epoch": 4.235294117647059,
+      "grad_norm": 0.3706662952899933,
       "learning_rate": 6.166666666666667e-06,
+      "loss": 0.4878,
       "step": 38
     },
     {
+      "epoch": 4.352941176470588,
+      "grad_norm": 0.34465476870536804,
       "learning_rate": 6.333333333333333e-06,
+      "loss": 0.4742,
       "step": 39
     },
     {
+      "epoch": 4.470588235294118,
+      "grad_norm": 0.36074212193489075,
       "learning_rate": 6.5000000000000004e-06,
+      "loss": 0.4819,
       "step": 40
     },
     {
+      "epoch": 4.470588235294118,
+      "eval_loss": 0.5065333843231201,
+      "eval_runtime": 6.2211,
+      "eval_samples_per_second": 8.68,
+      "eval_steps_per_second": 0.161,
+      "step": 40
     }
   ],
   "logging_steps": 1,
+  "max_steps": 40,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 5,
+  "save_steps": 8,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
       "attributes": {}
     }
   },
+  "total_flos": 6.689516326362284e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b4c7f07ef865b12c2ce9cc7bb55bea146d30a2ea33fa0031a621dc3afbd270fe
 size 11576

 version https://git-lfs.github.com/spec/v1
+oid sha256:20edd61d5a9f82d4af66c83a4e33162991a25eb8afc528f4d4e41d56cc7399fd
 size 11576