diagonalge commited on Jul 18

Commit

e334eae

verified ·

1 Parent(s): 5975792

Upload task output test1334test1234test1234test12334

Browse files

Files changed (23) hide show

README.md +5 -5
adapter_config.json +2 -2
adapter_model.safetensors +1 -1
checkpoint-10/adapter_config.json +2 -2
checkpoint-10/adapter_model.safetensors +1 -1
checkpoint-10/optimizer.pt +1 -1
checkpoint-10/trainer_state.json +36 -36
checkpoint-10/training_args.bin +1 -1
checkpoint-3/adapter_config.json +2 -2
checkpoint-3/adapter_model.safetensors +1 -1
checkpoint-3/optimizer.pt +1 -1
checkpoint-3/trainer_state.json +14 -14
checkpoint-3/training_args.bin +1 -1
checkpoint-6/adapter_config.json +2 -2
checkpoint-6/adapter_model.safetensors +1 -1
checkpoint-6/optimizer.pt +1 -1
checkpoint-6/trainer_state.json +24 -24
checkpoint-6/training_args.bin +1 -1
checkpoint-9/adapter_config.json +2 -2
checkpoint-9/adapter_model.safetensors +1 -1
checkpoint-9/optimizer.pt +1 -1
checkpoint-9/trainer_state.json +34 -34
checkpoint-9/training_args.bin +1 -1

README.md CHANGED Viewed

@@ -89,7 +89,7 @@ xformers_attention: null
 This model was trained from scratch on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.9542
 ## Model description
@@ -123,10 +123,10 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
-| No log        | 0      | 0    | 0.9532          |
-| 1.0261        | 0.0372 | 3    | 0.9536          |
-| 1.1582        | 0.0743 | 6    | 0.9554          |
-| 0.8051        | 0.1115 | 9    | 0.9542          |
 ### Framework versions

 This model was trained from scratch on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.9023
 ## Model description
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
+| No log        | 0      | 0    | 0.9052          |
+| 1.0164        | 0.0372 | 3    | 0.9057          |
+| 1.0848        | 0.0743 | 6    | 0.9046          |
+| 1.0387        | 0.1115 | 9    | 0.9023          |
 ### Framework versions

adapter_config.json CHANGED Viewed

@@ -24,12 +24,12 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "v_proj",
-    "up_proj",
     "o_proj",
     "k_proj",
     "gate_proj",
-    "q_proj",
     "down_proj"
   ],
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "q_proj",
     "v_proj",
     "o_proj",
     "k_proj",
+    "up_proj",
     "gate_proj",
     "down_proj"
   ],
   "task_type": "CAUSAL_LM",

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a41ff268bfabcd272e7b2b09489b30d7731c43c8d4c889e62992e997f1ebc46a
 size 22573704

 version https://git-lfs.github.com/spec/v1
+oid sha256:fc9aeac2acbc2455a5f0737412114cef01add69564a125108760ac8956c75f9f
 size 22573704

checkpoint-10/adapter_config.json CHANGED Viewed

@@ -24,12 +24,12 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "v_proj",
-    "up_proj",
     "o_proj",
     "k_proj",
     "gate_proj",
-    "q_proj",
     "down_proj"
   ],
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "q_proj",
     "v_proj",
     "o_proj",
     "k_proj",
+    "up_proj",
     "gate_proj",
     "down_proj"
   ],
   "task_type": "CAUSAL_LM",

checkpoint-10/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a41ff268bfabcd272e7b2b09489b30d7731c43c8d4c889e62992e997f1ebc46a
 size 22573704

 version https://git-lfs.github.com/spec/v1
+oid sha256:fc9aeac2acbc2455a5f0737412114cef01add69564a125108760ac8956c75f9f
 size 22573704

checkpoint-10/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2387619257e6c44171f5d79e5e1fb94be749b1c3cc40ab21cff0286713db3366
 size 11710970

 version https://git-lfs.github.com/spec/v1
+oid sha256:29d04618f87bc05af7cacfdc3c30d2e55e5447a6fb93da26fd5fbe9ba4cbe024
 size 11710970

checkpoint-10/trainer_state.json CHANGED Viewed

@@ -11,104 +11,104 @@
   "log_history": [
     {
       "epoch": 0,
-      "eval_loss": 0.953231930732727,
-      "eval_runtime": 8.7002,
-      "eval_samples_per_second": 3.908,
-      "eval_steps_per_second": 1.954,
       "step": 0
     },
     {
       "epoch": 0.01238390092879257,
-      "grad_norm": 0.6875126957893372,
       "learning_rate": 0.0,
-      "loss": 1.0347,
       "step": 1
     },
     {
       "epoch": 0.02476780185758514,
-      "grad_norm": 0.5213010907173157,
       "learning_rate": 2e-05,
-      "loss": 0.9209,
       "step": 2
     },
     {
       "epoch": 0.03715170278637771,
-      "grad_norm": 0.5898625254631042,
       "learning_rate": 4e-05,
-      "loss": 1.0261,
       "step": 3
     },
     {
       "epoch": 0.03715170278637771,
-      "eval_loss": 0.9535599946975708,
-      "eval_runtime": 8.4038,
-      "eval_samples_per_second": 4.046,
-      "eval_steps_per_second": 2.023,
       "step": 3
     },
     {
       "epoch": 0.04953560371517028,
-      "grad_norm": 0.768417239189148,
       "learning_rate": 6e-05,
-      "loss": 1.04,
       "step": 4
     },
     {
       "epoch": 0.06191950464396285,
-      "grad_norm": 0.6189444661140442,
       "learning_rate": 8e-05,
-      "loss": 1.0581,
       "step": 5
     },
     {
       "epoch": 0.07430340557275542,
-      "grad_norm": 0.7873916029930115,
       "learning_rate": 0.0001,
-      "loss": 1.1582,
       "step": 6
     },
     {
       "epoch": 0.07430340557275542,
-      "eval_loss": 0.9553690552711487,
-      "eval_runtime": 8.2665,
-      "eval_samples_per_second": 4.113,
-      "eval_steps_per_second": 2.057,
       "step": 6
     },
     {
       "epoch": 0.08668730650154799,
-      "grad_norm": 0.4747847020626068,
       "learning_rate": 0.00012,
-      "loss": 1.1452,
       "step": 7
     },
     {
       "epoch": 0.09907120743034056,
-      "grad_norm": 0.9517867565155029,
       "learning_rate": 0.00014,
-      "loss": 0.9401,
       "step": 8
     },
     {
       "epoch": 0.11145510835913312,
-      "grad_norm": 0.5377346277236938,
       "learning_rate": 0.00016,
-      "loss": 0.8051,
       "step": 9
     },
     {
       "epoch": 0.11145510835913312,
-      "eval_loss": 0.9541666507720947,
-      "eval_runtime": 8.196,
-      "eval_samples_per_second": 4.148,
-      "eval_steps_per_second": 2.074,
       "step": 9
     },
     {
       "epoch": 0.1238390092879257,
-      "grad_norm": 0.5587700009346008,
       "learning_rate": 0.00018,
-      "loss": 0.836,
       "step": 10
     }
   ],

   "log_history": [
     {
       "epoch": 0,
+      "eval_loss": 0.9052417278289795,
+      "eval_runtime": 8.4448,
+      "eval_samples_per_second": 4.026,
+      "eval_steps_per_second": 2.013,
       "step": 0
     },
     {
       "epoch": 0.01238390092879257,
+      "grad_norm": 0.8082026243209839,
       "learning_rate": 0.0,
+      "loss": 1.1985,
       "step": 1
     },
     {
       "epoch": 0.02476780185758514,
+      "grad_norm": 0.50789475440979,
       "learning_rate": 2e-05,
+      "loss": 0.6888,
       "step": 2
     },
     {
       "epoch": 0.03715170278637771,
+      "grad_norm": 0.8321412205696106,
       "learning_rate": 4e-05,
+      "loss": 1.0164,
       "step": 3
     },
     {
       "epoch": 0.03715170278637771,
+      "eval_loss": 0.9056991338729858,
+      "eval_runtime": 7.8859,
+      "eval_samples_per_second": 4.312,
+      "eval_steps_per_second": 2.156,
       "step": 3
     },
     {
       "epoch": 0.04953560371517028,
+      "grad_norm": 0.4088127613067627,
       "learning_rate": 6e-05,
+      "loss": 0.7558,
       "step": 4
     },
     {
       "epoch": 0.06191950464396285,
+      "grad_norm": 0.7107352614402771,
       "learning_rate": 8e-05,
+      "loss": 1.2576,
       "step": 5
     },
     {
       "epoch": 0.07430340557275542,
+      "grad_norm": 0.5187698006629944,
       "learning_rate": 0.0001,
+      "loss": 1.0848,
       "step": 6
     },
     {
       "epoch": 0.07430340557275542,
+      "eval_loss": 0.9046434164047241,
+      "eval_runtime": 7.844,
+      "eval_samples_per_second": 4.335,
+      "eval_steps_per_second": 2.167,
       "step": 6
     },
     {
       "epoch": 0.08668730650154799,
+      "grad_norm": 0.5227215886116028,
       "learning_rate": 0.00012,
+      "loss": 0.7471,
       "step": 7
     },
     {
       "epoch": 0.09907120743034056,
+      "grad_norm": 0.49186187982559204,
       "learning_rate": 0.00014,
+      "loss": 0.9016,
       "step": 8
     },
     {
       "epoch": 0.11145510835913312,
+      "grad_norm": 0.49750179052352905,
       "learning_rate": 0.00016,
+      "loss": 1.0387,
       "step": 9
     },
     {
       "epoch": 0.11145510835913312,
+      "eval_loss": 0.9022544622421265,
+      "eval_runtime": 7.9872,
+      "eval_samples_per_second": 4.257,
+      "eval_steps_per_second": 2.128,
       "step": 9
     },
     {
       "epoch": 0.1238390092879257,
+      "grad_norm": 0.5828521847724915,
       "learning_rate": 0.00018,
+      "loss": 0.7156,
       "step": 10
     }
   ],

checkpoint-10/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:67fb4271d258100396c327a4063ee257b8654ab40cdb395b6c5cdb2b70ee6064
 size 7096

 version https://git-lfs.github.com/spec/v1
+oid sha256:06cd807872f02309d108f298220e5b415c77e8a2df23b68dd2963de4c9f9fc75
 size 7096

checkpoint-3/adapter_config.json CHANGED Viewed

@@ -24,12 +24,12 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "v_proj",
-    "up_proj",
     "o_proj",
     "k_proj",
     "gate_proj",
-    "q_proj",
     "down_proj"
   ],
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "q_proj",
     "v_proj",
     "o_proj",
     "k_proj",
+    "up_proj",
     "gate_proj",
     "down_proj"
   ],
   "task_type": "CAUSAL_LM",

checkpoint-3/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:67b269d4ff4ec8bb5052887d3c92c549ca53cf39696e3f71c7d89eff81f935d4
 size 22573704

 version https://git-lfs.github.com/spec/v1
+oid sha256:35d8272665362212d4b28fc489b5cf0ed5f32f9fc76c4b8267c6adf537a997bc
 size 22573704

checkpoint-3/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:48d5b596c485dd963a3666957e0050bcd6fc3658a552aaf30e3e93fe6e21726f
 size 11710970

 version https://git-lfs.github.com/spec/v1
+oid sha256:cd4f4752f73d772ee28292cbe0567ebb4e38aea7bb804565abca91938b84fa9b
 size 11710970

checkpoint-3/trainer_state.json CHANGED Viewed

@@ -11,39 +11,39 @@
   "log_history": [
     {
       "epoch": 0,
-      "eval_loss": 0.953231930732727,
-      "eval_runtime": 8.7002,
-      "eval_samples_per_second": 3.908,
-      "eval_steps_per_second": 1.954,
       "step": 0
     },
     {
       "epoch": 0.01238390092879257,
-      "grad_norm": 0.6875126957893372,
       "learning_rate": 0.0,
-      "loss": 1.0347,
       "step": 1
     },
     {
       "epoch": 0.02476780185758514,
-      "grad_norm": 0.5213010907173157,
       "learning_rate": 2e-05,
-      "loss": 0.9209,
       "step": 2
     },
     {
       "epoch": 0.03715170278637771,
-      "grad_norm": 0.5898625254631042,
       "learning_rate": 4e-05,
-      "loss": 1.0261,
       "step": 3
     },
     {
       "epoch": 0.03715170278637771,
-      "eval_loss": 0.9535599946975708,
-      "eval_runtime": 8.4038,
-      "eval_samples_per_second": 4.046,
-      "eval_steps_per_second": 2.023,
       "step": 3
     }
   ],

   "log_history": [
     {
       "epoch": 0,
+      "eval_loss": 0.9052417278289795,
+      "eval_runtime": 8.4448,
+      "eval_samples_per_second": 4.026,
+      "eval_steps_per_second": 2.013,
       "step": 0
     },
     {
       "epoch": 0.01238390092879257,
+      "grad_norm": 0.8082026243209839,
       "learning_rate": 0.0,
+      "loss": 1.1985,
       "step": 1
     },
     {
       "epoch": 0.02476780185758514,
+      "grad_norm": 0.50789475440979,
       "learning_rate": 2e-05,
+      "loss": 0.6888,
       "step": 2
     },
     {
       "epoch": 0.03715170278637771,
+      "grad_norm": 0.8321412205696106,
       "learning_rate": 4e-05,
+      "loss": 1.0164,
       "step": 3
     },
     {
       "epoch": 0.03715170278637771,
+      "eval_loss": 0.9056991338729858,
+      "eval_runtime": 7.8859,
+      "eval_samples_per_second": 4.312,
+      "eval_steps_per_second": 2.156,
       "step": 3
     }
   ],

checkpoint-3/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:67fb4271d258100396c327a4063ee257b8654ab40cdb395b6c5cdb2b70ee6064
 size 7096

 version https://git-lfs.github.com/spec/v1
+oid sha256:06cd807872f02309d108f298220e5b415c77e8a2df23b68dd2963de4c9f9fc75
 size 7096

checkpoint-6/adapter_config.json CHANGED Viewed

@@ -24,12 +24,12 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "v_proj",
-    "up_proj",
     "o_proj",
     "k_proj",
     "gate_proj",
-    "q_proj",
     "down_proj"
   ],
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "q_proj",
     "v_proj",
     "o_proj",
     "k_proj",
+    "up_proj",
     "gate_proj",
     "down_proj"
   ],
   "task_type": "CAUSAL_LM",

checkpoint-6/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:28acb07656c3961e8bc71f1c1add37bab283f13d0a88820e8f688fb2a434fd99
 size 22573704

 version https://git-lfs.github.com/spec/v1
+oid sha256:d8faa56675bb544b05ac158400b770d86bf54b6315f310aabd03d9db89324bf6
 size 22573704

checkpoint-6/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6cfc66875fe7c2869668adeb3374d402ee937deefd6a2c0f94b0e50a3269dcf7
 size 11710970

 version https://git-lfs.github.com/spec/v1
+oid sha256:774eb7a9d6b31c579dd88dff4182225133d63d1784d5204ed1ec4fbb55442693
 size 11710970

checkpoint-6/trainer_state.json CHANGED Viewed

@@ -11,68 +11,68 @@
   "log_history": [
     {
       "epoch": 0,
-      "eval_loss": 0.953231930732727,
-      "eval_runtime": 8.7002,
-      "eval_samples_per_second": 3.908,
-      "eval_steps_per_second": 1.954,
       "step": 0
     },
     {
       "epoch": 0.01238390092879257,
-      "grad_norm": 0.6875126957893372,
       "learning_rate": 0.0,
-      "loss": 1.0347,
       "step": 1
     },
     {
       "epoch": 0.02476780185758514,
-      "grad_norm": 0.5213010907173157,
       "learning_rate": 2e-05,
-      "loss": 0.9209,
       "step": 2
     },
     {
       "epoch": 0.03715170278637771,
-      "grad_norm": 0.5898625254631042,
       "learning_rate": 4e-05,
-      "loss": 1.0261,
       "step": 3
     },
     {
       "epoch": 0.03715170278637771,
-      "eval_loss": 0.9535599946975708,
-      "eval_runtime": 8.4038,
-      "eval_samples_per_second": 4.046,
-      "eval_steps_per_second": 2.023,
       "step": 3
     },
     {
       "epoch": 0.04953560371517028,
-      "grad_norm": 0.768417239189148,
       "learning_rate": 6e-05,
-      "loss": 1.04,
       "step": 4
     },
     {
       "epoch": 0.06191950464396285,
-      "grad_norm": 0.6189444661140442,
       "learning_rate": 8e-05,
-      "loss": 1.0581,
       "step": 5
     },
     {
       "epoch": 0.07430340557275542,
-      "grad_norm": 0.7873916029930115,
       "learning_rate": 0.0001,
-      "loss": 1.1582,
       "step": 6
     },
     {
       "epoch": 0.07430340557275542,
-      "eval_loss": 0.9553690552711487,
-      "eval_runtime": 8.2665,
-      "eval_samples_per_second": 4.113,
-      "eval_steps_per_second": 2.057,
       "step": 6
     }
   ],

   "log_history": [
     {
       "epoch": 0,
+      "eval_loss": 0.9052417278289795,
+      "eval_runtime": 8.4448,
+      "eval_samples_per_second": 4.026,
+      "eval_steps_per_second": 2.013,
       "step": 0
     },
     {
       "epoch": 0.01238390092879257,
+      "grad_norm": 0.8082026243209839,
       "learning_rate": 0.0,
+      "loss": 1.1985,
       "step": 1
     },
     {
       "epoch": 0.02476780185758514,
+      "grad_norm": 0.50789475440979,
       "learning_rate": 2e-05,
+      "loss": 0.6888,
       "step": 2
     },
     {
       "epoch": 0.03715170278637771,
+      "grad_norm": 0.8321412205696106,
       "learning_rate": 4e-05,
+      "loss": 1.0164,
       "step": 3
     },
     {
       "epoch": 0.03715170278637771,
+      "eval_loss": 0.9056991338729858,
+      "eval_runtime": 7.8859,
+      "eval_samples_per_second": 4.312,
+      "eval_steps_per_second": 2.156,
       "step": 3
     },
     {
       "epoch": 0.04953560371517028,
+      "grad_norm": 0.4088127613067627,
       "learning_rate": 6e-05,
+      "loss": 0.7558,
       "step": 4
     },
     {
       "epoch": 0.06191950464396285,
+      "grad_norm": 0.7107352614402771,
       "learning_rate": 8e-05,
+      "loss": 1.2576,
       "step": 5
     },
     {
       "epoch": 0.07430340557275542,
+      "grad_norm": 0.5187698006629944,
       "learning_rate": 0.0001,
+      "loss": 1.0848,
       "step": 6
     },
     {
       "epoch": 0.07430340557275542,
+      "eval_loss": 0.9046434164047241,
+      "eval_runtime": 7.844,
+      "eval_samples_per_second": 4.335,
+      "eval_steps_per_second": 2.167,
       "step": 6
     }
   ],

checkpoint-6/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:67fb4271d258100396c327a4063ee257b8654ab40cdb395b6c5cdb2b70ee6064
 size 7096

 version https://git-lfs.github.com/spec/v1
+oid sha256:06cd807872f02309d108f298220e5b415c77e8a2df23b68dd2963de4c9f9fc75
 size 7096

checkpoint-9/adapter_config.json CHANGED Viewed

@@ -24,12 +24,12 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "v_proj",
-    "up_proj",
     "o_proj",
     "k_proj",
     "gate_proj",
-    "q_proj",
     "down_proj"
   ],
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "q_proj",
     "v_proj",
     "o_proj",
     "k_proj",
+    "up_proj",
     "gate_proj",
     "down_proj"
   ],
   "task_type": "CAUSAL_LM",

checkpoint-9/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b727383908207749f5903ec133cd3114df21260c27cab96d06c11a964e16f164
 size 22573704

 version https://git-lfs.github.com/spec/v1
+oid sha256:ebe307591989cc56631abe1b4d7b7886913e144a0b680c007c393d686ba70aa3
 size 22573704

checkpoint-9/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9d76e76ee2b72377a9705db59536407edc7e027fbefaf895d3acfb14a50d5091
 size 11710970

 version https://git-lfs.github.com/spec/v1
+oid sha256:f7bc8bf2c0ec7339f2108836b5fcfeaa22463b73211d52242fed9238d402427c
 size 11710970

checkpoint-9/trainer_state.json CHANGED Viewed

@@ -11,97 +11,97 @@
   "log_history": [
     {
       "epoch": 0,
-      "eval_loss": 0.953231930732727,
-      "eval_runtime": 8.7002,
-      "eval_samples_per_second": 3.908,
-      "eval_steps_per_second": 1.954,
       "step": 0
     },
     {
       "epoch": 0.01238390092879257,
-      "grad_norm": 0.6875126957893372,
       "learning_rate": 0.0,
-      "loss": 1.0347,
       "step": 1
     },
     {
       "epoch": 0.02476780185758514,
-      "grad_norm": 0.5213010907173157,
       "learning_rate": 2e-05,
-      "loss": 0.9209,
       "step": 2
     },
     {
       "epoch": 0.03715170278637771,
-      "grad_norm": 0.5898625254631042,
       "learning_rate": 4e-05,
-      "loss": 1.0261,
       "step": 3
     },
     {
       "epoch": 0.03715170278637771,
-      "eval_loss": 0.9535599946975708,
-      "eval_runtime": 8.4038,
-      "eval_samples_per_second": 4.046,
-      "eval_steps_per_second": 2.023,
       "step": 3
     },
     {
       "epoch": 0.04953560371517028,
-      "grad_norm": 0.768417239189148,
       "learning_rate": 6e-05,
-      "loss": 1.04,
       "step": 4
     },
     {
       "epoch": 0.06191950464396285,
-      "grad_norm": 0.6189444661140442,
       "learning_rate": 8e-05,
-      "loss": 1.0581,
       "step": 5
     },
     {
       "epoch": 0.07430340557275542,
-      "grad_norm": 0.7873916029930115,
       "learning_rate": 0.0001,
-      "loss": 1.1582,
       "step": 6
     },
     {
       "epoch": 0.07430340557275542,
-      "eval_loss": 0.9553690552711487,
-      "eval_runtime": 8.2665,
-      "eval_samples_per_second": 4.113,
-      "eval_steps_per_second": 2.057,
       "step": 6
     },
     {
       "epoch": 0.08668730650154799,
-      "grad_norm": 0.4747847020626068,
       "learning_rate": 0.00012,
-      "loss": 1.1452,
       "step": 7
     },
     {
       "epoch": 0.09907120743034056,
-      "grad_norm": 0.9517867565155029,
       "learning_rate": 0.00014,
-      "loss": 0.9401,
       "step": 8
     },
     {
       "epoch": 0.11145510835913312,
-      "grad_norm": 0.5377346277236938,
       "learning_rate": 0.00016,
-      "loss": 0.8051,
       "step": 9
     },
     {
       "epoch": 0.11145510835913312,
-      "eval_loss": 0.9541666507720947,
-      "eval_runtime": 8.196,
-      "eval_samples_per_second": 4.148,
-      "eval_steps_per_second": 2.074,
       "step": 9
     }
   ],

   "log_history": [
     {
       "epoch": 0,
+      "eval_loss": 0.9052417278289795,
+      "eval_runtime": 8.4448,
+      "eval_samples_per_second": 4.026,
+      "eval_steps_per_second": 2.013,
       "step": 0
     },
     {
       "epoch": 0.01238390092879257,
+      "grad_norm": 0.8082026243209839,
       "learning_rate": 0.0,
+      "loss": 1.1985,
       "step": 1
     },
     {
       "epoch": 0.02476780185758514,
+      "grad_norm": 0.50789475440979,
       "learning_rate": 2e-05,
+      "loss": 0.6888,
       "step": 2
     },
     {
       "epoch": 0.03715170278637771,
+      "grad_norm": 0.8321412205696106,
       "learning_rate": 4e-05,
+      "loss": 1.0164,
       "step": 3
     },
     {
       "epoch": 0.03715170278637771,
+      "eval_loss": 0.9056991338729858,
+      "eval_runtime": 7.8859,
+      "eval_samples_per_second": 4.312,
+      "eval_steps_per_second": 2.156,
       "step": 3
     },
     {
       "epoch": 0.04953560371517028,
+      "grad_norm": 0.4088127613067627,
       "learning_rate": 6e-05,
+      "loss": 0.7558,
       "step": 4
     },
     {
       "epoch": 0.06191950464396285,
+      "grad_norm": 0.7107352614402771,
       "learning_rate": 8e-05,
+      "loss": 1.2576,
       "step": 5
     },
     {
       "epoch": 0.07430340557275542,
+      "grad_norm": 0.5187698006629944,
       "learning_rate": 0.0001,
+      "loss": 1.0848,
       "step": 6
     },
     {
       "epoch": 0.07430340557275542,
+      "eval_loss": 0.9046434164047241,
+      "eval_runtime": 7.844,
+      "eval_samples_per_second": 4.335,
+      "eval_steps_per_second": 2.167,
       "step": 6
     },
     {
       "epoch": 0.08668730650154799,
+      "grad_norm": 0.5227215886116028,
       "learning_rate": 0.00012,
+      "loss": 0.7471,
       "step": 7
     },
     {
       "epoch": 0.09907120743034056,
+      "grad_norm": 0.49186187982559204,
       "learning_rate": 0.00014,
+      "loss": 0.9016,
       "step": 8
     },
     {
       "epoch": 0.11145510835913312,
+      "grad_norm": 0.49750179052352905,
       "learning_rate": 0.00016,
+      "loss": 1.0387,
       "step": 9
     },
     {
       "epoch": 0.11145510835913312,
+      "eval_loss": 0.9022544622421265,
+      "eval_runtime": 7.9872,
+      "eval_samples_per_second": 4.257,
+      "eval_steps_per_second": 2.128,
       "step": 9
     }
   ],

checkpoint-9/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:67fb4271d258100396c327a4063ee257b8654ab40cdb395b6c5cdb2b70ee6064
 size 7096

 version https://git-lfs.github.com/spec/v1
+oid sha256:06cd807872f02309d108f298220e5b415c77e8a2df23b68dd2963de4c9f9fc75
 size 7096