End of training

Browse files

Files changed (5) hide show

README.md +13 -13
config.json +1 -1
pytorch_model.bin +1 -1
trainer_state.json +54 -54
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -7,20 +7,20 @@ metrics:
 - accuracy
 - f1
 model-index:
-- name: bert-large-japanease-v2-gpt4-relevance-learned
   results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
-# bert-large-japanease-v2-gpt4-relevance-learned
 This model is a fine-tuned version of [cl-tohoku/bert-large-japanese-v2](https://huggingface.co/cl-tohoku/bert-large-japanese-v2) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 3.1789
-- Accuracy: 0.196
-- F1: 0.1399
 ## Model description
@@ -40,8 +40,8 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 2e-05
-- train_batch_size: 8
-- eval_batch_size: 8
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
@@ -51,16 +51,16 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss | Accuracy | F1     |
 |:-------------:|:-----:|:----:|:---------------:|:--------:|:------:|
-| 3.5154        | 1.0   | 1125 | 3.4451          | 0.146    | 0.0567 |
-| 3.2778        | 2.0   | 2250 | 3.1801          | 0.197    | 0.0963 |
-| 3.0802        | 3.0   | 3375 | 3.1374          | 0.174    | 0.1120 |
-| 2.8756        | 4.0   | 4500 | 3.1239          | 0.191    | 0.1230 |
-| 2.6657        | 5.0   | 5625 | 3.1789          | 0.196    | 0.1399 |
 ### Framework versions
-- Transformers 4.33.1
 - Pytorch 2.0.1+cu118
 - Datasets 2.14.5
 - Tokenizers 0.13.3

 - accuracy
 - f1
 model-index:
+- name: results
   results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
+# results
 This model is a fine-tuned version of [cl-tohoku/bert-large-japanese-v2](https://huggingface.co/cl-tohoku/bert-large-japanese-v2) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 3.2693
+- Accuracy: 0.885
+- F1: 0.8788
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 2e-05
+- train_batch_size: 16
+- eval_batch_size: 16
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 | Training Loss | Epoch | Step | Validation Loss | Accuracy | F1     |
 |:-------------:|:-----:|:----:|:---------------:|:--------:|:------:|
+| 3.3692        | 1.0   | 563  | 3.2122          | 0.872    | 0.8560 |
+| 3.0963        | 2.0   | 1126 | 3.1045          | 0.866    | 0.8625 |
+| 2.8698        | 3.0   | 1689 | 3.1410          | 0.882    | 0.8755 |
+| 2.6212        | 4.0   | 2252 | 3.2119          | 0.876    | 0.8702 |
+| 2.407         | 5.0   | 2815 | 3.2693          | 0.885    | 0.8788 |
 ### Framework versions
+- Transformers 4.33.2
 - Pytorch 2.0.1+cu118
 - Datasets 2.14.5
 - Tokenizers 0.13.3

config.json CHANGED Viewed

@@ -225,7 +225,7 @@
   "position_embedding_type": "absolute",
   "problem_type": "single_label_classification",
   "torch_dtype": "float32",
-  "transformers_version": "4.33.1",
   "type_vocab_size": 2,
   "use_cache": true,
   "vocab_size": 32768

   "position_embedding_type": "absolute",
   "problem_type": "single_label_classification",
   "torch_dtype": "float32",
+  "transformers_version": "4.33.2",
   "type_vocab_size": 2,
   "use_cache": true,
   "vocab_size": 32768

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:075c57655ed23cfe35476741f850cf2e39a33aaa014b3595474b61bbd72023f5
 size 1350315697

 version https://git-lfs.github.com/spec/v1
+oid sha256:00733e21f9777592db355d663917e83017977899ba42bdc5fad8dad17350a55e
 size 1350315697

trainer_state.json CHANGED Viewed

@@ -3,7 +3,7 @@
   "best_model_checkpoint": null,
   "epoch": 5.0,
   "eval_steps": 500,
-  "global_step": 5625,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -11,98 +11,98 @@
     {
       "epoch": 1.0,
       "learning_rate": 1.6000000000000003e-05,
-      "loss": 3.5154,
-      "step": 1125
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.146,
-      "eval_f1": 0.05673406159055716,
-      "eval_loss": 3.445145606994629,
-      "eval_runtime": 16.8588,
-      "eval_samples_per_second": 59.316,
-      "eval_steps_per_second": 7.415,
-      "step": 1125
     },
     {
       "epoch": 2.0,
       "learning_rate": 1.2e-05,
-      "loss": 3.2778,
-      "step": 2250
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.197,
-      "eval_f1": 0.09626799246503706,
-      "eval_loss": 3.1801486015319824,
-      "eval_runtime": 16.85,
-      "eval_samples_per_second": 59.347,
-      "eval_steps_per_second": 7.418,
-      "step": 2250
     },
     {
       "epoch": 3.0,
       "learning_rate": 8.000000000000001e-06,
-      "loss": 3.0802,
-      "step": 3375
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.174,
-      "eval_f1": 0.11203679919237455,
-      "eval_loss": 3.1373538970947266,
-      "eval_runtime": 16.8552,
-      "eval_samples_per_second": 59.329,
-      "eval_steps_per_second": 7.416,
-      "step": 3375
     },
     {
       "epoch": 4.0,
       "learning_rate": 4.000000000000001e-06,
-      "loss": 2.8756,
-      "step": 4500
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.191,
-      "eval_f1": 0.1229927332781174,
-      "eval_loss": 3.123941421508789,
-      "eval_runtime": 16.904,
-      "eval_samples_per_second": 59.158,
-      "eval_steps_per_second": 7.395,
-      "step": 4500
     },
     {
       "epoch": 5.0,
       "learning_rate": 0.0,
-      "loss": 2.6657,
-      "step": 5625
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.196,
-      "eval_f1": 0.1399460092685649,
-      "eval_loss": 3.178866147994995,
-      "eval_runtime": 16.8498,
-      "eval_samples_per_second": 59.348,
-      "eval_steps_per_second": 7.419,
-      "step": 5625
     },
     {
       "epoch": 5.0,
-      "step": 5625,
-      "total_flos": 4.030110203721907e+16,
-      "train_loss": 3.0829483940972224,
-      "train_runtime": 3366.8478,
-      "train_samples_per_second": 13.366,
-      "train_steps_per_second": 1.671
     }
   ],
   "logging_steps": 500,
-  "max_steps": 5625,
   "num_train_epochs": 5,
   "save_steps": 500,
-  "total_flos": 4.030110203721907e+16,
   "trial_name": null,
   "trial_params": null
 }

   "best_model_checkpoint": null,
   "epoch": 5.0,
   "eval_steps": 500,
+  "global_step": 2815,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     {
       "epoch": 1.0,
       "learning_rate": 1.6000000000000003e-05,
+      "loss": 3.3692,
+      "step": 563
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.872,
+      "eval_f1": 0.856009752654711,
+      "eval_loss": 3.21221923828125,
+      "eval_runtime": 16.3666,
+      "eval_samples_per_second": 61.1,
+      "eval_steps_per_second": 3.849,
+      "step": 563
     },
     {
       "epoch": 2.0,
       "learning_rate": 1.2e-05,
+      "loss": 3.0963,
+      "step": 1126
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.866,
+      "eval_f1": 0.8624612482571968,
+      "eval_loss": 3.1044771671295166,
+      "eval_runtime": 16.3224,
+      "eval_samples_per_second": 61.265,
+      "eval_steps_per_second": 3.86,
+      "step": 1126
     },
     {
       "epoch": 3.0,
       "learning_rate": 8.000000000000001e-06,
+      "loss": 2.8698,
+      "step": 1689
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.882,
+      "eval_f1": 0.8755033031176542,
+      "eval_loss": 3.1409871578216553,
+      "eval_runtime": 16.3796,
+      "eval_samples_per_second": 61.051,
+      "eval_steps_per_second": 3.846,
+      "step": 1689
     },
     {
       "epoch": 4.0,
       "learning_rate": 4.000000000000001e-06,
+      "loss": 2.6212,
+      "step": 2252
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.876,
+      "eval_f1": 0.8701998582565557,
+      "eval_loss": 3.2119336128234863,
+      "eval_runtime": 16.3349,
+      "eval_samples_per_second": 61.219,
+      "eval_steps_per_second": 3.857,
+      "step": 2252
     },
     {
       "epoch": 5.0,
       "learning_rate": 0.0,
+      "loss": 2.407,
+      "step": 2815
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.885,
+      "eval_f1": 0.8788301734570391,
+      "eval_loss": 3.269321918487549,
+      "eval_runtime": 16.3269,
+      "eval_samples_per_second": 61.249,
+      "eval_steps_per_second": 3.859,
+      "step": 2815
     },
     {
       "epoch": 5.0,
+      "step": 2815,
+      "total_flos": 4.169197960165814e+16,
+      "train_loss": 2.8726869085118785,
+      "train_runtime": 3265.1327,
+      "train_samples_per_second": 13.782,
+      "train_steps_per_second": 0.862
     }
   ],
   "logging_steps": 500,
+  "max_steps": 2815,
   "num_train_epochs": 5,
   "save_steps": 500,
+  "total_flos": 4.169197960165814e+16,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:886b5840ff9d3374ae58d020c0dda37e9836c32e9c097841f2dd9e1ddf57052e
-size 4155

 version https://git-lfs.github.com/spec/v1
+oid sha256:f82fa4d643b419de7da5747f8a36936f20c8fe65a42386e256c7e43a673cc3d3
+size 4027