End of training

Files changed (8) hide show

README.md CHANGED Viewed

@@ -39,12 +39,12 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 5e-07
 - train_batch_size: 8
-- eval_batch_size: 8
 - seed: 42
 - distributed_type: multi-GPU
 - num_devices: 8
 - total_train_batch_size: 64
-- total_eval_batch_size: 64
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_ratio: 0.1
@@ -58,5 +58,5 @@ The following hyperparameters were used during training:
 - Transformers 4.39.3
 - Pytorch 2.1.2+cu121
-- Datasets 2.14.7
 - Tokenizers 0.15.2

 The following hyperparameters were used during training:
 - learning_rate: 5e-07
 - train_batch_size: 8
+- eval_batch_size: 4
 - seed: 42
 - distributed_type: multi-GPU
 - num_devices: 8
 - total_train_batch_size: 64
+- total_eval_batch_size: 32
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_ratio: 0.1
 - Transformers 4.39.3
 - Pytorch 2.1.2+cu121
+- Datasets 2.18.0
 - Tokenizers 0.15.2

all_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.11715243643320149,
-    "train_runtime": 11089.6574,
-    "train_samples_per_second": 9.017,
     "train_steps_per_second": 0.141
 }

 {
     "epoch": 1.0,
+    "train_loss": 0.1710020688315347,
+    "train_runtime": 11106.5263,
+    "train_samples_per_second": 9.004,
     "train_steps_per_second": 0.141
 }

config.json CHANGED Viewed

@@ -21,6 +21,6 @@
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.39.3",
-  "use_cache": false,
   "vocab_size": 32000
 }

   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.39.3",
+  "use_cache": true,
   "vocab_size": 32000
 }

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c406cf4f7be892e5b1f2ee03c1c1d5dd1012e31d19f64879fdb89e9ec9bc29a4
 size 4943162336

 version https://git-lfs.github.com/spec/v1
+oid sha256:2c045ac89a939e151ad8f6cd36201494b0b674084b03f4009da02b9c641f400a
 size 4943162336

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9b9bd2bf245ad4034e46f152a5718edd749b73e6f7c054edf4694d1e3cd03815
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:589c45c2cffbd77aeba04b60f13111b384b3def14875dc4a23190a04e2117792
 size 4999819336

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:71f0bc0be638197dd0b20572bed9bd0867f9d74b8b77614b5fbc101ff2b043e3
 size 4540516344

 version https://git-lfs.github.com/spec/v1
+oid sha256:6b2148cb02b65d16e8a261007fb4fe98d397f65aa464a0cd2170dc9fd321872a
 size 4540516344

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.11715243643320149,
-    "train_runtime": 11089.6574,
-    "train_samples_per_second": 9.017,
     "train_steps_per_second": 0.141
 }

 {
     "epoch": 1.0,
+    "train_loss": 0.1710020688315347,
+    "train_runtime": 11106.5263,
+    "train_samples_per_second": 9.004,
     "train_steps_per_second": 0.141
 }

trainer_state.json CHANGED Viewed

The diff for this file is too large to render. See raw diff