musr/usssgpt-ft

Browse files

Files changed (4) hide show

README.md +48 -20
adapter_model.safetensors +1 -1
runs/Feb05_13-38-01_a25d9d7f004d/events.out.tfevents.1738762747.a25d9d7f004d.2450.0 +3 -0
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -35,32 +35,60 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 0.0001
-- train_batch_size: 8
-- eval_batch_size: 8
 - seed: 42
 - gradient_accumulation_steps: 4
-- total_train_batch_size: 32
-- optimizer: Use OptimizerNames.ADAMW_BNB with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
-- lr_scheduler_type: cosine
-- lr_scheduler_warmup_ratio: 0.1
-- num_epochs: 10
 - mixed_precision_training: Native AMP
 ### Training results
-| Training Loss | Epoch  | Step | Validation Loss |
-|:-------------:|:------:|:----:|:---------------:|
-| 23.7335       | 0.5714 | 1    | 11.9321         |
-| 23.7344       | 1.5714 | 2    | 11.9321         |
-| 23.7394       | 2.5714 | 3    | 11.9321         |
-| 23.7366       | 3.5714 | 4    | 11.9321         |
-| 23.7318       | 4.5714 | 5    | 11.9321         |
-| 23.7391       | 5.5714 | 6    | 11.9321         |
-| 23.738        | 6.5714 | 7    | 11.9321         |
-| 23.7316       | 7.5714 | 8    | 11.9321         |
-| 23.7385       | 8.5714 | 9    | 11.9321         |
-| 11.8708       | 9.5714 | 10   | 11.9321         |
 ### Framework versions

 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 0.0002
+- train_batch_size: 4
+- eval_batch_size: 4
 - seed: 42
 - gradient_accumulation_steps: 4
+- total_train_batch_size: 16
+- optimizer: Use OptimizerNames.PAGED_ADAMW_8BIT with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: linear
+- lr_scheduler_warmup_steps: 2
+- num_epochs: 50
 - mixed_precision_training: Native AMP
 ### Training results
+| Training Loss | Epoch   | Step | Validation Loss |
+|:-------------:|:-------:|:----:|:---------------:|
+| 11.8582       | 1.0     | 4    | 11.9321         |
+| 11.857        | 2.0     | 8    | 11.9321         |
+| 11.8625       | 3.0     | 12   | 11.9321         |
+| 11.8615       | 4.0     | 16   | 11.9321         |
+| 11.8576       | 5.0     | 20   | 11.9321         |
+| 11.8603       | 6.0     | 24   | 11.9321         |
+| 11.8671       | 7.0     | 28   | 11.9321         |
+| 11.8587       | 8.0     | 32   | 11.9321         |
+| 11.8577       | 9.0     | 36   | 11.9321         |
+| 11.8578       | 10.0    | 40   | 11.9321         |
+| 11.866        | 11.0    | 44   | 11.9321         |
+| 11.8586       | 12.0    | 48   | 11.9321         |
+| 11.8643       | 13.0    | 52   | 11.9321         |
+| 11.8563       | 14.0    | 56   | 11.9321         |
+| 11.8659       | 15.0    | 60   | 11.9321         |
+| 11.8603       | 16.0    | 64   | 11.9321         |
+| 11.8641       | 17.0    | 68   | 11.9321         |
+| 11.8656       | 18.0    | 72   | 11.9321         |
+| 11.8591       | 19.0    | 76   | 11.9321         |
+| 11.8576       | 20.0    | 80   | 11.9321         |
+| 11.8685       | 21.0    | 84   | 11.9321         |
+| 11.8668       | 22.0    | 88   | 11.9321         |
+| 11.8662       | 23.0    | 92   | 11.9321         |
+| 11.8658       | 24.0    | 96   | 11.9321         |
+| 11.869        | 25.0    | 100  | 11.9321         |
+| 11.8656       | 26.0    | 104  | 11.9321         |
+| 11.8581       | 27.0    | 108  | 11.9321         |
+| 11.8575       | 28.0    | 112  | 11.9321         |
+| 11.8587       | 29.0    | 116  | 11.9321         |
+| 11.8571       | 30.0    | 120  | 11.9321         |
+| 11.8612       | 31.0    | 124  | 11.9321         |
+| 11.8662       | 32.0    | 128  | 11.9321         |
+| 11.8636       | 33.0    | 132  | 11.9321         |
+| 11.8593       | 34.0    | 136  | 11.9321         |
+| 11.8571       | 35.0    | 140  | 11.9321         |
+| 11.8644       | 36.0    | 144  | 11.9321         |
+| 11.8594       | 37.0    | 148  | 11.9321         |
+| 11.8645       | 37.6154 | 150  | 11.9321         |
 ### Framework versions

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4d5c3c9a8101c83e451c705c261cbdfc1a3b74214138d3aa59bce884b50165ff
 size 6429920

 version https://git-lfs.github.com/spec/v1
+oid sha256:b2f2ffe3c13c4a1349c34fa1992739012de270ba0aa03ee1b1855e8d1be1670f
 size 6429920

runs/Feb05_13-38-01_a25d9d7f004d/events.out.tfevents.1738762747.a25d9d7f004d.2450.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:046d0aac28b53b761dbd0a66b9db580e87a9ece15afe05fabb8782b8e56fdc61
+size 23663

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b5fb3dbcc6128e98d4088a963ad28b3b480f8f7ab8ca0273575d1dd22698c1d8
 size 5304

 version https://git-lfs.github.com/spec/v1
+oid sha256:ba4ca5f3fcad30fa407ba781ee45b9eb82f2b570e07ffbe8a0a4856b6bc459dd
 size 5304