tarekxpc
/

mamba_text_classification

Transformers

PyTorch

Generated from Trainer

Model card Files Files and versions

xet

Community

tarekxpc commited on Apr 20, 2024

Commit

399e03c

verified ·

1 Parent(s): de6fbbb

Training complete

Browse files

Files changed (2) hide show

README.md +24 -16
pytorch_model.bin +1 -1

README.md CHANGED Viewed

@@ -15,8 +15,16 @@ should probably proofread and complete it, then remove this comment. -->
 This model was trained from scratch on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.6274
-- Accuracy: 1.0
 ## Model description
@@ -35,9 +43,9 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 1e-06
 - train_batch_size: 4
-- eval_batch_size: 8
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
@@ -46,22 +54,22 @@ The following hyperparameters were used during training:
 ### Training results
-| Training Loss | Epoch | Step | Validation Loss | Accuracy |
-|:-------------:|:-----:|:----:|:---------------:|:--------:|
-| 0.6169        | 0.4   | 52   | 0.8997          | 0.0      |
-| 0.698         | 0.81  | 104  | 0.7669          | 0.0      |
-| 0.5953        | 1.21  | 156  | 0.6956          | 0.0      |
-| 0.5979        | 1.61  | 208  | 0.6580          | 1.0      |
-| 0.5949        | 2.02  | 260  | 0.6465          | 1.0      |
-| 0.6608        | 2.42  | 312  | 0.6321          | 1.0      |
-| 0.5082        | 2.82  | 364  | 0.6339          | 1.0      |
-| 0.578         | 3.22  | 416  | 0.6302          | 1.0      |
-| 0.6325        | 3.63  | 468  | 0.6274          | 1.0      |
 ### Framework versions
 - Transformers 4.38.2
 - Pytorch 2.2.1+cu121
-- Datasets 2.18.0
 - Tokenizers 0.15.2

 This model was trained from scratch on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.2292
+- 1: {'precision': 1.0, 'recall': 1.0, 'f1-score': 1.0, 'support': 1}
+- 4: {'precision': 0.6666666666666666, 'recall': 1.0, 'f1-score': 0.8, 'support': 2}
+- 5: {'precision': 0.0, 'recall': 0.0, 'f1-score': 0.0, 'support': 1}
+- 6: {'precision': 1.0, 'recall': 1.0, 'f1-score': 1.0, 'support': 3}
+- 9: {'precision': 1.0, 'recall': 1.0, 'f1-score': 1.0, 'support': 2}
+- 10: {'precision': 1.0, 'recall': 1.0, 'f1-score': 1.0, 'support': 2}
+- Accuracy: 0.9091
+- Macro avg: {'precision': 0.7777777777777777, 'recall': 0.8333333333333334, 'f1-score': 0.7999999999999999, 'support': 11}
+- Weighted avg: {'precision': 0.8484848484848484, 'recall': 0.9090909090909091, 'f1-score': 0.8727272727272727, 'support': 11}
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 5e-05
 - train_batch_size: 4
+- eval_batch_size: 16
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 ### Training results
+| Training Loss | Epoch | Step | Validation Loss | 0                                                                | 1                                                                | 4                                                                               | 5                                                                | 6                                                                               | 9                                                                | 10                                                               | Accuracy | Macro avg                                                                                                      | Weighted avg                                                                                                   |
+|:-------------:|:-----:|:----:|:---------------:|:----------------------------------------------------------------:|:----------------------------------------------------------------:|:-------------------------------------------------------------------------------:|:----------------------------------------------------------------:|:-------------------------------------------------------------------------------:|:----------------------------------------------------------------:|:----------------------------------------------------------------:|:--------:|:--------------------------------------------------------------------------------------------------------------:|:--------------------------------------------------------------------------------------------------------------:|
+| 1.0038        | 0.4   | 459  | 0.7923          | {'precision': 0.0, 'recall': 0.0, 'f1-score': 0.0, 'support': 0} | {'precision': 1.0, 'recall': 1.0, 'f1-score': 1.0, 'support': 1} | {'precision': 0.6666666666666666, 'recall': 1.0, 'f1-score': 0.8, 'support': 2} | {'precision': 0.0, 'recall': 0.0, 'f1-score': 0.0, 'support': 1} | {'precision': 1.0, 'recall': 0.6666666666666666, 'f1-score': 0.8, 'support': 3} | {'precision': 1.0, 'recall': 1.0, 'f1-score': 1.0, 'support': 2} | {'precision': 1.0, 'recall': 1.0, 'f1-score': 1.0, 'support': 2} | 0.8182   | {'precision': 0.6666666666666666, 'recall': 0.6666666666666666, 'f1-score': 0.6571428571428571, 'support': 11} | {'precision': 0.8484848484848484, 'recall': 0.8181818181818182, 'f1-score': 0.8181818181818182, 'support': 11} |
+| 1.0341        | 0.8   | 918  | 0.0965          | {'precision': 1.0, 'recall': 1.0, 'f1-score': 1.0, 'support': 1} | {'precision': 1.0, 'recall': 1.0, 'f1-score': 1.0, 'support': 2} | {'precision': 1.0, 'recall': 1.0, 'f1-score': 1.0, 'support': 1}                | {'precision': 1.0, 'recall': 1.0, 'f1-score': 1.0, 'support': 3} | {'precision': 1.0, 'recall': 1.0, 'f1-score': 1.0, 'support': 2}                | {'precision': 1.0, 'recall': 1.0, 'f1-score': 1.0, 'support': 2} | 1.0                                                              | {'precision': 1.0, 'recall': 1.0, 'f1-score': 1.0, 'support': 11}| {'precision': 1.0, 'recall': 1.0, 'f1-score': 1.0, 'support': 11}                                              |
+| 0.0006        | 1.2   | 1377 | 0.1084          | {'precision': 1.0, 'recall': 1.0, 'f1-score': 1.0, 'support': 1} | {'precision': 0.6666666666666666, 'recall': 1.0, 'f1-score': 0.8, 'support': 2}| {'precision': 0.0, 'recall': 0.0, 'f1-score': 0.0, 'support': 1}                | {'precision': 1.0, 'recall': 1.0, 'f1-score': 1.0, 'support': 3} | {'precision': 1.0, 'recall': 1.0, 'f1-score': 1.0, 'support': 2}                | {'precision': 1.0, 'recall': 1.0, 'f1-score': 1.0, 'support': 2} | 0.9091                                                           | {'precision': 0.7777777777777777, 'recall': 0.8333333333333334, 'f1-score': 0.7999999999999999, 'support': 11}| {'precision': 0.8484848484848484, 'recall': 0.9090909090909091, 'f1-score': 0.8727272727272727, 'support': 11} |
+| 0.1193        | 1.6   | 1836 | 0.7853          | {'precision': 1.0, 'recall': 1.0, 'f1-score': 1.0, 'support': 1} | {'precision': 0.6666666666666666, 'recall': 1.0, 'f1-score': 0.8, 'support': 2}| {'precision': 0.0, 'recall': 0.0, 'f1-score': 0.0, 'support': 1}                | {'precision': 1.0, 'recall': 1.0, 'f1-score': 1.0, 'support': 3} | {'precision': 1.0, 'recall': 1.0, 'f1-score': 1.0, 'support': 2}                | {'precision': 1.0, 'recall': 1.0, 'f1-score': 1.0, 'support': 2} | 0.9091                                                           | {'precision': 0.7777777777777777, 'recall': 0.8333333333333334, 'f1-score': 0.7999999999999999, 'support': 11}| {'precision': 0.8484848484848484, 'recall': 0.9090909090909091, 'f1-score': 0.8727272727272727, 'support': 11} |
+| 0.007         | 2.0   | 2295 | 0.0076          | {'precision': 1.0, 'recall': 1.0, 'f1-score': 1.0, 'support': 1} | {'precision': 1.0, 'recall': 1.0, 'f1-score': 1.0, 'support': 2} | {'precision': 1.0, 'recall': 1.0, 'f1-score': 1.0, 'support': 1}                | {'precision': 1.0, 'recall': 1.0, 'f1-score': 1.0, 'support': 3} | {'precision': 1.0, 'recall': 1.0, 'f1-score': 1.0, 'support': 2}                | {'precision': 1.0, 'recall': 1.0, 'f1-score': 1.0, 'support': 2} | 1.0                                                              | {'precision': 1.0, 'recall': 1.0, 'f1-score': 1.0, 'support': 11}| {'precision': 1.0, 'recall': 1.0, 'f1-score': 1.0, 'support': 11}                                              |
+| 0.0001        | 2.4   | 2754 | 0.3204          | {'precision': 1.0, 'recall': 1.0, 'f1-score': 1.0, 'support': 1} | {'precision': 0.6666666666666666, 'recall': 1.0, 'f1-score': 0.8, 'support': 2}| {'precision': 0.0, 'recall': 0.0, 'f1-score': 0.0, 'support': 1}                | {'precision': 1.0, 'recall': 1.0, 'f1-score': 1.0, 'support': 3} | {'precision': 1.0, 'recall': 1.0, 'f1-score': 1.0, 'support': 2}                | {'precision': 1.0, 'recall': 1.0, 'f1-score': 1.0, 'support': 2} | 0.9091                                                           | {'precision': 0.7777777777777777, 'recall': 0.8333333333333334, 'f1-score': 0.7999999999999999, 'support': 11}| {'precision': 0.8484848484848484, 'recall': 0.9090909090909091, 'f1-score': 0.8727272727272727, 'support': 11} |
+| 0.0001        | 2.8   | 3213 | 0.0948          | {'precision': 1.0, 'recall': 1.0, 'f1-score': 1.0, 'support': 1} | {'precision': 0.6666666666666666, 'recall': 1.0, 'f1-score': 0.8, 'support': 2}| {'precision': 0.0, 'recall': 0.0, 'f1-score': 0.0, 'support': 1}                | {'precision': 1.0, 'recall': 1.0, 'f1-score': 1.0, 'support': 3} | {'precision': 1.0, 'recall': 1.0, 'f1-score': 1.0, 'support': 2}                | {'precision': 1.0, 'recall': 1.0, 'f1-score': 1.0, 'support': 2} | 0.9091                                                           | {'precision': 0.7777777777777777, 'recall': 0.8333333333333334, 'f1-score': 0.7999999999999999, 'support': 11}| {'precision': 0.8484848484848484, 'recall': 0.9090909090909091, 'f1-score': 0.8727272727272727, 'support': 11} |
+| 0.0001        | 3.2   | 3672 | 0.1412          | {'precision': 1.0, 'recall': 1.0, 'f1-score': 1.0, 'support': 1} | {'precision': 0.6666666666666666, 'recall': 1.0, 'f1-score': 0.8, 'support': 2}| {'precision': 0.0, 'recall': 0.0, 'f1-score': 0.0, 'support': 1}                | {'precision': 1.0, 'recall': 1.0, 'f1-score': 1.0, 'support': 3} | {'precision': 1.0, 'recall': 1.0, 'f1-score': 1.0, 'support': 2}                | {'precision': 1.0, 'recall': 1.0, 'f1-score': 1.0, 'support': 2} | 0.9091                                                           | {'precision': 0.7777777777777777, 'recall': 0.8333333333333334, 'f1-score': 0.7999999999999999, 'support': 11}| {'precision': 0.8484848484848484, 'recall': 0.9090909090909091, 'f1-score': 0.8727272727272727, 'support': 11} |
+| 0.0           | 3.6   | 4131 | 0.2292          | {'precision': 1.0, 'recall': 1.0, 'f1-score': 1.0, 'support': 1} | {'precision': 0.6666666666666666, 'recall': 1.0, 'f1-score': 0.8, 'support': 2}| {'precision': 0.0, 'recall': 0.0, 'f1-score': 0.0, 'support': 1}                | {'precision': 1.0, 'recall': 1.0, 'f1-score': 1.0, 'support': 3} | {'precision': 1.0, 'recall': 1.0, 'f1-score': 1.0, 'support': 2}                | {'precision': 1.0, 'recall': 1.0, 'f1-score': 1.0, 'support': 2} | 0.9091                                                           | {'precision': 0.7777777777777777, 'recall': 0.8333333333333334, 'f1-score': 0.7999999999999999, 'support': 11}| {'precision': 0.8484848484848484, 'recall': 0.9090909090909091, 'f1-score': 0.8727272727272727, 'support': 11} |
 ### Framework versions
 - Transformers 4.38.2
 - Pytorch 2.2.1+cu121
+- Datasets 2.19.0
 - Tokenizers 0.15.2

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b90a15bbcb4077745e16c88bdf97cfb93bec8727f4ccf6cac58fd974532f1aeb
 size 516667930

 version https://git-lfs.github.com/spec/v1
+oid sha256:5ffe791a7a07f85134bc8b71f37e23e6ac075194a53dfa7e43af9d61af8eef5b
 size 516667930