Add new CrossEncoder model
Browse files- README.md +394 -0
- config.json +34 -0
- model.safetensors +3 -0
- special_tokens_map.json +37 -0
- tokenizer.json +0 -0
- tokenizer_config.json +94 -0
- vocab.txt +0 -0
README.md
ADDED
@@ -0,0 +1,394 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
tags:
|
3 |
+
- sentence-transformers
|
4 |
+
- cross-encoder
|
5 |
+
- reranker
|
6 |
+
- generated_from_trainer
|
7 |
+
- dataset_size:14287
|
8 |
+
- loss:BinaryCrossEntropyLoss
|
9 |
+
base_model: yoriis/ce-final
|
10 |
+
pipeline_tag: text-ranking
|
11 |
+
library_name: sentence-transformers
|
12 |
+
metrics:
|
13 |
+
- accuracy
|
14 |
+
- accuracy_threshold
|
15 |
+
- f1
|
16 |
+
- f1_threshold
|
17 |
+
- precision
|
18 |
+
- recall
|
19 |
+
- average_precision
|
20 |
+
model-index:
|
21 |
+
- name: CrossEncoder based on yoriis/ce-final
|
22 |
+
results:
|
23 |
+
- task:
|
24 |
+
type: cross-encoder-classification
|
25 |
+
name: Cross Encoder Classification
|
26 |
+
dataset:
|
27 |
+
name: eval
|
28 |
+
type: eval
|
29 |
+
metrics:
|
30 |
+
- type: accuracy
|
31 |
+
value: 0.9767002518891688
|
32 |
+
name: Accuracy
|
33 |
+
- type: accuracy_threshold
|
34 |
+
value: 0.6093786954879761
|
35 |
+
name: Accuracy Threshold
|
36 |
+
- type: f1
|
37 |
+
value: 0.8514056224899598
|
38 |
+
name: F1
|
39 |
+
- type: f1_threshold
|
40 |
+
value: 0.08044017106294632
|
41 |
+
name: F1 Threshold
|
42 |
+
- type: precision
|
43 |
+
value: 0.8412698412698413
|
44 |
+
name: Precision
|
45 |
+
- type: recall
|
46 |
+
value: 0.8617886178861789
|
47 |
+
name: Recall
|
48 |
+
- type: average_precision
|
49 |
+
value: 0.8904592423807994
|
50 |
+
name: Average Precision
|
51 |
+
---
|
52 |
+
|
53 |
+
# CrossEncoder based on yoriis/ce-final
|
54 |
+
|
55 |
+
This is a [Cross Encoder](https://www.sbert.net/docs/cross_encoder/usage/usage.html) model finetuned from [yoriis/ce-final](https://huggingface.co/yoriis/ce-final) using the [sentence-transformers](https://www.SBERT.net) library. It computes scores for pairs of texts, which can be used for text reranking and semantic search.
|
56 |
+
|
57 |
+
## Model Details
|
58 |
+
|
59 |
+
### Model Description
|
60 |
+
- **Model Type:** Cross Encoder
|
61 |
+
- **Base model:** [yoriis/ce-final](https://huggingface.co/yoriis/ce-final) <!-- at revision 83b2db24dab0f081cc808ae8789a4d5469c79682 -->
|
62 |
+
- **Maximum Sequence Length:** 512 tokens
|
63 |
+
- **Number of Output Labels:** 1 label
|
64 |
+
<!-- - **Training Dataset:** Unknown -->
|
65 |
+
<!-- - **Language:** Unknown -->
|
66 |
+
<!-- - **License:** Unknown -->
|
67 |
+
|
68 |
+
### Model Sources
|
69 |
+
|
70 |
+
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
|
71 |
+
- **Documentation:** [Cross Encoder Documentation](https://www.sbert.net/docs/cross_encoder/usage/usage.html)
|
72 |
+
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
|
73 |
+
- **Hugging Face:** [Cross Encoders on Hugging Face](https://huggingface.co/models?library=sentence-transformers&other=cross-encoder)
|
74 |
+
|
75 |
+
## Usage
|
76 |
+
|
77 |
+
### Direct Usage (Sentence Transformers)
|
78 |
+
|
79 |
+
First install the Sentence Transformers library:
|
80 |
+
|
81 |
+
```bash
|
82 |
+
pip install -U sentence-transformers
|
83 |
+
```
|
84 |
+
|
85 |
+
Then you can load this model and run inference.
|
86 |
+
```python
|
87 |
+
from sentence_transformers import CrossEncoder
|
88 |
+
|
89 |
+
# Download from the 🤗 Hub
|
90 |
+
model = CrossEncoder("yoriis/ce-task-70")
|
91 |
+
# Get scores for pairs of texts
|
92 |
+
pairs = [
|
93 |
+
['ما المخلوقات التي تسبح الله؟', 'يا بني آدم إما يأتينكم رسل منكم يقصون عليكم آياتي فمن اتقى وأصلح فلا خوف عليهم ولا هم يحزنون. والذين كذبوا بآياتنا واستكبروا عنها أولئك أصحاب النار هم فيها خالدون. فمن أظلم ممن افترى على الله كذبا أو كذب بآياته أولئك ينالهم نصيبهم من الكتاب حتى إذا جاءتهم رسلنا يتوفونهم قالوا أين ما كنتم تدعون من دون الله قالوا ضلوا عنا وشهدوا على أنفسهم أنهم كانوا كافرين.'],
|
94 |
+
['اتهم القرآن بأنه السبب في الدكتاتورية الإسلامية لكونه أباح ضرب النساء في حالة النشوز، كيف نرد على ذلك؟', 'إذ قال الله يا عيسى ابن مريم اذكر نعمتي عليك وعلى والدتك إذ أيدتك بروح القدس تكلم الناس في المهد وكهلا وإذ علمتك الكتاب والحكمة والتوراة والإنجيل وإذ تخلق من الطين كهيئة الطير بإذني فتنفخ فيها فتكون طيرا بإذني وتبرئ الأكمه والأبرص بإذني وإذ تخرج الموتى بإذني وإذ كففت بني إسرائيل عنك إذ جئتهم بالبينات فقال الذين كفروا منهم إن هذا إلا سحر مبين. وإذ أوحيت إلى الحواريين أن آمنوا بي وبرسولي قالوا آمنا واشهد بأننا مسلمون.'],
|
95 |
+
['ما هو الجهاد؟', '[PASSAGE_NOT_FOUND]'],
|
96 |
+
['هل كان سيدنا يوسف عليه السلام رسولا أم نبيا؟', 'الرجال قوامون على النساء بما فضل الله بعضهم على بعض وبما أنفقوا من أموالهم فالصالحات قانتات حافظات للغيب بما حفظ الله واللاتي تخافون نشوزهن فعظوهن واهجروهن في المضاجع واضربوهن فإن أطعنكم فلا تبغوا عليهن سبيلا إن الله كان عليا كبيرا. وإن خفتم شقاق بينهما فابعثوا حكما من أ��له وحكما من أهلها إن يريدا إصلاحا يوفق الله بينهما إن الله كان عليما خبيرا.'],
|
97 |
+
['ما هي المنافع الصحية لصلاة الفجر؟', 'وقال الله لا تتخذوا إلهين اثنين إنما هو إله واحد فإياي فارهبون. وله ما في السماوات والأرض وله الدين واصبا أفغير الله تتقون. وما بكم من نعمة فمن الله ثم إذا مسكم الضر فإليه تجأرون. ثم إذا كشف الضر عنكم إذا فريق منكم بربهم يشركون. ليكفروا بما آتيناهم فتمتعوا فسوف تعلمون.'],
|
98 |
+
]
|
99 |
+
scores = model.predict(pairs)
|
100 |
+
print(scores.shape)
|
101 |
+
# (5,)
|
102 |
+
|
103 |
+
# Or rank different texts based on similarity to a single text
|
104 |
+
ranks = model.rank(
|
105 |
+
'ما المخلوقات التي تسبح الله؟',
|
106 |
+
[
|
107 |
+
'يا بني آدم إما يأتينكم رسل منكم يقصون عليكم آياتي فمن اتقى وأصلح فلا خوف عليهم ولا هم يحزنون. والذين كذبوا بآياتنا واستكبروا عنها أولئك أصحاب النار هم فيها خالدون. فمن أظلم ممن افترى على الله كذبا أو كذب بآياته أولئك ينالهم نصيبهم من الكتاب حتى إذا جاءتهم رسلنا يتوفونهم قالوا أين ما كنتم تدعون من دون الله قالوا ضلوا عنا وشهدوا على أنفسهم أنهم كانوا كافرين.',
|
108 |
+
'إذ قال الله يا عيسى ابن مريم اذكر نعمتي عليك وعلى والدتك إذ أيدتك بروح القدس تكلم الناس في المهد وكهلا وإذ علمتك الكتاب والحكمة والتوراة والإنجيل وإذ تخلق من الطين كهيئة الطير بإذني فتنفخ فيها فتكون طيرا بإذني وتبرئ الأكمه والأبرص بإذني وإذ تخرج الموتى بإذني وإذ كففت بني إسرائيل عنك إذ جئتهم بالبينات فقال الذين كفروا منهم إن هذا إلا سحر مبين. وإذ أوحيت إلى الحواريين أن آمنوا بي وبرسولي قالوا آمنا واشهد بأننا مسلمون.',
|
109 |
+
'[PASSAGE_NOT_FOUND]',
|
110 |
+
'الرجال قوامون على النساء بما فضل الله بعضهم على بعض وبما أنفقوا من أموالهم فالصالحات قانتات حافظات للغيب بما حفظ الله واللاتي تخافون نشوزهن فعظوهن واهجروهن في المضاجع واضربوهن فإن أطعنكم فلا تبغوا عليهن سبيلا إن الله كان عليا كبيرا. وإن خفتم شقاق بينهما فابعثوا حكما من أهله وحكما من أهلها إن يريدا إصلاحا يوفق الله بينهما إن الله كان عليما خبيرا.',
|
111 |
+
'وقال الله لا تتخذوا إلهين اثنين إنما هو إله واحد فإياي فارهبون. وله ما في السماوات والأرض وله الدين واصبا أفغير الله تتقون. وما بكم من نعمة فمن الله ثم إذا مسكم الضر فإليه تجأرون. ثم إذا كشف الضر عنكم إذا فريق منكم بربهم يشركون. ليكفروا بما آتيناهم فتمتعوا فسوف تعلمون.',
|
112 |
+
]
|
113 |
+
)
|
114 |
+
# [{'corpus_id': ..., 'score': ...}, {'corpus_id': ..., 'score': ...}, ...]
|
115 |
+
```
|
116 |
+
|
117 |
+
<!--
|
118 |
+
### Direct Usage (Transformers)
|
119 |
+
|
120 |
+
<details><summary>Click to see the direct usage in Transformers</summary>
|
121 |
+
|
122 |
+
</details>
|
123 |
+
-->
|
124 |
+
|
125 |
+
<!--
|
126 |
+
### Downstream Usage (Sentence Transformers)
|
127 |
+
|
128 |
+
You can finetune this model on your own dataset.
|
129 |
+
|
130 |
+
<details><summary>Click to expand</summary>
|
131 |
+
|
132 |
+
</details>
|
133 |
+
-->
|
134 |
+
|
135 |
+
<!--
|
136 |
+
### Out-of-Scope Use
|
137 |
+
|
138 |
+
*List how the model may foreseeably be misused and address what users ought not to do with the model.*
|
139 |
+
-->
|
140 |
+
|
141 |
+
## Evaluation
|
142 |
+
|
143 |
+
### Metrics
|
144 |
+
|
145 |
+
#### Cross Encoder Classification
|
146 |
+
|
147 |
+
* Dataset: `eval`
|
148 |
+
* Evaluated with [<code>CrossEncoderClassificationEvaluator</code>](https://sbert.net/docs/package_reference/cross_encoder/evaluation.html#sentence_transformers.cross_encoder.evaluation.CrossEncoderClassificationEvaluator)
|
149 |
+
|
150 |
+
| Metric | Value |
|
151 |
+
|:----------------------|:-----------|
|
152 |
+
| accuracy | 0.9767 |
|
153 |
+
| accuracy_threshold | 0.6094 |
|
154 |
+
| f1 | 0.8514 |
|
155 |
+
| f1_threshold | 0.0804 |
|
156 |
+
| precision | 0.8413 |
|
157 |
+
| recall | 0.8618 |
|
158 |
+
| **average_precision** | **0.8905** |
|
159 |
+
|
160 |
+
<!--
|
161 |
+
## Bias, Risks and Limitations
|
162 |
+
|
163 |
+
*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
|
164 |
+
-->
|
165 |
+
|
166 |
+
<!--
|
167 |
+
### Recommendations
|
168 |
+
|
169 |
+
*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
|
170 |
+
-->
|
171 |
+
|
172 |
+
## Training Details
|
173 |
+
|
174 |
+
### Training Dataset
|
175 |
+
|
176 |
+
#### Unnamed Dataset
|
177 |
+
|
178 |
+
* Size: 14,287 training samples
|
179 |
+
* Columns: <code>sentence_0</code>, <code>sentence_1</code>, and <code>label</code>
|
180 |
+
* Approximate statistics based on the first 1000 samples:
|
181 |
+
| | sentence_0 | sentence_1 | label |
|
182 |
+
|:--------|:------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------|:---------------------------------------------------------------|
|
183 |
+
| type | string | string | float |
|
184 |
+
| details | <ul><li>min: 11 characters</li><li>mean: 41.23 characters</li><li>max: 201 characters</li></ul> | <ul><li>min: 19 characters</li><li>mean: 213.75 characters</li><li>max: 1086 characters</li></ul> | <ul><li>min: 0.0</li><li>mean: 0.08</li><li>max: 1.0</li></ul> |
|
185 |
+
* Samples:
|
186 |
+
| sentence_0 | sentence_1 | label |
|
187 |
+
|:---------------------------------------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------|
|
188 |
+
| <code>ما المخلوقات التي تسبح الله؟</code> | <code>يا بني آدم إما يأتينكم رسل منكم يقصون عليكم آياتي فمن اتقى وأصلح فلا خوف عليهم ولا هم يحزنون. والذين كذبوا بآياتنا واستكبروا عنها أولئك أصحاب النار هم فيها خالدون. فمن أظلم ممن افترى على الله كذبا أو كذب بآياته أولئك ينالهم نصيبهم من الكتاب حتى إذا جاءتهم رسلنا يتوفونهم قالوا أين ما كنتم تدعون من دون الله قالوا ضلوا عنا وشهدوا على أنفسهم أنهم كانوا كافرين.</code> | <code>0.0</code> |
|
189 |
+
| <code>اتهم القرآن بأنه السبب في الدكتاتورية الإسلامية لكونه أباح ضرب النساء في حالة النشوز، كيف نرد على ذلك؟</code> | <code>إذ قال الله يا عيسى ابن مريم اذكر نعمتي عليك وعلى والدتك إذ أيدتك بروح القدس تكلم الناس في المهد وكهلا وإذ علمتك الكتاب والحكمة والتوراة والإنجيل وإذ تخلق من الطين كهيئة الطير بإذني فتنفخ فيها فتكون طيرا بإذني وتبرئ الأكمه والأبرص بإذني وإذ تخرج الموتى بإذني وإذ كففت بني إسرائيل عنك إذ جئتهم بالبينات فقال الذين كفروا منهم إن هذا إلا سحر مبين. وإذ أوحيت إلى الحواريين أن آمنوا بي وبرسولي قالوا آمنا واشهد بأننا مسلمون.</code> | <code>0.0</code> |
|
190 |
+
| <code>ما هو الجهاد؟</code> | <code>[PASSAGE_NOT_FOUND]</code> | <code>0.0</code> |
|
191 |
+
* Loss: [<code>BinaryCrossEntropyLoss</code>](https://sbert.net/docs/package_reference/cross_encoder/losses.html#binarycrossentropyloss) with these parameters:
|
192 |
+
```json
|
193 |
+
{
|
194 |
+
"activation_fn": "torch.nn.modules.linear.Identity",
|
195 |
+
"pos_weight": null
|
196 |
+
}
|
197 |
+
```
|
198 |
+
|
199 |
+
### Training Hyperparameters
|
200 |
+
#### Non-Default Hyperparameters
|
201 |
+
|
202 |
+
- `eval_strategy`: steps
|
203 |
+
- `num_train_epochs`: 4
|
204 |
+
- `fp16`: True
|
205 |
+
|
206 |
+
#### All Hyperparameters
|
207 |
+
<details><summary>Click to expand</summary>
|
208 |
+
|
209 |
+
- `overwrite_output_dir`: False
|
210 |
+
- `do_predict`: False
|
211 |
+
- `eval_strategy`: steps
|
212 |
+
- `prediction_loss_only`: True
|
213 |
+
- `per_device_train_batch_size`: 8
|
214 |
+
- `per_device_eval_batch_size`: 8
|
215 |
+
- `per_gpu_train_batch_size`: None
|
216 |
+
- `per_gpu_eval_batch_size`: None
|
217 |
+
- `gradient_accumulation_steps`: 1
|
218 |
+
- `eval_accumulation_steps`: None
|
219 |
+
- `torch_empty_cache_steps`: None
|
220 |
+
- `learning_rate`: 5e-05
|
221 |
+
- `weight_decay`: 0.0
|
222 |
+
- `adam_beta1`: 0.9
|
223 |
+
- `adam_beta2`: 0.999
|
224 |
+
- `adam_epsilon`: 1e-08
|
225 |
+
- `max_grad_norm`: 1
|
226 |
+
- `num_train_epochs`: 4
|
227 |
+
- `max_steps`: -1
|
228 |
+
- `lr_scheduler_type`: linear
|
229 |
+
- `lr_scheduler_kwargs`: {}
|
230 |
+
- `warmup_ratio`: 0.0
|
231 |
+
- `warmup_steps`: 0
|
232 |
+
- `log_level`: passive
|
233 |
+
- `log_level_replica`: warning
|
234 |
+
- `log_on_each_node`: True
|
235 |
+
- `logging_nan_inf_filter`: True
|
236 |
+
- `save_safetensors`: True
|
237 |
+
- `save_on_each_node`: False
|
238 |
+
- `save_only_model`: False
|
239 |
+
- `restore_callback_states_from_checkpoint`: False
|
240 |
+
- `no_cuda`: False
|
241 |
+
- `use_cpu`: False
|
242 |
+
- `use_mps_device`: False
|
243 |
+
- `seed`: 42
|
244 |
+
- `data_seed`: None
|
245 |
+
- `jit_mode_eval`: False
|
246 |
+
- `use_ipex`: False
|
247 |
+
- `bf16`: False
|
248 |
+
- `fp16`: True
|
249 |
+
- `fp16_opt_level`: O1
|
250 |
+
- `half_precision_backend`: auto
|
251 |
+
- `bf16_full_eval`: False
|
252 |
+
- `fp16_full_eval`: False
|
253 |
+
- `tf32`: None
|
254 |
+
- `local_rank`: 0
|
255 |
+
- `ddp_backend`: None
|
256 |
+
- `tpu_num_cores`: None
|
257 |
+
- `tpu_metrics_debug`: False
|
258 |
+
- `debug`: []
|
259 |
+
- `dataloader_drop_last`: False
|
260 |
+
- `dataloader_num_workers`: 0
|
261 |
+
- `dataloader_prefetch_factor`: None
|
262 |
+
- `past_index`: -1
|
263 |
+
- `disable_tqdm`: False
|
264 |
+
- `remove_unused_columns`: True
|
265 |
+
- `label_names`: None
|
266 |
+
- `load_best_model_at_end`: False
|
267 |
+
- `ignore_data_skip`: False
|
268 |
+
- `fsdp`: []
|
269 |
+
- `fsdp_min_num_params`: 0
|
270 |
+
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
|
271 |
+
- `fsdp_transformer_layer_cls_to_wrap`: None
|
272 |
+
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
|
273 |
+
- `deepspeed`: None
|
274 |
+
- `label_smoothing_factor`: 0.0
|
275 |
+
- `optim`: adamw_torch
|
276 |
+
- `optim_args`: None
|
277 |
+
- `adafactor`: False
|
278 |
+
- `group_by_length`: False
|
279 |
+
- `length_column_name`: length
|
280 |
+
- `ddp_find_unused_parameters`: None
|
281 |
+
- `ddp_bucket_cap_mb`: None
|
282 |
+
- `ddp_broadcast_buffers`: False
|
283 |
+
- `dataloader_pin_memory`: True
|
284 |
+
- `dataloader_persistent_workers`: False
|
285 |
+
- `skip_memory_metrics`: True
|
286 |
+
- `use_legacy_prediction_loop`: False
|
287 |
+
- `push_to_hub`: False
|
288 |
+
- `resume_from_checkpoint`: None
|
289 |
+
- `hub_model_id`: None
|
290 |
+
- `hub_strategy`: every_save
|
291 |
+
- `hub_private_repo`: None
|
292 |
+
- `hub_always_push`: False
|
293 |
+
- `hub_revision`: None
|
294 |
+
- `gradient_checkpointing`: False
|
295 |
+
- `gradient_checkpointing_kwargs`: None
|
296 |
+
- `include_inputs_for_metrics`: False
|
297 |
+
- `include_for_metrics`: []
|
298 |
+
- `eval_do_concat_batches`: True
|
299 |
+
- `fp16_backend`: auto
|
300 |
+
- `push_to_hub_model_id`: None
|
301 |
+
- `push_to_hub_organization`: None
|
302 |
+
- `mp_parameters`:
|
303 |
+
- `auto_find_batch_size`: False
|
304 |
+
- `full_determinism`: False
|
305 |
+
- `torchdynamo`: None
|
306 |
+
- `ray_scope`: last
|
307 |
+
- `ddp_timeout`: 1800
|
308 |
+
- `torch_compile`: False
|
309 |
+
- `torch_compile_backend`: None
|
310 |
+
- `torch_compile_mode`: None
|
311 |
+
- `include_tokens_per_second`: False
|
312 |
+
- `include_num_input_tokens_seen`: False
|
313 |
+
- `neftune_noise_alpha`: None
|
314 |
+
- `optim_target_modules`: None
|
315 |
+
- `batch_eval_metrics`: False
|
316 |
+
- `eval_on_start`: False
|
317 |
+
- `use_liger_kernel`: False
|
318 |
+
- `liger_kernel_config`: None
|
319 |
+
- `eval_use_gather_object`: False
|
320 |
+
- `average_tokens_across_devices`: False
|
321 |
+
- `prompts`: None
|
322 |
+
- `batch_sampler`: batch_sampler
|
323 |
+
- `multi_dataset_batch_sampler`: proportional
|
324 |
+
- `router_mapping`: {}
|
325 |
+
- `learning_rate_mapping`: {}
|
326 |
+
|
327 |
+
</details>
|
328 |
+
|
329 |
+
### Training Logs
|
330 |
+
| Epoch | Step | Training Loss | eval_average_precision |
|
331 |
+
|:------:|:----:|:-------------:|:----------------------:|
|
332 |
+
| 0.2800 | 500 | 0.181 | 0.8232 |
|
333 |
+
| 0.5599 | 1000 | 0.1431 | 0.8457 |
|
334 |
+
| 0.8399 | 1500 | 0.116 | 0.8569 |
|
335 |
+
| 1.0 | 1786 | - | 0.8621 |
|
336 |
+
| 1.1198 | 2000 | 0.1187 | 0.8696 |
|
337 |
+
| 1.3998 | 2500 | 0.1166 | 0.8764 |
|
338 |
+
| 1.6797 | 3000 | 0.1126 | 0.8871 |
|
339 |
+
| 1.9597 | 3500 | 0.1155 | 0.8902 |
|
340 |
+
| 2.0 | 3572 | - | 0.8852 |
|
341 |
+
| 2.2396 | 4000 | 0.0905 | 0.8877 |
|
342 |
+
| 2.5196 | 4500 | 0.1201 | 0.8886 |
|
343 |
+
| 2.7996 | 5000 | 0.0995 | 0.8901 |
|
344 |
+
| 3.0 | 5358 | - | 0.8898 |
|
345 |
+
| 3.0795 | 5500 | 0.0836 | 0.8882 |
|
346 |
+
| 3.3595 | 6000 | 0.0726 | 0.8867 |
|
347 |
+
| 3.6394 | 6500 | 0.1126 | 0.8919 |
|
348 |
+
| 3.9194 | 7000 | 0.0827 | 0.8903 |
|
349 |
+
| 4.0 | 7144 | - | 0.8905 |
|
350 |
+
|
351 |
+
|
352 |
+
### Framework Versions
|
353 |
+
- Python: 3.11.13
|
354 |
+
- Sentence Transformers: 5.0.0
|
355 |
+
- Transformers: 4.55.0
|
356 |
+
- PyTorch: 2.6.0+cu124
|
357 |
+
- Accelerate: 1.9.0
|
358 |
+
- Datasets: 4.0.0
|
359 |
+
- Tokenizers: 0.21.4
|
360 |
+
|
361 |
+
## Citation
|
362 |
+
|
363 |
+
### BibTeX
|
364 |
+
|
365 |
+
#### Sentence Transformers
|
366 |
+
```bibtex
|
367 |
+
@inproceedings{reimers-2019-sentence-bert,
|
368 |
+
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
|
369 |
+
author = "Reimers, Nils and Gurevych, Iryna",
|
370 |
+
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
|
371 |
+
month = "11",
|
372 |
+
year = "2019",
|
373 |
+
publisher = "Association for Computational Linguistics",
|
374 |
+
url = "https://arxiv.org/abs/1908.10084",
|
375 |
+
}
|
376 |
+
```
|
377 |
+
|
378 |
+
<!--
|
379 |
+
## Glossary
|
380 |
+
|
381 |
+
*Clearly define terms in order to be accessible across audiences.*
|
382 |
+
-->
|
383 |
+
|
384 |
+
<!--
|
385 |
+
## Model Card Authors
|
386 |
+
|
387 |
+
*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
|
388 |
+
-->
|
389 |
+
|
390 |
+
<!--
|
391 |
+
## Model Card Contact
|
392 |
+
|
393 |
+
*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
|
394 |
+
-->
|
config.json
ADDED
@@ -0,0 +1,34 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"architectures": [
|
3 |
+
"BertForSequenceClassification"
|
4 |
+
],
|
5 |
+
"attention_probs_dropout_prob": 0.1,
|
6 |
+
"classifier_dropout": null,
|
7 |
+
"hidden_act": "gelu",
|
8 |
+
"hidden_dropout_prob": 0.1,
|
9 |
+
"hidden_size": 768,
|
10 |
+
"id2label": {
|
11 |
+
"0": "LABEL_0"
|
12 |
+
},
|
13 |
+
"initializer_range": 0.02,
|
14 |
+
"intermediate_size": 3072,
|
15 |
+
"label2id": {
|
16 |
+
"LABEL_0": 0
|
17 |
+
},
|
18 |
+
"layer_norm_eps": 1e-12,
|
19 |
+
"max_position_embeddings": 512,
|
20 |
+
"model_type": "bert",
|
21 |
+
"num_attention_heads": 12,
|
22 |
+
"num_hidden_layers": 12,
|
23 |
+
"pad_token_id": 0,
|
24 |
+
"position_embedding_type": "absolute",
|
25 |
+
"sentence_transformers": {
|
26 |
+
"activation_fn": "torch.nn.modules.activation.Sigmoid",
|
27 |
+
"version": "5.0.0"
|
28 |
+
},
|
29 |
+
"torch_dtype": "float32",
|
30 |
+
"transformers_version": "4.55.0",
|
31 |
+
"type_vocab_size": 2,
|
32 |
+
"use_cache": true,
|
33 |
+
"vocab_size": 64000
|
34 |
+
}
|
model.safetensors
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:87a8a3b751e94cf6bc3b85f2fdf7f7b991ae83510b4fcdd05681044af685678f
|
3 |
+
size 540799996
|
special_tokens_map.json
ADDED
@@ -0,0 +1,37 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"cls_token": {
|
3 |
+
"content": "[CLS]",
|
4 |
+
"lstrip": false,
|
5 |
+
"normalized": false,
|
6 |
+
"rstrip": false,
|
7 |
+
"single_word": false
|
8 |
+
},
|
9 |
+
"mask_token": {
|
10 |
+
"content": "[MASK]",
|
11 |
+
"lstrip": false,
|
12 |
+
"normalized": false,
|
13 |
+
"rstrip": false,
|
14 |
+
"single_word": false
|
15 |
+
},
|
16 |
+
"pad_token": {
|
17 |
+
"content": "[PAD]",
|
18 |
+
"lstrip": false,
|
19 |
+
"normalized": false,
|
20 |
+
"rstrip": false,
|
21 |
+
"single_word": false
|
22 |
+
},
|
23 |
+
"sep_token": {
|
24 |
+
"content": "[SEP]",
|
25 |
+
"lstrip": false,
|
26 |
+
"normalized": false,
|
27 |
+
"rstrip": false,
|
28 |
+
"single_word": false
|
29 |
+
},
|
30 |
+
"unk_token": {
|
31 |
+
"content": "[UNK]",
|
32 |
+
"lstrip": false,
|
33 |
+
"normalized": false,
|
34 |
+
"rstrip": false,
|
35 |
+
"single_word": false
|
36 |
+
}
|
37 |
+
}
|
tokenizer.json
ADDED
The diff for this file is too large to render.
See raw diff
|
|
tokenizer_config.json
ADDED
@@ -0,0 +1,94 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"added_tokens_decoder": {
|
3 |
+
"0": {
|
4 |
+
"content": "[PAD]",
|
5 |
+
"lstrip": false,
|
6 |
+
"normalized": false,
|
7 |
+
"rstrip": false,
|
8 |
+
"single_word": false,
|
9 |
+
"special": true
|
10 |
+
},
|
11 |
+
"1": {
|
12 |
+
"content": "[UNK]",
|
13 |
+
"lstrip": false,
|
14 |
+
"normalized": false,
|
15 |
+
"rstrip": false,
|
16 |
+
"single_word": false,
|
17 |
+
"special": true
|
18 |
+
},
|
19 |
+
"2": {
|
20 |
+
"content": "[CLS]",
|
21 |
+
"lstrip": false,
|
22 |
+
"normalized": false,
|
23 |
+
"rstrip": false,
|
24 |
+
"single_word": false,
|
25 |
+
"special": true
|
26 |
+
},
|
27 |
+
"3": {
|
28 |
+
"content": "[SEP]",
|
29 |
+
"lstrip": false,
|
30 |
+
"normalized": false,
|
31 |
+
"rstrip": false,
|
32 |
+
"single_word": false,
|
33 |
+
"special": true
|
34 |
+
},
|
35 |
+
"4": {
|
36 |
+
"content": "[MASK]",
|
37 |
+
"lstrip": false,
|
38 |
+
"normalized": false,
|
39 |
+
"rstrip": false,
|
40 |
+
"single_word": false,
|
41 |
+
"special": true
|
42 |
+
},
|
43 |
+
"5": {
|
44 |
+
"content": "[رابط]",
|
45 |
+
"lstrip": false,
|
46 |
+
"normalized": true,
|
47 |
+
"rstrip": false,
|
48 |
+
"single_word": true,
|
49 |
+
"special": true
|
50 |
+
},
|
51 |
+
"6": {
|
52 |
+
"content": "[بريد]",
|
53 |
+
"lstrip": false,
|
54 |
+
"normalized": true,
|
55 |
+
"rstrip": false,
|
56 |
+
"single_word": true,
|
57 |
+
"special": true
|
58 |
+
},
|
59 |
+
"7": {
|
60 |
+
"content": "[مستخدم]",
|
61 |
+
"lstrip": false,
|
62 |
+
"normalized": true,
|
63 |
+
"rstrip": false,
|
64 |
+
"single_word": true,
|
65 |
+
"special": true
|
66 |
+
}
|
67 |
+
},
|
68 |
+
"clean_up_tokenization_spaces": false,
|
69 |
+
"cls_token": "[CLS]",
|
70 |
+
"do_basic_tokenize": true,
|
71 |
+
"do_lower_case": false,
|
72 |
+
"extra_special_tokens": {},
|
73 |
+
"mask_token": "[MASK]",
|
74 |
+
"max_len": 512,
|
75 |
+
"max_length": 512,
|
76 |
+
"model_max_length": 512,
|
77 |
+
"never_split": [
|
78 |
+
"[بريد]",
|
79 |
+
"[مستخدم]",
|
80 |
+
"[رابط]"
|
81 |
+
],
|
82 |
+
"pad_to_multiple_of": null,
|
83 |
+
"pad_token": "[PAD]",
|
84 |
+
"pad_token_type_id": 0,
|
85 |
+
"padding_side": "right",
|
86 |
+
"sep_token": "[SEP]",
|
87 |
+
"stride": 0,
|
88 |
+
"strip_accents": null,
|
89 |
+
"tokenize_chinese_chars": true,
|
90 |
+
"tokenizer_class": "BertTokenizer",
|
91 |
+
"truncation_side": "right",
|
92 |
+
"truncation_strategy": "longest_first",
|
93 |
+
"unk_token": "[UNK]"
|
94 |
+
}
|
vocab.txt
ADDED
The diff for this file is too large to render.
See raw diff
|
|