Upload folder using huggingface_hub
Browse files- 1_Pooling/config.json +10 -0
- README.md +476 -3
- config.json +25 -0
- config_sentence_transformers.json +10 -0
- model.safetensors +3 -0
- modules.json +14 -0
- sentence_bert_config.json +4 -0
- special_tokens_map.json +37 -0
- tokenizer.json +0 -0
- tokenizer_config.json +86 -0
- vocab.txt +0 -0
1_Pooling/config.json
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"word_embedding_dimension": 768,
|
3 |
+
"pooling_mode_cls_token": false,
|
4 |
+
"pooling_mode_mean_tokens": true,
|
5 |
+
"pooling_mode_max_tokens": false,
|
6 |
+
"pooling_mode_mean_sqrt_len_tokens": false,
|
7 |
+
"pooling_mode_weightedmean_tokens": false,
|
8 |
+
"pooling_mode_lasttoken": false,
|
9 |
+
"include_prompt": true
|
10 |
+
}
|
README.md
CHANGED
@@ -1,3 +1,476 @@
|
|
1 |
-
---
|
2 |
-
|
3 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
base_model: aubmindlab/bert-base-arabertv02
|
3 |
+
datasets: []
|
4 |
+
language: []
|
5 |
+
library_name: sentence-transformers
|
6 |
+
pipeline_tag: sentence-similarity
|
7 |
+
tags:
|
8 |
+
- sentence-transformers
|
9 |
+
- sentence-similarity
|
10 |
+
- feature-extraction
|
11 |
+
- generated_from_trainer
|
12 |
+
- dataset_size:10000
|
13 |
+
- loss:MatryoshkaLoss
|
14 |
+
- loss:MultipleNegativesRankingLoss
|
15 |
+
widget:
|
16 |
+
- source_sentence: يمكن للأسنان السيئة أن تسبب التهاب الجيوب الأنفية
|
17 |
+
sentences:
|
18 |
+
- تشكل الأيونات مركبات محايدة كهربائيًا لأن عدد الكاتيونات (أيونات موجبة الشحنة)
|
19 |
+
يساوي عدد الأنيونات (أيونات سالبة الشحنة). ترتبط هذه الأيونات ببعضها البعض بواسطة
|
20 |
+
قوى ... تشكل الأيونات مركبات متعادلة كهربائيًا لأن عدد الكاتيونات (أيونات موجبة
|
21 |
+
الشحنة) يساوي عدد الأنيونات (أيونات سالبة الشحنة).
|
22 |
+
- نعم ، التهاب الجيوب الأنفية (التهاب الجيوب الأنفية) أو الالتهاب يمكن أن يسبب ألمًا
|
23 |
+
في الأسنان - خاصةً في الأسنان الخلفية العلوية القريبة من الجيوب الأنفية. من الأعراض
|
24 |
+
الشائعة مع حالات الجيوب الأنفية. إذا كنت تعاني من ألم مستمر في الأسنان ، فاستشر
|
25 |
+
طبيب أسنانك أولاً لإجراء فحص. مثل ، يمكن أن تسبب عدوى الجيوب الأنفية (التهاب الجيوب
|
26 |
+
الأنفية) أو الالتهاب ألمًا في الأسنان - خاصةً في الأسنان الخلفية العلوية ، القريبة
|
27 |
+
على الجيوب الأنفية.
|
28 |
+
- الناسور أورانترال بعد قلع الضرس العلوي. قد يتم فتح الجيوب الأنفية العلوية عن طريق
|
29 |
+
الخطأ أثناء قلع السن مما يتسبب في حدوث مضاعفات بعد قلع الأسنان. في بعض الحالات؛
|
30 |
+
قد تندفع جذور الأسنان (الأضراس والضواحك) إلى داخلها. الأضراس العلوية والضواحك
|
31 |
+
أو ثنائية الشرف لها جذور قريبة من الجيوب الأنفية.
|
32 |
+
- source_sentence: أعراض البرد مقابل أعراض الأنفلونزا
|
33 |
+
sentences:
|
34 |
+
- في هذه الحالات ، قد تكون الأعراض الوحيدة هي التعب وأعراض تشبه أعراض الأنفلونزا.
|
35 |
+
نظرًا لأن التعب والأعراض الشبيهة بالأنفلونزا قد تنشأ غالبًا من أسباب أخرى ، فقد
|
36 |
+
لا يتم اعتبار مرض لايم حتى في التشخيص التفريقي وقد يعاني المريض لعدة أشهر من مرض
|
37 |
+
معدي غير معروف وغير معالج.
|
38 |
+
- 'يمكن أن تكون أعراض الإنفلونزا مشابهة لأعراض البرد ، على الرغم من أنها تميل إلى
|
39 |
+
أن تكون أكثر حدة. يمكن أن تشمل الأعراض: 1 ـ سعال جاف متقطع. 2 - حمى معتدلة إلى
|
40 |
+
عالية (على الرغم من عدم إصابة كل شخص مصاب بالأنفلونزا بالحمى). 3 التهاب الحلق.
|
41 |
+
4 اهتزاز قشعريرة. 5 ـ آلام شديدة في العضلات أو الجسم. 6 صداع. 7 ـ انسداد وسيلان
|
42 |
+
الأنف.'
|
43 |
+
- فيما يلي بعض إصلاحات الأحذية الشائعة وأسعار الملعب المصاحبة لها. 1 كعب - يمكن
|
44 |
+
أن يكون من المطاط أو الجلد أو مزيج من الاثنين وسيكلف ما يقرب من $ 10 € € 40 لاستبداله.
|
45 |
+
2 قاعدة الكعب - إذا كنت ترتدي الكعب وجزءًا من القاعدة ، فلا يزال من الممكن إصلاحه
|
46 |
+
، ولكن سيكلف ذلك أكثر.
|
47 |
+
- source_sentence: معنى اسم سيباستيان
|
48 |
+
sentences:
|
49 |
+
- 'يتم إصدار تحذير من الفيضانات المفاجئة (نفس الكود: FFW) عندما يكون فيضانًا سريعًا
|
50 |
+
وشيكًا أو يحدث في المنطقة المحذرة. الفيضانات المفاجئة هي فيضان مفاجئ وعنيف بعد
|
51 |
+
هطول أمطار غزيرة ، أو في بعض الأحيان بعد كسر السد. تساهم كثافة الأمطار ومدتها
|
52 |
+
، والتضاريس ، وظروف التربة ، والغطاء الأرضي في حدوث الفيضانات المفاجئة. تحدث معظم
|
53 |
+
الفيضانات المفاجئة عندما تتساقط كمية كبيرة من الأمطار في منطقة ما ، ثم يتم توجيه
|
54 |
+
هذه المياه عبر الجداول أو الأخاديد الضيقة. قد تستغرق الفيضانات المفاجئة دقائق
|
55 |
+
أو ساعات حتى تتطور ، ��من الممكن أن تتعرض للفيضانات المفاجئة دون أن تشهد أي أمطار
|
56 |
+
، وفي هذه الحالة ، ستكون هناك أمطار غزيرة في المناطق الواقعة أعلى منبع الموقع
|
57 |
+
المحذر ، وقد تستغرق الفيضانات المفاجئة دقائق أو ساعات حتى تتطور. من الممكن أن
|
58 |
+
تتعرض لفيضان مفاجئ دون أن تشاهد أي مطر. في هذه الحالة ، ستكون هناك أمطار غزيرة
|
59 |
+
في المناطق الواقعة أعلى منبع الموقع المحذر.'
|
60 |
+
- تشمل الأمثلة المبكرة لتسجيلات اللقب المأخوذة من السجلات المدنية والكنيسة الأصلية
|
61 |
+
كاتارينا سانشيز ، المولودة في إشبيلية ، إسبانيا ، في 23 نوفمبر 1520 ، وبارتولومي
|
62 |
+
سانشيز ، التي تم تعميدها في فيلابالاسيو ، سان سيباستيان ، إسبانيا ، في 27 يونيو
|
63 |
+
1588. كلاهما ديني ومعمودي في الأصل ، المشتق من الكلمة الرومانية (اللاتينية) 'sanctus'
|
64 |
+
التي تعني بلا لوم ، مقدس ، ولاحقًا قديسًا ، وهو معنى ساهم بلا شك بشكل كبير في
|
65 |
+
شعبيته كاسم معين ولاحقًا لقبًا.
|
66 |
+
- 'اسم سيباستيان هو اسم طفل أمريكي. في أمريكا ، معنى اسم سيباستيان هو: الموقر. المعنى
|
67 |
+
اللاتيني: اسم سيباستيان هو اسم طفل لاتيني. في اللاتينية ، معنى اسم سيباستيان هو:
|
68 |
+
الموقر. موقر.'
|
69 |
+
- source_sentence: ما هو نوع الدهون الموجودة في الأفوكادو
|
70 |
+
sentences:
|
71 |
+
- لقد تم الاعتراف منذ أكثر من 50 عامًا أن موانع الحمل الفموية المركبة قادرة أيضًا
|
72 |
+
على تقديم فوائد صحية تتجاوز وسائل منع الحمل من خلال العلاج والوقاية من العديد
|
73 |
+
من الاضطرابات النسائية والطبية.
|
74 |
+
- الأفوكادو كبديل للدهون. يعد الأفوكادو الطبيعي ، والسكر ، والدهون المتحولة ، والأفوكادو
|
75 |
+
الخالي من الكوليسترول ، بديلاً دسمًا ومغذيًا للوصفات المحملة بالدهون المشبعة.
|
76 |
+
الأمهات والأطفال. يمكن تأسيس حياة من عادات الأكل الجيدة والصحة الجيدة في وقت مبكر
|
77 |
+
من الطفولة.
|
78 |
+
- حوالي 15 في المائة من الدهون في الأفوكادو مشبعة ، مع كل كوب واحد من الأفوكادو
|
79 |
+
المفروم يحتوي على 3.2 جرام من الدهون المشبعة ، وهو ما يمثل 16 في المائة من DV
|
80 |
+
البالغ 20 جرامًا. تحتوي الأفوكادو في الغالب على دهون أحادية غير مشبعة ، مع 67
|
81 |
+
في المائة من إجمالي الدهون ، أو 14.7 جرامًا لكل كوب مفروم ، ويتكون من هذا النوع
|
82 |
+
من الدهون.
|
83 |
+
- source_sentence: أسباب كثرة التبول
|
84 |
+
sentences:
|
85 |
+
- أسباب كثرة التبول. يمكن أن يكون التبول المتكرر أحد أعراض العديد من المشاكل المختلفة
|
86 |
+
من أمراض الكلى إلى مجرد شرب الكثير من السوائل. عندما يكون التبول المتكرر مصحوبًا
|
87 |
+
بالحمى ، والحاجة الملحة للتبول ، والألم أو عدم الراحة في البطن ، فقد يكون لديك
|
88 |
+
التهاب في المسالك البولية.
|
89 |
+
- من الطبيعي أن يتبول البالغون سبع مرات خلال اليوم. في بعض الحيوانات ، بالإضافة
|
90 |
+
إلى طرد النفايات ، يمكن أن يؤدي التبول إلى تحديد المنطقة أو التعبير عن الخضوع.
|
91 |
+
من الناحية الفسيولوجية ، يتضمن التبول التنسيق بين الجهاز العصبي المركزي والجهاز
|
92 |
+
العصبي اللاإرادي والجسدي.
|
93 |
+
- يمكنك العثور عليها في الكثير من الأماكن ولكن ذلك يعتمد على نوع البطريق الموجود
|
94 |
+
في القارة القطبية الجنوبية بينما الدببة القطبية في القطب الجنوبي.
|
95 |
+
---
|
96 |
+
|
97 |
+
# SentenceTransformer based on aubmindlab/bert-base-arabertv02
|
98 |
+
|
99 |
+
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [aubmindlab/bert-base-arabertv02](https://huggingface.co/aubmindlab/bert-base-arabertv02). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
|
100 |
+
|
101 |
+
## Model Details
|
102 |
+
|
103 |
+
### Model Description
|
104 |
+
- **Model Type:** Sentence Transformer
|
105 |
+
- **Base model:** [aubmindlab/bert-base-arabertv02](https://huggingface.co/aubmindlab/bert-base-arabertv02) <!-- at revision 016fb9d6768f522a59c6e0d2d5d5d43a4e1bff60 -->
|
106 |
+
- **Maximum Sequence Length:** 512 tokens
|
107 |
+
- **Output Dimensionality:** 768 tokens
|
108 |
+
- **Similarity Function:** Cosine Similarity
|
109 |
+
<!-- - **Training Dataset:** Unknown -->
|
110 |
+
<!-- - **Language:** Unknown -->
|
111 |
+
<!-- - **License:** Unknown -->
|
112 |
+
|
113 |
+
### Model Sources
|
114 |
+
|
115 |
+
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
|
116 |
+
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
|
117 |
+
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
|
118 |
+
|
119 |
+
### Full Model Architecture
|
120 |
+
|
121 |
+
```
|
122 |
+
SentenceTransformer(
|
123 |
+
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
|
124 |
+
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
|
125 |
+
)
|
126 |
+
```
|
127 |
+
|
128 |
+
## Usage
|
129 |
+
|
130 |
+
### Direct Usage (Sentence Transformers)
|
131 |
+
|
132 |
+
First install the Sentence Transformers library:
|
133 |
+
|
134 |
+
```bash
|
135 |
+
pip install -U sentence-transformers
|
136 |
+
```
|
137 |
+
|
138 |
+
Then you can load this model and run inference.
|
139 |
+
```python
|
140 |
+
from sentence_transformers import SentenceTransformer
|
141 |
+
|
142 |
+
# Download from the 🤗 Hub
|
143 |
+
model = SentenceTransformer("sentence_transformers_model_id")
|
144 |
+
# Run inference
|
145 |
+
sentences = [
|
146 |
+
'أسباب كثرة التبول',
|
147 |
+
'أسباب كثرة التبول. يمكن أن يكون التبول المتكرر أحد أعراض العديد من المشاكل المختلفة من أمراض الكلى إلى مجرد شرب الكثير من السوائل. عندما يكون التبول المتكرر مصحوبًا بالحمى ، والحاجة الملحة للتبول ، والألم أو عدم الراحة في البطن ، فقد يكون لديك التهاب في المسالك البولية.',
|
148 |
+
'من الطبيعي أن يتبول البالغون سبع مرات خلال اليوم. في بعض الحيوانات ، بالإضافة إلى طرد النفايات ، يمكن أن يؤدي التبول إلى تحديد المنطقة أو التعبير عن الخضوع. من الناحية الفسيولوجية ، يتضمن التبول التنسيق بين الجهاز العصبي المركزي والجهاز العصبي اللاإرادي والجسدي.',
|
149 |
+
]
|
150 |
+
embeddings = model.encode(sentences)
|
151 |
+
print(embeddings.shape)
|
152 |
+
# [3, 768]
|
153 |
+
|
154 |
+
# Get the similarity scores for the embeddings
|
155 |
+
similarities = model.similarity(embeddings, embeddings)
|
156 |
+
print(similarities.shape)
|
157 |
+
# [3, 3]
|
158 |
+
```
|
159 |
+
|
160 |
+
<!--
|
161 |
+
### Direct Usage (Transformers)
|
162 |
+
|
163 |
+
<details><summary>Click to see the direct usage in Transformers</summary>
|
164 |
+
|
165 |
+
</details>
|
166 |
+
-->
|
167 |
+
|
168 |
+
<!--
|
169 |
+
### Downstream Usage (Sentence Transformers)
|
170 |
+
|
171 |
+
You can finetune this model on your own dataset.
|
172 |
+
|
173 |
+
<details><summary>Click to expand</summary>
|
174 |
+
|
175 |
+
</details>
|
176 |
+
-->
|
177 |
+
|
178 |
+
<!--
|
179 |
+
### Out-of-Scope Use
|
180 |
+
|
181 |
+
*List how the model may foreseeably be misused and address what users ought not to do with the model.*
|
182 |
+
-->
|
183 |
+
|
184 |
+
<!--
|
185 |
+
## Bias, Risks and Limitations
|
186 |
+
|
187 |
+
*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
|
188 |
+
-->
|
189 |
+
|
190 |
+
<!--
|
191 |
+
### Recommendations
|
192 |
+
|
193 |
+
*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
|
194 |
+
-->
|
195 |
+
|
196 |
+
## Training Details
|
197 |
+
|
198 |
+
### Training Dataset
|
199 |
+
|
200 |
+
#### Unnamed Dataset
|
201 |
+
|
202 |
+
|
203 |
+
* Size: 10,000 training samples
|
204 |
+
* Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
|
205 |
+
* Approximate statistics based on the first 1000 samples:
|
206 |
+
| | anchor | positive | negative |
|
207 |
+
|:--------|:---------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
|
208 |
+
| type | string | string | string |
|
209 |
+
| details | <ul><li>min: 4 tokens</li><li>mean: 8.78 tokens</li><li>max: 34 tokens</li></ul> | <ul><li>min: 8 tokens</li><li>mean: 67.32 tokens</li><li>max: 187 tokens</li></ul> | <ul><li>min: 12 tokens</li><li>mean: 67.49 tokens</li><li>max: 220 tokens</li></ul> |
|
210 |
+
* Samples:
|
211 |
+
| anchor | positive | negative |
|
212 |
+
|:----------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
|
213 |
+
| <code>النظرية الأساسية للتعريف الحسابي</code> | <code>النظرية الأساسية في الحساب. من ويكيبيديا، الموسوعة الحرة. النظرية الأساسية للأخلاق الحسابية (وتسمى أيضًا نظرية العوامل الفريدة) هي نظرية نظرية الأعداد. تقول النظرية أن كل عدد صحيح موجب أكبر من 1 يمكن كتابته كمنتج للأعداد الأولية (أو أن العدد الصحيح هو نفسه عدد أولي).</code> | <code>يتم تعريف الأساسي على أنه شيء أساسي أو أساسي. الحقيقة الأساسية للدين هي مثال لحقيقة أساسية. تعريف الأساسي هو حقيقة أساسية أو قانون. الحرية هي مثال أساسي للمثل الأعلى الأمريكي.</code> |
|
214 |
+
| <code>كيف يتم تشخيص السعال الديكي</code> | <code>تشخيص السعال الديكي. في الحالات المشتبه فيها من السعال الديكي ، يشتمل التشخيص عادةً على مراجعة التاريخ الطبي للمريض ، وفحصًا بدنيًا ، و (في بعض الحالات) اختبارات معينة. كجزء من تشخيص السعال الديكي (المعروف أيضًا باسم السعال الديكي) ، سيستبعد الطبيب أيضًا الأمراض الأخرى ، مثل نزلات البرد والإنفلونزا والتهاب الشعب الهوائية.</code> | <code>بمجرد إصابتك بالسعال الديكي ، يستغرق ظهور العلامات والأعراض من سبعة إلى عشرة أيام ، على الرغم من أنها قد تستغرق وقتًا أطول في بعض الأحيان. بعد أسبوع أو أسبوعين ، ساءت العلامات والأعراض. يتراكم المخاط السميك داخل الممرات الهوائية ، مما يسبب سعالًا لا يمكن السيطرة عليه. ومع ذلك ، فإن الكثير من الناس لا يطورون هذه الخاصية المميزة. في بعض الأحيان ، يكون السعال المتقطع هو العلامة الوحيدة على إصابة المراهق أو البال�� بالسعال الديكي. قد لا يسعل الأطفال على الإطلاق. بدلاً من ذلك ، قد يكافحون من أجل التنفس ، أو قد يتوقفون مؤقتًا عن التنفس.</code> |
|
215 |
+
| <code>ما هو متوسط ضغط الماء للمنزل</code> | <code>ضغط الماء هو مقدار القوة من الماء الرئيسي إلى منزلك. يقاس ضغط الماء بالجنيه لكل بوصة مربعة (PSI) ، وضغط الماء العادي عادة ما بين 30 و 80 رطل لكل بوصة مربعة ، التدفق الوظيفي هو حجم المياه المتدفقة عبر الأنابيب الخاصة بك وتصل إلى التركيبات الفردية ، وهو جهاز على شكل جرس يقلل من ضغط الماء. يجب أن يكون ضغط الماء 60-70 رطل لكل بوصة مربعة. إذا كان ضغط المنزل منخفضًا ، فأنت تريد أولاً تحديد ما إذا كان المنزل يعمل بنظام إمداد المياه العام أو نظام الآبار الخاص.</code> | <code>الضغط المحيط في الماء ذي السطح الحر هو مزيج من الضغط الهيدروستاتيكي الناتج عن وزن عمود الماء والضغط الجوي على السطح الحر ، والضغط المحيط على الجسم هو ضغط الوسط المحيط ، مثل الغاز أو السائل الذي يلامس الجسم. محتويات.</code> |
|
216 |
+
* Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
|
217 |
+
```json
|
218 |
+
{
|
219 |
+
"loss": "MultipleNegativesRankingLoss",
|
220 |
+
"matryoshka_dims": [
|
221 |
+
768,
|
222 |
+
512,
|
223 |
+
256,
|
224 |
+
128,
|
225 |
+
64
|
226 |
+
],
|
227 |
+
"matryoshka_weights": [
|
228 |
+
1,
|
229 |
+
1,
|
230 |
+
1,
|
231 |
+
1,
|
232 |
+
1
|
233 |
+
],
|
234 |
+
"n_dims_per_step": -1
|
235 |
+
}
|
236 |
+
```
|
237 |
+
|
238 |
+
### Evaluation Dataset
|
239 |
+
|
240 |
+
#### Unnamed Dataset
|
241 |
+
|
242 |
+
|
243 |
+
* Size: 3,273 evaluation samples
|
244 |
+
* Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
|
245 |
+
* Approximate statistics based on the first 1000 samples:
|
246 |
+
| | anchor | positive | negative |
|
247 |
+
|:--------|:---------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|
|
248 |
+
| type | string | string | string |
|
249 |
+
| details | <ul><li>min: 4 tokens</li><li>mean: 8.86 tokens</li><li>max: 31 tokens</li></ul> | <ul><li>min: 13 tokens</li><li>mean: 66.56 tokens</li><li>max: 191 tokens</li></ul> | <ul><li>min: 15 tokens</li><li>mean: 69.1 tokens</li><li>max: 198 tokens</li></ul> |
|
250 |
+
* Samples:
|
251 |
+
| anchor | positive | negative |
|
252 |
+
|:-------------------------------------------------|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
|
253 |
+
| <code>ما هي الفوائد الصحية للجوز</code> | <code>11 فوائد لا تصدق للجوز. تشمل الفوائد الصحية للجوز الحد من الكوليسترول السيئ في الجسم ، وتحسين التمثيل الغذائي ، والسيطرة على مرض السكري. تنبع الفوائد الصحية المهمة الأخرى للجوز من حقيقة أن هذه المكسرات تمتلك خصائص مضادة للالتهابات ، وتساعد في إدارة الوزن ، وتساعد في تقوية الحالة المزاجية.</code> | <code>لا يشترط قانون إلينوي على أصحاب العمل تقديم مزايا صحية لموظفيهم أو عائلاتهم. ومع ذلك ، إذا كنت مشمولاً بالمزايا الصحية لصاحب العمل ، فقد يكون فقدان التغطية مدمرًا.</code> |
|
254 |
+
| <code>أفضل عناية بالبشرة للاحمرار</code> | <code>تم تصميم خط العناية بالبشرة لعلاج الاحمرار من مراد لتلبية احتياجات العناية بالبشرة للأفراد ذوي البشرة الحساسة المعرضة للاحمرار والتهيج. يشتمل النظام المكون من ثلاثة أجزاء على منظف وجل معالج ومرطب مصحح مع واقي من الشمس.</code> | <code>الأوصاف. يستخدم هيدروكورتيزون فاليرات الموضعي للمساعدة في تخفيف الاحمرار أو الحكة أو التورم أو غير ذلك من الانزعاج الناجم عن الأمراض الجلدية. هذا الدواء عبارة عن كورتيكوستيرويد (دواء شبيه بالكورتيزون أو الستيرويد) ، ولا يتوفر هذا الدواء إلا بوصفة طبية ، ويستخدم هيدروكورتيزون فاليرات الموضعي للمساعدة في تخفيف الاحمرار أو الحكة أو التورم أو غير ذلك من الانزعاج الناجم عن الأمراض الجلدية. هذا الدواء عبارة عن كورتيكوستيرويد (دواء يشبه الكورتيزون أو الستيرويد).</code> |
|
255 |
+
| <code>متوسط الطقس في مينيابوليس في مايو</code> | <code>متوسط حالة الطقس في مايو في مينيابوليس مينيسوتا، الولايات المتحدة. في مينيابوليس ، يتميز شهر مايو بالارتفاع السريع لدرجات الحرارة اليومية المرتفعة ، مع ارتفاع درجات الحرارة اليومية بمقدار 10 درجة فهرنهايت ، من 64 درجة فهرنهايت إلى 74 درجة فهرنهايت على مدار شهرًا ، ونادرًا ما تتجاوز 85 درجة فهرنهايت أو تنخفض إلى أقل من 51 درجة فهرنهايت.</code> | <code>بولدن ، أريزونا الطقس. يبلغ متوسط درجة حرارة بولدن 55.67 درجة فهرنهايت ، وهو أقل بكثير من متوسط درجة الحرارة في أريزونا البالغ 65.97 درجة فهرنهايت وأعلى من متوسط درجة الحرارة الوطنية البالغ 54.45 درجة فهرنهايت . الطقس التاريخي.</code> |
|
256 |
+
* Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
|
257 |
+
```json
|
258 |
+
{
|
259 |
+
"loss": "MultipleNegativesRankingLoss",
|
260 |
+
"matryoshka_dims": [
|
261 |
+
768,
|
262 |
+
512,
|
263 |
+
256,
|
264 |
+
128,
|
265 |
+
64
|
266 |
+
],
|
267 |
+
"matryoshka_weights": [
|
268 |
+
1,
|
269 |
+
1,
|
270 |
+
1,
|
271 |
+
1,
|
272 |
+
1
|
273 |
+
],
|
274 |
+
"n_dims_per_step": -1
|
275 |
+
}
|
276 |
+
```
|
277 |
+
|
278 |
+
### Training Hyperparameters
|
279 |
+
#### Non-Default Hyperparameters
|
280 |
+
|
281 |
+
- `eval_strategy`: steps
|
282 |
+
- `per_device_train_batch_size`: 16
|
283 |
+
- `per_device_eval_batch_size`: 16
|
284 |
+
- `learning_rate`: 2e-05
|
285 |
+
- `warmup_ratio`: 0.1
|
286 |
+
- `fp16`: True
|
287 |
+
- `batch_sampler`: no_duplicates
|
288 |
+
|
289 |
+
#### All Hyperparameters
|
290 |
+
<details><summary>Click to expand</summary>
|
291 |
+
|
292 |
+
- `overwrite_output_dir`: False
|
293 |
+
- `do_predict`: False
|
294 |
+
- `eval_strategy`: steps
|
295 |
+
- `prediction_loss_only`: True
|
296 |
+
- `per_device_train_batch_size`: 16
|
297 |
+
- `per_device_eval_batch_size`: 16
|
298 |
+
- `per_gpu_train_batch_size`: None
|
299 |
+
- `per_gpu_eval_batch_size`: None
|
300 |
+
- `gradient_accumulation_steps`: 1
|
301 |
+
- `eval_accumulation_steps`: None
|
302 |
+
- `learning_rate`: 2e-05
|
303 |
+
- `weight_decay`: 0.0
|
304 |
+
- `adam_beta1`: 0.9
|
305 |
+
- `adam_beta2`: 0.999
|
306 |
+
- `adam_epsilon`: 1e-08
|
307 |
+
- `max_grad_norm`: 1.0
|
308 |
+
- `num_train_epochs`: 3
|
309 |
+
- `max_steps`: -1
|
310 |
+
- `lr_scheduler_type`: linear
|
311 |
+
- `lr_scheduler_kwargs`: {}
|
312 |
+
- `warmup_ratio`: 0.1
|
313 |
+
- `warmup_steps`: 0
|
314 |
+
- `log_level`: passive
|
315 |
+
- `log_level_replica`: warning
|
316 |
+
- `log_on_each_node`: True
|
317 |
+
- `logging_nan_inf_filter`: True
|
318 |
+
- `save_safetensors`: True
|
319 |
+
- `save_on_each_node`: False
|
320 |
+
- `save_only_model`: False
|
321 |
+
- `restore_callback_states_from_checkpoint`: False
|
322 |
+
- `no_cuda`: False
|
323 |
+
- `use_cpu`: False
|
324 |
+
- `use_mps_device`: False
|
325 |
+
- `seed`: 42
|
326 |
+
- `data_seed`: None
|
327 |
+
- `jit_mode_eval`: False
|
328 |
+
- `use_ipex`: False
|
329 |
+
- `bf16`: False
|
330 |
+
- `fp16`: True
|
331 |
+
- `fp16_opt_level`: O1
|
332 |
+
- `half_precision_backend`: auto
|
333 |
+
- `bf16_full_eval`: False
|
334 |
+
- `fp16_full_eval`: False
|
335 |
+
- `tf32`: None
|
336 |
+
- `local_rank`: 0
|
337 |
+
- `ddp_backend`: None
|
338 |
+
- `tpu_num_cores`: None
|
339 |
+
- `tpu_metrics_debug`: False
|
340 |
+
- `debug`: []
|
341 |
+
- `dataloader_drop_last`: False
|
342 |
+
- `dataloader_num_workers`: 0
|
343 |
+
- `dataloader_prefetch_factor`: None
|
344 |
+
- `past_index`: -1
|
345 |
+
- `disable_tqdm`: False
|
346 |
+
- `remove_unused_columns`: True
|
347 |
+
- `label_names`: None
|
348 |
+
- `load_best_model_at_end`: False
|
349 |
+
- `ignore_data_skip`: False
|
350 |
+
- `fsdp`: []
|
351 |
+
- `fsdp_min_num_params`: 0
|
352 |
+
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
|
353 |
+
- `fsdp_transformer_layer_cls_to_wrap`: None
|
354 |
+
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
|
355 |
+
- `deepspeed`: None
|
356 |
+
- `label_smoothing_factor`: 0.0
|
357 |
+
- `optim`: adamw_torch
|
358 |
+
- `optim_args`: None
|
359 |
+
- `adafactor`: False
|
360 |
+
- `group_by_length`: False
|
361 |
+
- `length_column_name`: length
|
362 |
+
- `ddp_find_unused_parameters`: None
|
363 |
+
- `ddp_bucket_cap_mb`: None
|
364 |
+
- `ddp_broadcast_buffers`: False
|
365 |
+
- `dataloader_pin_memory`: True
|
366 |
+
- `dataloader_persistent_workers`: False
|
367 |
+
- `skip_memory_metrics`: True
|
368 |
+
- `use_legacy_prediction_loop`: False
|
369 |
+
- `push_to_hub`: False
|
370 |
+
- `resume_from_checkpoint`: None
|
371 |
+
- `hub_model_id`: None
|
372 |
+
- `hub_strategy`: every_save
|
373 |
+
- `hub_private_repo`: False
|
374 |
+
- `hub_always_push`: False
|
375 |
+
- `gradient_checkpointing`: False
|
376 |
+
- `gradient_checkpointing_kwargs`: None
|
377 |
+
- `include_inputs_for_metrics`: False
|
378 |
+
- `eval_do_concat_batches`: True
|
379 |
+
- `fp16_backend`: auto
|
380 |
+
- `push_to_hub_model_id`: None
|
381 |
+
- `push_to_hub_organization`: None
|
382 |
+
- `mp_parameters`:
|
383 |
+
- `auto_find_batch_size`: False
|
384 |
+
- `full_determinism`: False
|
385 |
+
- `torchdynamo`: None
|
386 |
+
- `ray_scope`: last
|
387 |
+
- `ddp_timeout`: 1800
|
388 |
+
- `torch_compile`: False
|
389 |
+
- `torch_compile_backend`: None
|
390 |
+
- `torch_compile_mode`: None
|
391 |
+
- `dispatch_batches`: None
|
392 |
+
- `split_batches`: None
|
393 |
+
- `include_tokens_per_second`: False
|
394 |
+
- `include_num_input_tokens_seen`: False
|
395 |
+
- `neftune_noise_alpha`: None
|
396 |
+
- `optim_target_modules`: None
|
397 |
+
- `batch_eval_metrics`: False
|
398 |
+
- `eval_on_start`: False
|
399 |
+
- `batch_sampler`: no_duplicates
|
400 |
+
- `multi_dataset_batch_sampler`: proportional
|
401 |
+
|
402 |
+
</details>
|
403 |
+
|
404 |
+
### Training Logs
|
405 |
+
| Epoch | Step | Training Loss | loss |
|
406 |
+
|:------:|:----:|:-------------:|:------:|
|
407 |
+
| 1.5974 | 500 | 0.7182 | 0.2672 |
|
408 |
+
|
409 |
+
|
410 |
+
### Framework Versions
|
411 |
+
- Python: 3.10.13
|
412 |
+
- Sentence Transformers: 3.0.1
|
413 |
+
- Transformers: 4.42.3
|
414 |
+
- PyTorch: 2.1.2
|
415 |
+
- Accelerate: 0.32.1
|
416 |
+
- Datasets: 2.20.0
|
417 |
+
- Tokenizers: 0.19.1
|
418 |
+
|
419 |
+
## Citation
|
420 |
+
|
421 |
+
### BibTeX
|
422 |
+
|
423 |
+
#### Sentence Transformers
|
424 |
+
```bibtex
|
425 |
+
@inproceedings{reimers-2019-sentence-bert,
|
426 |
+
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
|
427 |
+
author = "Reimers, Nils and Gurevych, Iryna",
|
428 |
+
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
|
429 |
+
month = "11",
|
430 |
+
year = "2019",
|
431 |
+
publisher = "Association for Computational Linguistics",
|
432 |
+
url = "https://arxiv.org/abs/1908.10084",
|
433 |
+
}
|
434 |
+
```
|
435 |
+
|
436 |
+
#### MatryoshkaLoss
|
437 |
+
```bibtex
|
438 |
+
@misc{kusupati2024matryoshka,
|
439 |
+
title={Matryoshka Representation Learning},
|
440 |
+
author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
|
441 |
+
year={2024},
|
442 |
+
eprint={2205.13147},
|
443 |
+
archivePrefix={arXiv},
|
444 |
+
primaryClass={cs.LG}
|
445 |
+
}
|
446 |
+
```
|
447 |
+
|
448 |
+
#### MultipleNegativesRankingLoss
|
449 |
+
```bibtex
|
450 |
+
@misc{henderson2017efficient,
|
451 |
+
title={Efficient Natural Language Response Suggestion for Smart Reply},
|
452 |
+
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
|
453 |
+
year={2017},
|
454 |
+
eprint={1705.00652},
|
455 |
+
archivePrefix={arXiv},
|
456 |
+
primaryClass={cs.CL}
|
457 |
+
}
|
458 |
+
```
|
459 |
+
|
460 |
+
<!--
|
461 |
+
## Glossary
|
462 |
+
|
463 |
+
*Clearly define terms in order to be accessible across audiences.*
|
464 |
+
-->
|
465 |
+
|
466 |
+
<!--
|
467 |
+
## Model Card Authors
|
468 |
+
|
469 |
+
*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
|
470 |
+
-->
|
471 |
+
|
472 |
+
<!--
|
473 |
+
## Model Card Contact
|
474 |
+
|
475 |
+
*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
|
476 |
+
-->
|
config.json
ADDED
@@ -0,0 +1,25 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"_name_or_path": "aubmindlab/bert-base-arabertv02",
|
3 |
+
"architectures": [
|
4 |
+
"BertModel"
|
5 |
+
],
|
6 |
+
"attention_probs_dropout_prob": 0.1,
|
7 |
+
"classifier_dropout": null,
|
8 |
+
"hidden_act": "gelu",
|
9 |
+
"hidden_dropout_prob": 0.1,
|
10 |
+
"hidden_size": 768,
|
11 |
+
"initializer_range": 0.02,
|
12 |
+
"intermediate_size": 3072,
|
13 |
+
"layer_norm_eps": 1e-12,
|
14 |
+
"max_position_embeddings": 512,
|
15 |
+
"model_type": "bert",
|
16 |
+
"num_attention_heads": 12,
|
17 |
+
"num_hidden_layers": 12,
|
18 |
+
"pad_token_id": 0,
|
19 |
+
"position_embedding_type": "absolute",
|
20 |
+
"torch_dtype": "float32",
|
21 |
+
"transformers_version": "4.42.3",
|
22 |
+
"type_vocab_size": 2,
|
23 |
+
"use_cache": true,
|
24 |
+
"vocab_size": 64000
|
25 |
+
}
|
config_sentence_transformers.json
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"__version__": {
|
3 |
+
"sentence_transformers": "3.0.1",
|
4 |
+
"transformers": "4.42.3",
|
5 |
+
"pytorch": "2.1.2"
|
6 |
+
},
|
7 |
+
"prompts": {},
|
8 |
+
"default_prompt_name": null,
|
9 |
+
"similarity_fn_name": null
|
10 |
+
}
|
model.safetensors
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:a2f484329790d7d4196c0abbdef27adc40316af55d3aecc2b9a249dece8ef6b9
|
3 |
+
size 540795752
|
modules.json
ADDED
@@ -0,0 +1,14 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
[
|
2 |
+
{
|
3 |
+
"idx": 0,
|
4 |
+
"name": "0",
|
5 |
+
"path": "",
|
6 |
+
"type": "sentence_transformers.models.Transformer"
|
7 |
+
},
|
8 |
+
{
|
9 |
+
"idx": 1,
|
10 |
+
"name": "1",
|
11 |
+
"path": "1_Pooling",
|
12 |
+
"type": "sentence_transformers.models.Pooling"
|
13 |
+
}
|
14 |
+
]
|
sentence_bert_config.json
ADDED
@@ -0,0 +1,4 @@
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"max_seq_length": 512,
|
3 |
+
"do_lower_case": false
|
4 |
+
}
|
special_tokens_map.json
ADDED
@@ -0,0 +1,37 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"cls_token": {
|
3 |
+
"content": "[CLS]",
|
4 |
+
"lstrip": false,
|
5 |
+
"normalized": false,
|
6 |
+
"rstrip": false,
|
7 |
+
"single_word": false
|
8 |
+
},
|
9 |
+
"mask_token": {
|
10 |
+
"content": "[MASK]",
|
11 |
+
"lstrip": false,
|
12 |
+
"normalized": false,
|
13 |
+
"rstrip": false,
|
14 |
+
"single_word": false
|
15 |
+
},
|
16 |
+
"pad_token": {
|
17 |
+
"content": "[PAD]",
|
18 |
+
"lstrip": false,
|
19 |
+
"normalized": false,
|
20 |
+
"rstrip": false,
|
21 |
+
"single_word": false
|
22 |
+
},
|
23 |
+
"sep_token": {
|
24 |
+
"content": "[SEP]",
|
25 |
+
"lstrip": false,
|
26 |
+
"normalized": false,
|
27 |
+
"rstrip": false,
|
28 |
+
"single_word": false
|
29 |
+
},
|
30 |
+
"unk_token": {
|
31 |
+
"content": "[UNK]",
|
32 |
+
"lstrip": false,
|
33 |
+
"normalized": false,
|
34 |
+
"rstrip": false,
|
35 |
+
"single_word": false
|
36 |
+
}
|
37 |
+
}
|
tokenizer.json
ADDED
The diff for this file is too large to render.
See raw diff
|
|
tokenizer_config.json
ADDED
@@ -0,0 +1,86 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"added_tokens_decoder": {
|
3 |
+
"0": {
|
4 |
+
"content": "[PAD]",
|
5 |
+
"lstrip": false,
|
6 |
+
"normalized": false,
|
7 |
+
"rstrip": false,
|
8 |
+
"single_word": false,
|
9 |
+
"special": true
|
10 |
+
},
|
11 |
+
"1": {
|
12 |
+
"content": "[UNK]",
|
13 |
+
"lstrip": false,
|
14 |
+
"normalized": false,
|
15 |
+
"rstrip": false,
|
16 |
+
"single_word": false,
|
17 |
+
"special": true
|
18 |
+
},
|
19 |
+
"2": {
|
20 |
+
"content": "[CLS]",
|
21 |
+
"lstrip": false,
|
22 |
+
"normalized": false,
|
23 |
+
"rstrip": false,
|
24 |
+
"single_word": false,
|
25 |
+
"special": true
|
26 |
+
},
|
27 |
+
"3": {
|
28 |
+
"content": "[SEP]",
|
29 |
+
"lstrip": false,
|
30 |
+
"normalized": false,
|
31 |
+
"rstrip": false,
|
32 |
+
"single_word": false,
|
33 |
+
"special": true
|
34 |
+
},
|
35 |
+
"4": {
|
36 |
+
"content": "[MASK]",
|
37 |
+
"lstrip": false,
|
38 |
+
"normalized": false,
|
39 |
+
"rstrip": false,
|
40 |
+
"single_word": false,
|
41 |
+
"special": true
|
42 |
+
},
|
43 |
+
"5": {
|
44 |
+
"content": "[رابط]",
|
45 |
+
"lstrip": false,
|
46 |
+
"normalized": true,
|
47 |
+
"rstrip": false,
|
48 |
+
"single_word": true,
|
49 |
+
"special": true
|
50 |
+
},
|
51 |
+
"6": {
|
52 |
+
"content": "[بريد]",
|
53 |
+
"lstrip": false,
|
54 |
+
"normalized": true,
|
55 |
+
"rstrip": false,
|
56 |
+
"single_word": true,
|
57 |
+
"special": true
|
58 |
+
},
|
59 |
+
"7": {
|
60 |
+
"content": "[مستخدم]",
|
61 |
+
"lstrip": false,
|
62 |
+
"normalized": true,
|
63 |
+
"rstrip": false,
|
64 |
+
"single_word": true,
|
65 |
+
"special": true
|
66 |
+
}
|
67 |
+
},
|
68 |
+
"clean_up_tokenization_spaces": true,
|
69 |
+
"cls_token": "[CLS]",
|
70 |
+
"do_basic_tokenize": true,
|
71 |
+
"do_lower_case": false,
|
72 |
+
"mask_token": "[MASK]",
|
73 |
+
"max_len": 512,
|
74 |
+
"model_max_length": 512,
|
75 |
+
"never_split": [
|
76 |
+
"[بريد]",
|
77 |
+
"[مستخدم]",
|
78 |
+
"[رابط]"
|
79 |
+
],
|
80 |
+
"pad_token": "[PAD]",
|
81 |
+
"sep_token": "[SEP]",
|
82 |
+
"strip_accents": null,
|
83 |
+
"tokenize_chinese_chars": true,
|
84 |
+
"tokenizer_class": "BertTokenizer",
|
85 |
+
"unk_token": "[UNK]"
|
86 |
+
}
|
vocab.txt
ADDED
The diff for this file is too large to render.
See raw diff
|
|