yoriis commited on
Commit
a27cd5f
·
verified ·
1 Parent(s): c2b17d1

Add new SentenceTransformer model

Browse files
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 768,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,472 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - sentence-similarity
5
+ - feature-extraction
6
+ - generated_from_trainer
7
+ - dataset_size:23589
8
+ - loss:CosineSimilarityLoss
9
+ - dataset_size:10128
10
+ base_model: omarelshehy/Arabic-Retrieval-v1.0
11
+ widget:
12
+ - source_sentence: متى تم اغتيال شكري بالعيد؟
13
+ sentences:
14
+ - كان إنريكو فيرمي أول من قام بتصويب النيوترونات على اليورانيوم عام 1934 ولكنه لم
15
+ ينجح في تفسير النتائج. وقام العالم الكيميائي الألماني أوتو هان وزميلته ليز مايتنر
16
+ وزميلهما فريتز شتراسمان بتلك الأبحاث وقاموا بتحليل المواد الناتجة عن التفاعل.
17
+ وكانت مفاجأة لم يستطيعوا تفسيرها أولاً، إذ أنهم وجدوا عناصر جديدة تكونت من خلال
18
+ التفاعل. وكان أن أعادوا التجربة باستخدام يورانيوم عالي النقاء، فكانت النتيجة هي
19
+ ما وجدوه من قبل وتكوّن عنصر الباريوم. والعدد الذري للباريوم نصف العدد الذري لليورانيوم
20
+ تقريباً. كان ذلك عام 1938 وبعدها بدأت الحرب العالمية الثانية واضطرت ليزا مايتنر
21
+ إلى مغادرة ألمانيا نظراً لاضطهاد النازية لليهود. وسافرت ليزا إلى السويد حيث كان
22
+ أحد أقربائها يعمل هناك وهو روبرت فريتش. وقصت عليه نتائج تجربة اليورانيوم.
23
+ - ولاية سيدي بوزيد هي إحدى ولايات الجمهورية التونسية الـ24 من سنة1973, مساحتها 6994
24
+ كم مربع. وبلغ عدد سكان الولاية 912 429 ساكن حسب إحصائيات رسمية لسنة 2014[1], بها
25
+ 12 معتمدية أكبرها سيدي بوزيد الغربية وسيدي بوزيد الشرقية والمكناسي والرقاب وجلمة
26
+ والمزونة، هي ولاية فلاحية من أهم إنتاجها الخضر وزيت الزيتون. مركز الولاية مدينة
27
+ سيدي بوزيد.
28
+ - في ديسمبر 1800 أعلن جورج أوستن على غير توقع قرار تقاعده من عمله ككاهن، وغادر ستيفنتون
29
+ وانتقل بالعائلة إلى باث. على الرغم من أن قرار التقاعد والسفر جيدًا للأشقاء الكبار،
30
+ صدمت جين لمعرفتها أنها ستغادر المنزل الوحيد الذي طالما عرفته.[53] عدم قدرتها على
31
+ الإنتاج كان دلالة على ارتباك عقلها عندما عاشت في باث. قامت ببعض المراجعات لرواية
32
+ "سوزان"، وبدأت ثم ترطت رواية جديدة تدعى "آل واتسون" ، لكن لم يكن هناك ما يضاهي
33
+ الإنتاج المثمر ما بين 1795 و1799.[54] اقترحت تومالين أن ذلك يعكس اكتئابًا عميقًا
34
+ يعجزها ككاتبة. عارضها هونان وقال أن أوستن كتبت أو راجعت كتاباتها الخام طوال حياتها
35
+ ماعدا بضعة أشهر عقب وفاة والدها.[55]
36
+ - source_sentence: ما هو عدد ممالك إسكندنافيا؟
37
+ sentences:
38
+ - يهتم هذا العلم فعليا بدراسة الشروط الضرورية لنشأة الحياة، والآليات التي يمكن بها
39
+ تحول ما ليس بحي إلى حي لكن هذه الاليات لا تزال غير مؤكدة حتى الآن. ومع ذلك، توجد
40
+ العديد من النظريات العلمية لتفسير ظهور الحياة كما نعرفها اليوم، الذي يعتقد أنه
41
+ يعود تاريخها إلى حوالي 3،5 إلى 3،8 مليارات سنة.
42
+ - تم اغتيال الرئيس ماكينلي في سبتمبر 1901، وخلفه روزفلت إلى المنصب وهو بعمر 42 عاما،
43
+ ليصبح أصغر رئيس للبلاد في تاريخها. وقاد الحزب والبلاد في الحقبة التقدمية، ودافع
44
+ عن سياسته المحلية التي سميت "الاتفاق العادل"، واعدا بإنصاف المواطن العادي، وسحب
45
+ الديون، وتنظيم سكك الحديد والغذاء النقي والعقاقير. كما جعل الحفاظ على الطبيعة
46
+ من رأس أولوياته، وأنشأ عددا كبيرا من الحدائق الوطنية الجديدة والغابات والآثار
47
+ بهدف الحفاظ على الموارد الطبيعية للبلاد. ركز روزفلت في سياسته الخارجية على أمريكا
48
+ الوسطى، حيث بدأ بناء قناة بنما. وقام بتوسعة القوات البحرية للولايات المتحدة، وأرسل
49
+ ا��أسطول الأبيض العظيم في جولة حول العالم لإبراز القوة البحرية للولايات المتحدة
50
+ في جميع أنحاء العالم. كما نجح في إنهاء الحرب الروسية اليابانية، فأكسبته جهوده
51
+ جائزة نوبل للسلام عام 1906.
52
+ - ولدت آشانتي في حي جلين-كوف بولاية نيويورك بالولايات المتحدة الأمريكية، وهي أمريكية
53
+ من أصل أفريقي. وقد ورثت آشانتي شغفها للموسيقى من والدتها تينا دوجلاس والتي عملت
54
+ سابقا كمدرسة للرقص، كذلك من أبيها كين-كيد توماس دوجلاس والذي عمل سابقا كمغني.
55
+ ولها اخت صغرى تسمى كيناشيا.عمها، فوفو لاندفور، شغل منصب عمدة آتلانتيك سيتي بولاية
56
+ نيو جيرزي. وقد قامت والدة آشانتي بتسميتها بهذا الاسم تيمنا بإمبراطورية "آشانتي"
57
+ في التي وجدت يوما في "غانا". في تلك الإمبراطورية تمتعت النساء بالقوة والنفوذ،
58
+ وذلك ما تمنته الأم لابنتها.جدها، جيمس، كان ناشطا في مجال الحقوق المدنية، وساعد
59
+ السيد مارتن لوثر كينج خلال فترة الستينيات. وعندما كبرت آشانتي، بدأت في تلقى دروس
60
+ الرقص كما انضمت لجوقة الكنيسة. ذهبت آشانتي لمركز بيرنيس جونسون للفنون الثقافية،
61
+ حيث درست أنماط الرقص المختلفة، بما في ذلك النقر، الجاز، الباليه، الرقص الأفريقي،
62
+ الرقص الحديث والهيب هوب. رقصت مع فرقة برو (للكبار) بأماكن مختلفة مثل قاعة كارنيجي،
63
+ مسرح أبولو، أكاديمية بروكلين للموسيقى، قاعة آفري فيشر ومسرح الطيف الأسود. كما
64
+ قامت بالأداء أيضا في حفل الجوائز الكاريبية، ورقصت مع جوديث جاميسون من شركة آلفين
65
+ آيلي للرقص. وبقيادة الممثلة ومصممة الرقصات ديبي آلين، قامت آشانتي بالآداء في فيلم
66
+ ديزني التلفزيوني "بولي" Polly, بجانب نجوم كبار مثل كيشيا نايت بوليام وفيليشيا
67
+ رشاد.
68
+ - source_sentence: ما هي الحركة الصهيونية؟
69
+ sentences:
70
+ - كانت هذه الحروب الأهلية قد أنهكت اليثربيين أوسهم وخزرجهم , وبعد يوم بعاث قرر عقلاء
71
+ الطرفين وضع حد لهذه الحال فاتفقوا على تنصيب رجل واحد منهم يقبله الطرفان فوقع الاختيار
72
+ على عبد الله بن أبي بن سلول , وفيما كانا يُجهزان له ملكه حدثت بيعة العقبة الأولى
73
+ والثانية ودخل الإسلام يثرب ثم هاجر إليها النبي , فزال مُلك ابن أبي قبل أن يهنأ
74
+ به ولو ليوم واحد فعاش عبدالله بن أُبي تحت سيادة النبي كأكبر منافق ومعادٍ للنبي
75
+ عرفه التاريخ الإسلامي , والسبب في هذا واضحٌ فهو كان يرى أن النبي قد انتزعه ملكه
76
+ الذي كان يُجهز له . وكان يوم بعاث نهاية لحروب يثرب بين الأوس والخزرج حيث أنهم
77
+ اصطلحوا على ايقاف الحرب ثم دخلوا في الإسلام جميعاً وأصبحت سيوفهم تُسل على عدو
78
+ واحد دفاعاً عن عقيدتهم .
79
+ - شريف كواشي (1982-2015) وهو أحد المنفذين لحادثة الهجوم على صحيفة شارلي إبدو في
80
+ 7 يناير 2015 رفقة شقيقه الأكبر سعيد كواشي.
81
+ - أهم الأنهار التي تصب في البحر الأسود هو نهر الدانوب في الشمال الغربي و نهر الدنيستر
82
+ و الدنييبر في الشمال و نهر الكوبان في الشرق و نهر سقاريا في الجنوب و لا يوجد فيه
83
+ سوى ثلاث جزر صغيرة مهمة مميزة و هي زميني و بيرتيران و كفكن . مساحة المسطح المائي
84
+ للبحر الأسود تزيد عن 420 ألف كم مربع وأقصى عمق له 2210 م و أقصر عرض له يقع فيما
85
+ بين رأس سارتيش في شبه جزيرة القرم شمالا و رأس سارتيش جنوبا و لا يزيد على 263 كم
86
+ .
87
+ - source_sentence: ما هي كونشيرتو دي آرانخويث؟
88
+ sentences:
89
+ - زلزال سيتشوان 2008 هو زلزال حدث في مقاطعة سيشوان جنوب غرب جمهورية الصين الشعبية
90
+ في 12 مايو 2008 بالتوقيت المحلي 14:28:04، 06:28:04 غرينيتش. حسب نشرة للمسح الجيولوجي
91
+ الأمريكي أن شدة الزلزال بلغت 7.8 حسب مقياس ريختر.[1]. شعر بالزلزال سكان بكين،
92
+ شانغهاي، بانكوك، هونغ كونغ، هانوي، وتايبيه.[2]
93
+ - 'البصمة الوراثية أو الطبعة الوراثية أو بصمة الحمض النووي هي أحد وسائل التعرف على
94
+ الشخص عن طريق مقارنة مقاطع من الحمض النووي الريبوزي منقوص الأكسجين.[1][2][3] وتعتبر
95
+ البصمة الوراثية أهم تقدم للبشرية ضمن مجال البحث الجنائي من أجل محاربة الجريمة.
96
+ إن كل ما يحتاج إليه المحققون لتحديد البصمة الوراثية هو العثور على دليل بشري في
97
+ مكان الجريمة، مثل: قطرات العرق، السائل المنوي، الشعر، واللعاب. فكل ما يلمس المرء،
98
+ ومهما بلغت بساطة اللمسة، سيترك أثراً لبصمة وراثية فريدة.'
99
+ - حَقلُ الغَوَّار هو حقل نفط يقع بمحافظة الأحساء، بالمنطقة الشرقية، في السعودية[1].
100
+ يبلغ اتساعه 280 في 30 كلم، وهو أكبر حقل نفط معروف في العالم[1]، وهو السبب في أكثر
101
+ من نصف إنتاج نصف كمية البترول التراكمية في السعودية. تمتلك أرامكو السعودية حقل
102
+ الغوّار وتديره بالكامل، هناك معلومات قليلة نسبياً عن الحقل، بسبب تحفظ الحكومة
103
+ السعودية على بيانات الأداء والإنتاج، ولكن تتوفر عنه بعض المعلومات السابقة أثناء
104
+ الدولة السعودية الثالثة من المنشورات الطارئة أو القولية[1].
105
+ - source_sentence: متى ولد زين الدين زيدان ؟
106
+ sentences:
107
+ - الدرفلة هي عملية صناعية تعتبر إحدى طرق تشكيل المعادن. وتعتمد فكرتها على تمرير
108
+ المعدن على البارد أو الساخن عبر أجسام أسطوانية ثقيلة وذات صلادة عالية (تسمى الدرافيل)
109
+ وذلك بهدف تقليل سمك الصفائح أو قطر القضبان.[1][2]
110
+ - والرئيس الحالي للبرتغال هو مارسيلو ريبيلو دي سوزا، الذي تولى منصبه في 9 مارس 2016.
111
+ - هو أبو عبد الله حمود عقلا الشعيبي (ولد عام 1346هـ - توفي عام 1422 هـ) اسمه بالكامل
112
+ حمود بن عبد الله بن عقلاء بن محمد بن علي بن عقلاء الشعيبي الخالدي من آل جناح من
113
+ بني خالد ولد في بلدة الشقة من أعمال القصيم، نشأ في بيت دين وكرم فلما كان عمره
114
+ ست سنوات التحق بالكتّاب فتعلم القراءة والكتابة والحساب، وفي عام 1352 هـ أصيب الشعيبي
115
+ بمرض الجدري مما أدى إلى فقده بصره، وقد حرص عليه والده منذ نعومة أظفاره وكان والده
116
+ عبد الله صاحب زراعة وفلاحة فتعلم الشعيبي منه مع فقده لبصره الزراعة والسقي وغيرها.
117
+ pipeline_tag: sentence-similarity
118
+ library_name: sentence-transformers
119
+ ---
120
+
121
+ # SentenceTransformer based on omarelshehy/Arabic-Retrieval-v1.0
122
+
123
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [omarelshehy/Arabic-Retrieval-v1.0](https://huggingface.co/omarelshehy/Arabic-Retrieval-v1.0). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
124
+
125
+ ## Model Details
126
+
127
+ ### Model Description
128
+ - **Model Type:** Sentence Transformer
129
+ - **Base model:** [omarelshehy/Arabic-Retrieval-v1.0](https://huggingface.co/omarelshehy/Arabic-Retrieval-v1.0) <!-- at revision 899f6e1b765915a72d5e4ace6bb2b221715550d8 -->
130
+ - **Maximum Sequence Length:** 512 tokens
131
+ - **Output Dimensionality:** 768 dimensions
132
+ - **Similarity Function:** Cosine Similarity
133
+ <!-- - **Training Dataset:** Unknown -->
134
+ <!-- - **Language:** Unknown -->
135
+ <!-- - **License:** Unknown -->
136
+
137
+ ### Model Sources
138
+
139
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
140
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
141
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
142
+
143
+ ### Full Model Architecture
144
+
145
+ ```
146
+ SentenceTransformer(
147
+ (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
148
+ (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
149
+ )
150
+ ```
151
+
152
+ ## Usage
153
+
154
+ ### Direct Usage (Sentence Transformers)
155
+
156
+ First install the Sentence Transformers library:
157
+
158
+ ```bash
159
+ pip install -U sentence-transformers
160
+ ```
161
+
162
+ Then you can load this model and run inference.
163
+ ```python
164
+ from sentence_transformers import SentenceTransformer
165
+
166
+ # Download from the 🤗 Hub
167
+ model = SentenceTransformer("yoriis/BGE-M3-cosine-TAFSEER")
168
+ # Run inference
169
+ sentences = [
170
+ 'متى ولد زين الدين زيدان ؟',
171
+ 'الدرفلة هي عملية صناعية تعتبر إحدى طرق تشكيل المعادن. وتعتمد فكرتها على تمرير المعدن على البارد أو الساخن عبر أجسام أسطوانية ثقيلة وذات صلادة عالية (تسمى الدرافيل) وذلك بهدف تقليل سمك الصفائح أو قطر القضبان.[1][2]',
172
+ 'هو أبو عبد الله حمود عقلا الشعيبي (ولد عام 1346هـ - توفي عام 1422 هـ) اسمه بالكامل حمود بن عبد الله بن عقلاء بن محمد بن علي بن عقلاء الشعيبي الخالدي من آل جناح من بني خالد ولد في بلدة الشقة من أعمال القصيم، نشأ في بيت دين وكرم فلما كان عمره ست سنوات التحق بالكتّاب فتعلم القراءة والكتابة والحساب، وفي عام 1352 هـ أصيب الشعيبي بمرض الجدري مما أدى إلى فقده بصره، وقد حرص عليه والده منذ نعومة أظفاره وكان والده عبد الله صاحب زراعة وفلاحة فتعلم الشعيبي منه مع فقده لبصره الزراعة والسقي وغيرها.',
173
+ ]
174
+ embeddings = model.encode(sentences)
175
+ print(embeddings.shape)
176
+ # [3, 768]
177
+
178
+ # Get the similarity scores for the embeddings
179
+ similarities = model.similarity(embeddings, embeddings)
180
+ print(similarities.shape)
181
+ # [3, 3]
182
+ ```
183
+
184
+ <!--
185
+ ### Direct Usage (Transformers)
186
+
187
+ <details><summary>Click to see the direct usage in Transformers</summary>
188
+
189
+ </details>
190
+ -->
191
+
192
+ <!--
193
+ ### Downstream Usage (Sentence Transformers)
194
+
195
+ You can finetune this model on your own dataset.
196
+
197
+ <details><summary>Click to expand</summary>
198
+
199
+ </details>
200
+ -->
201
+
202
+ <!--
203
+ ### Out-of-Scope Use
204
+
205
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
206
+ -->
207
+
208
+ <!--
209
+ ## Bias, Risks and Limitations
210
+
211
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
212
+ -->
213
+
214
+ <!--
215
+ ### Recommendations
216
+
217
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
218
+ -->
219
+
220
+ ## Training Details
221
+
222
+ ### Training Dataset
223
+
224
+ #### Unnamed Dataset
225
+
226
+ * Size: 10,128 training samples
227
+ * Columns: <code>sentence_0</code>, <code>sentence_1</code>, and <code>label</code>
228
+ * Approximate statistics based on the first 1000 samples:
229
+ | | sentence_0 | sentence_1 | label |
230
+ |:--------|:-------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:---------------------------------------------------------------|
231
+ | type | string | string | float |
232
+ | details | <ul><li>min: 36 tokens</li><li>mean: 235.81 tokens</li><li>max: 512 tokens</li></ul> | <ul><li>min: 13 tokens</li><li>mean: 91.92 tokens</li><li>max: 316 tokens</li></ul> | <ul><li>min: 0.0</li><li>mean: 0.13</li><li>max: 1.0</li></ul> |
233
+ * Samples:
234
+ | sentence_0 | sentence_1 | label |
235
+ |:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------|
236
+ | <code>«و» أرسلنا «إلى ثمود» بترك الصرف مرادا به القبيلة «أخاهم صالحا قال يا قوم اعبدوا الله ما لكم من إله غيره قد جاءتكم بينة» معجزة «من ربكم» على صدقي «هذه ناقة الله لكم آية» حال عاملها معنى الإشارة وكانوا سألوه أن يخرجها لهم صخرة عينوها «فذروها تأكل في أرض الله ولا تمسوها بسوء» بعقر أو ضرب «فيأخذكم عذاب أليم»<br> «واذكروا إذ جعلكم خلفاء» في الأرض «من بعد عاد وبوأكم» أسكنكم «في الأرض تتخذون من سهولها قصورا» تسكنونها في الصيف «وتنحتون الجبال بيوتا» تسكنونها في الشتاء ونصبه على الحال المقدرة «فاذكروا آلاء الله ولا تعثوا في الأرض مفسدين»<br> «قال الملأ الذين استكبروا من قومه» تكبروا عن الإيمان به «للذين استضعفوا لمن آمن منهم» أي من قومه بدل مما قبله بإعادة الجار «أتعلمون أن صالحا مرسل من ربه» إليكم «قالوا» نعم «إنا بما أرسل به مؤمنون»<br> «قال الذين استكبروا إنا بالذي آمنتم به كافرون»<br> وكانت الناقة لها يوم في الماء ولهم يوم فملوا ذلك «فعقروا الناقة» عقرها قدار بأمرهم بأن قتلها بالسيف «وعتوا عن أمر ربهم وقالوا يا صالح ائتنا بما تعدنا» به من العذاب على قتلها «إن كنت من المرسلين»<br> «فأخذتهم الرجفة» الزلزلة...</code> | <code>وإلى ثمود أخاهم صالحا قال يا قوم اعبدوا الله ما لكم من إله غيره قد جاءتكم بينة من ربكم هذه ناقة الله لكم آية فذروها تأكل في أرض الله ولا تمسوها بسوء فيأخذكم عذاب أليم. واذكروا إذ جعلكم خلفاء من بعد عاد وبوأكم في الأرض تتخذون من سهولها قصورا وتنحتون الجبال بيوتا فاذكروا آلاء الله ولا تعثوا في الأرض مف��دين. قال الملأ الذين استكبروا من قومه للذين استضعفوا لمن آمن منهم أتعلمون أن صالحا مرسل من ربه قالوا إنا بما أرسل به مؤمنون. قال الذين استكبروا إنا بالذي آمنتم به كافرون. فعقروا الناقة وعتوا عن أمر ربهم وقالوا يا صالح ائتنا بما تعدنا إن كنت من المرسلين. فأخذتهم الرجفة فأصبحوا في دارهم جاثمين. فتولى عنهم وقال يا قوم لقد أبلغتكم رسالة ربي ونصحت لكم ولكن لا تحبون الناصحين.</code> | <code>1.0</code> |
237
+ | <code>«أأنتم» بتحقيق الهمزتين وإبدال الثانية ألفا وتسهيلها وإدخال ألف بين المسهلة والأخرى وتركه أي منكرو البعث «أشد خلقا أم السماء» أشد خلقا «بناها» بيان لكيفية خلقها<br> «رفع سمكها» تفسير لكيفية البناء أي جعل سمتها في جهة العلو رفيعا وقيل سمكها سقفها «فسواها» جعلها مستوية بلا عيب<br> «وأغطش ليلها» أظلمه «وأخرج ضحاها» أبرز نور شمسها وأضيف إليها الليل لأنه ظلها والشمس لأنها سراجها<br> «والأرض بعد ذلك دحاها» بسطها وكانت مخلوقة قبل السماء من غير دحو<br> «أخرج» حال بإضمار قد أي مخرجا «منها ماءها» بتفجير عيونها «ومرعاها» ما ترعاه النعم من الشجر والعشب وما يأكله الناس من الأقوات والثمار وإطلاق المرعى عليه استعارة<br> «والجبال أرساها» أثبتها على وجه الأرض لتسكن<br> «متاعا» مفعول له لمقدر أي فعل ذلك متعة أو مصدر أي تمتيعا «لكم ولأنعامكم» جمع نعم وهي الإبل والبقر والغنم</code> | <code>لقد أخذنا ميثاق بني إسرائيل وأرسلنا إليهم رسلا كلما جاءهم رسول بما لا تهوى أنفسهم فريقا كذبوا وفريقا يقتلون. وحسبوا ألا تكون فتنة فعموا وصموا ثم تاب الله عليهم ثم عموا وصموا كثير منهم والله بصير بما يعملون.</code> | <code>0.0</code> |
238
+ | <code>«ولما رجع موسى إلى قومه غضبان» من جهتهم «أسفا» شديد الحزن «قال» «بئسما» أي بئس خلافة «خلفتموني» ها «من بعدي» خلافتكم هذه حيث أشركتم «أعجلتم أمر ربكم وألقى الألواح» ألواح التوراة غضبا لربه فتكسرت «وأخذ برأس أخيه» أي شعره بيمينه ولحيته بشماله «يجره إليه» غضبا «قال» يا «ابن أم» بكسر الميم وفتحها أراد أمي وذكرها أعطف لقبله «إن القوم استضعفوني وكادوا» قاربوا «يقتلونني فلا تشمت» تفرح «بي الأعداء» بإهانتك إياي «ولا تجعلني مع القوم الظالمين» بعبادة العجل في المؤاخذة<br> «قال رب اغفر لي» ما صنعت بأخي «ولأخي» أشركه في الدعاء إرضاء له ودفعا للشماتة به «وأدخلنا في رحمتك وأنت أرحم الراحمين» قال تعالى<br> «إن الذين اتخذوا العجل» إلها «سينالهم غضب» عذاب «من ربهم وذلة في الحياة الدنيا» فعذبوا بالأمر بقتل أنفسهم وضربت عليهم الذلة إلى يوم القيامة «وكذلك» كما جزيناهم «نجزي المفترين» على الله بالإشراك وغيره<br> «والذين عملوا السيئات ثم تابوا» رجعوا عنها «من بعدها وآمنوا» بالله «إن ربك من بعدها» أي التوبة «لغفور» لهم «رحيم» بهم</code> | <code>إن في ذلك لآية لمن خاف عذاب الآخرة ذلك يوم مجموع له الناس وذلك يوم مشهود. وما نؤخره إلا لأجل معدود. يوم يأت لا تكلم نفس إلا بإذنه فمنهم شقي وسعيد. فأما الذين شقوا ففي النار لهم فيها زفير وشهيق. خالدين فيها ما دامت السماوات والأرض إلا ما شاء ربك إن ربك فعال لما يريد. وأما الذين سعدوا ففي الجنة خالدين فيها ما دامت السماوات والأرض إلا ما شاء ربك عطاء غير مجذوذ.</code> | <code>0.0</code> |
239
+ * Loss: [<code>CosineSimilarityLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cosinesimilarityloss) with these parameters:
240
+ ```json
241
+ {
242
+ "loss_fct": "torch.nn.modules.loss.MSELoss"
243
+ }
244
+ ```
245
+
246
+ ### Training Hyperparameters
247
+ #### Non-Default Hyperparameters
248
+
249
+ - `per_device_train_batch_size`: 4
250
+ - `per_device_eval_batch_size`: 4
251
+ - `fp16`: True
252
+ - `multi_dataset_batch_sampler`: round_robin
253
+
254
+ #### All Hyperparameters
255
+ <details><summary>Click to expand</summary>
256
+
257
+ - `overwrite_output_dir`: False
258
+ - `do_predict`: False
259
+ - `eval_strategy`: no
260
+ - `prediction_loss_only`: True
261
+ - `per_device_train_batch_size`: 4
262
+ - `per_device_eval_batch_size`: 4
263
+ - `per_gpu_train_batch_size`: None
264
+ - `per_gpu_eval_batch_size`: None
265
+ - `gradient_accumulation_steps`: 1
266
+ - `eval_accumulation_steps`: None
267
+ - `torch_empty_cache_steps`: None
268
+ - `learning_rate`: 5e-05
269
+ - `weight_decay`: 0.0
270
+ - `adam_beta1`: 0.9
271
+ - `adam_beta2`: 0.999
272
+ - `adam_epsilon`: 1e-08
273
+ - `max_grad_norm`: 1
274
+ - `num_train_epochs`: 3
275
+ - `max_steps`: -1
276
+ - `lr_scheduler_type`: linear
277
+ - `lr_scheduler_kwargs`: {}
278
+ - `warmup_ratio`: 0.0
279
+ - `warmup_steps`: 0
280
+ - `log_level`: passive
281
+ - `log_level_replica`: warning
282
+ - `log_on_each_node`: True
283
+ - `logging_nan_inf_filter`: True
284
+ - `save_safetensors`: True
285
+ - `save_on_each_node`: False
286
+ - `save_only_model`: False
287
+ - `restore_callback_states_from_checkpoint`: False
288
+ - `no_cuda`: False
289
+ - `use_cpu`: False
290
+ - `use_mps_device`: False
291
+ - `seed`: 42
292
+ - `data_seed`: None
293
+ - `jit_mode_eval`: False
294
+ - `use_ipex`: False
295
+ - `bf16`: False
296
+ - `fp16`: True
297
+ - `fp16_opt_level`: O1
298
+ - `half_precision_backend`: auto
299
+ - `bf16_full_eval`: False
300
+ - `fp16_full_eval`: False
301
+ - `tf32`: None
302
+ - `local_rank`: 0
303
+ - `ddp_backend`: None
304
+ - `tpu_num_cores`: None
305
+ - `tpu_metrics_debug`: False
306
+ - `debug`: []
307
+ - `dataloader_drop_last`: False
308
+ - `dataloader_num_workers`: 0
309
+ - `dataloader_prefetch_factor`: None
310
+ - `past_index`: -1
311
+ - `disable_tqdm`: False
312
+ - `remove_unused_columns`: True
313
+ - `label_names`: None
314
+ - `load_best_model_at_end`: False
315
+ - `ignore_data_skip`: False
316
+ - `fsdp`: []
317
+ - `fsdp_min_num_params`: 0
318
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
319
+ - `fsdp_transformer_layer_cls_to_wrap`: None
320
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
321
+ - `deepspeed`: None
322
+ - `label_smoothing_factor`: 0.0
323
+ - `optim`: adamw_torch
324
+ - `optim_args`: None
325
+ - `adafactor`: False
326
+ - `group_by_length`: False
327
+ - `length_column_name`: length
328
+ - `ddp_find_unused_parameters`: None
329
+ - `ddp_bucket_cap_mb`: None
330
+ - `ddp_broadcast_buffers`: False
331
+ - `dataloader_pin_memory`: True
332
+ - `dataloader_persistent_workers`: False
333
+ - `skip_memory_metrics`: True
334
+ - `use_legacy_prediction_loop`: False
335
+ - `push_to_hub`: False
336
+ - `resume_from_checkpoint`: None
337
+ - `hub_model_id`: None
338
+ - `hub_strategy`: every_save
339
+ - `hub_private_repo`: None
340
+ - `hub_always_push`: False
341
+ - `hub_revision`: None
342
+ - `gradient_checkpointing`: False
343
+ - `gradient_checkpointing_kwargs`: None
344
+ - `include_inputs_for_metrics`: False
345
+ - `include_for_metrics`: []
346
+ - `eval_do_concat_batches`: True
347
+ - `fp16_backend`: auto
348
+ - `push_to_hub_model_id`: None
349
+ - `push_to_hub_organization`: None
350
+ - `mp_parameters`:
351
+ - `auto_find_batch_size`: False
352
+ - `full_determinism`: False
353
+ - `torchdynamo`: None
354
+ - `ray_scope`: last
355
+ - `ddp_timeout`: 1800
356
+ - `torch_compile`: False
357
+ - `torch_compile_backend`: None
358
+ - `torch_compile_mode`: None
359
+ - `include_tokens_per_second`: False
360
+ - `include_num_input_tokens_seen`: False
361
+ - `neftune_noise_alpha`: None
362
+ - `optim_target_modules`: None
363
+ - `batch_eval_metrics`: False
364
+ - `eval_on_start`: False
365
+ - `use_liger_kernel`: False
366
+ - `liger_kernel_config`: None
367
+ - `eval_use_gather_object`: False
368
+ - `average_tokens_across_devices`: False
369
+ - `prompts`: None
370
+ - `batch_sampler`: batch_sampler
371
+ - `multi_dataset_batch_sampler`: round_robin
372
+
373
+ </details>
374
+
375
+ ### Training Logs
376
+ | Epoch | Step | Training Loss |
377
+ |:------:|:-----:|:-------------:|
378
+ | 0.0848 | 500 | 0.0371 |
379
+ | 0.1695 | 1000 | 0.0317 |
380
+ | 0.2543 | 1500 | 0.0302 |
381
+ | 0.3391 | 2000 | 0.0304 |
382
+ | 0.4239 | 2500 | 0.0295 |
383
+ | 0.5086 | 3000 | 0.0263 |
384
+ | 0.5934 | 3500 | 0.0271 |
385
+ | 0.6782 | 4000 | 0.0278 |
386
+ | 0.7630 | 4500 | 0.0263 |
387
+ | 0.8477 | 5000 | 0.0271 |
388
+ | 0.9325 | 5500 | 0.0253 |
389
+ | 1.0173 | 6000 | 0.022 |
390
+ | 1.1021 | 6500 | 0.0085 |
391
+ | 1.1868 | 7000 | 0.0115 |
392
+ | 1.2716 | 7500 | 0.0127 |
393
+ | 1.3564 | 8000 | 0.0111 |
394
+ | 1.4412 | 8500 | 0.011 |
395
+ | 1.5259 | 9000 | 0.0124 |
396
+ | 1.6107 | 9500 | 0.0116 |
397
+ | 1.6955 | 10000 | 0.0112 |
398
+ | 1.7803 | 10500 | 0.0131 |
399
+ | 1.8650 | 11000 | 0.0127 |
400
+ | 1.9498 | 11500 | 0.011 |
401
+ | 2.0346 | 12000 | 0.0094 |
402
+ | 2.1194 | 12500 | 0.0051 |
403
+ | 2.2041 | 13000 | 0.0042 |
404
+ | 2.2889 | 13500 | 0.0044 |
405
+ | 2.3737 | 14000 | 0.0048 |
406
+ | 2.4585 | 14500 | 0.0065 |
407
+ | 2.5432 | 15000 | 0.0055 |
408
+ | 2.6280 | 15500 | 0.0055 |
409
+ | 2.7128 | 16000 | 0.0049 |
410
+ | 2.7976 | 16500 | 0.0049 |
411
+ | 2.8823 | 17000 | 0.0045 |
412
+ | 2.9671 | 17500 | 0.0053 |
413
+ | 0.1975 | 500 | 0.0366 |
414
+ | 0.3949 | 1000 | 0.0155 |
415
+ | 0.5924 | 1500 | 0.0143 |
416
+ | 0.7899 | 2000 | 0.012 |
417
+ | 0.9874 | 2500 | 0.0119 |
418
+ | 1.1848 | 3000 | 0.006 |
419
+ | 1.3823 | 3500 | 0.0052 |
420
+ | 1.5798 | 4000 | 0.005 |
421
+ | 1.7773 | 4500 | 0.0048 |
422
+ | 1.9747 | 5000 | 0.0037 |
423
+ | 2.1722 | 5500 | 0.0023 |
424
+ | 2.3697 | 6000 | 0.0018 |
425
+ | 2.5671 | 6500 | 0.0016 |
426
+ | 2.7646 | 7000 | 0.0018 |
427
+ | 2.9621 | 7500 | 0.0023 |
428
+
429
+
430
+ ### Framework Versions
431
+ - Python: 3.11.13
432
+ - Sentence Transformers: 4.1.0
433
+ - Transformers: 4.54.0
434
+ - PyTorch: 2.6.0+cu124
435
+ - Accelerate: 1.9.0
436
+ - Datasets: 4.0.0
437
+ - Tokenizers: 0.21.2
438
+
439
+ ## Citation
440
+
441
+ ### BibTeX
442
+
443
+ #### Sentence Transformers
444
+ ```bibtex
445
+ @inproceedings{reimers-2019-sentence-bert,
446
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
447
+ author = "Reimers, Nils and Gurevych, Iryna",
448
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
449
+ month = "11",
450
+ year = "2019",
451
+ publisher = "Association for Computational Linguistics",
452
+ url = "https://arxiv.org/abs/1908.10084",
453
+ }
454
+ ```
455
+
456
+ <!--
457
+ ## Glossary
458
+
459
+ *Clearly define terms in order to be accessible across audiences.*
460
+ -->
461
+
462
+ <!--
463
+ ## Model Card Authors
464
+
465
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
466
+ -->
467
+
468
+ <!--
469
+ ## Model Card Contact
470
+
471
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
472
+ -->
added_tokens.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "<passage>": 64001,
3
+ "<query>": 64000
4
+ }
config.json ADDED
@@ -0,0 +1,24 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "BertModel"
4
+ ],
5
+ "attention_probs_dropout_prob": 0.1,
6
+ "classifier_dropout": null,
7
+ "hidden_act": "gelu",
8
+ "hidden_dropout_prob": 0.1,
9
+ "hidden_size": 768,
10
+ "initializer_range": 0.02,
11
+ "intermediate_size": 3072,
12
+ "layer_norm_eps": 1e-12,
13
+ "max_position_embeddings": 512,
14
+ "model_type": "bert",
15
+ "num_attention_heads": 12,
16
+ "num_hidden_layers": 12,
17
+ "pad_token_id": 0,
18
+ "position_embedding_type": "absolute",
19
+ "torch_dtype": "float32",
20
+ "transformers_version": "4.54.0",
21
+ "type_vocab_size": 2,
22
+ "use_cache": true,
23
+ "vocab_size": 64002
24
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "4.1.0",
4
+ "transformers": "4.54.0",
5
+ "pytorch": "2.6.0+cu124"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": "cosine"
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:33a649d0cf597093f6aa8bc5fc49b12f55d13c980b0112a3cf3e628843caa80a
3
+ size 540801896
modules.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ }
14
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 512,
3
+ "do_lower_case": false
4
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,37 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "cls_token": {
3
+ "content": "[CLS]",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "mask_token": {
10
+ "content": "[MASK]",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "pad_token": {
17
+ "content": "[PAD]",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "sep_token": {
24
+ "content": "[SEP]",
25
+ "lstrip": false,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "unk_token": {
31
+ "content": "[UNK]",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ }
37
+ }
tokenizer.json ADDED
The diff for this file is too large to render. See raw diff
 
tokenizer_config.json ADDED
@@ -0,0 +1,110 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "[PAD]",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "[UNK]",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "[CLS]",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "[SEP]",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "4": {
36
+ "content": "[MASK]",
37
+ "lstrip": false,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ },
43
+ "5": {
44
+ "content": "[رابط]",
45
+ "lstrip": false,
46
+ "normalized": true,
47
+ "rstrip": false,
48
+ "single_word": true,
49
+ "special": true
50
+ },
51
+ "6": {
52
+ "content": "[بريد]",
53
+ "lstrip": false,
54
+ "normalized": true,
55
+ "rstrip": false,
56
+ "single_word": true,
57
+ "special": true
58
+ },
59
+ "7": {
60
+ "content": "[مستخدم]",
61
+ "lstrip": false,
62
+ "normalized": true,
63
+ "rstrip": false,
64
+ "single_word": true,
65
+ "special": true
66
+ },
67
+ "64000": {
68
+ "content": "<query>",
69
+ "lstrip": false,
70
+ "normalized": false,
71
+ "rstrip": false,
72
+ "single_word": false,
73
+ "special": true
74
+ },
75
+ "64001": {
76
+ "content": "<passage>",
77
+ "lstrip": false,
78
+ "normalized": false,
79
+ "rstrip": false,
80
+ "single_word": false,
81
+ "special": true
82
+ }
83
+ },
84
+ "clean_up_tokenization_spaces": false,
85
+ "cls_token": "[CLS]",
86
+ "do_basic_tokenize": true,
87
+ "do_lower_case": false,
88
+ "extra_special_tokens": {},
89
+ "mask_token": "[MASK]",
90
+ "max_len": 512,
91
+ "max_length": 256,
92
+ "model_max_length": 512,
93
+ "never_split": [
94
+ "[بريد]",
95
+ "[مستخدم]",
96
+ "[رابط]"
97
+ ],
98
+ "pad_to_multiple_of": null,
99
+ "pad_token": "[PAD]",
100
+ "pad_token_type_id": 0,
101
+ "padding_side": "right",
102
+ "sep_token": "[SEP]",
103
+ "stride": 0,
104
+ "strip_accents": null,
105
+ "tokenize_chinese_chars": true,
106
+ "tokenizer_class": "BertTokenizer",
107
+ "truncation_side": "right",
108
+ "truncation_strategy": "longest_first",
109
+ "unk_token": "[UNK]"
110
+ }
vocab.txt ADDED
The diff for this file is too large to render. See raw diff