akhooli
/

Arabic-SBERT-100K

@@ -1,7 +1,7 @@
 ---
 base_model: aubmindlab/bert-base-arabertv02
 datasets: []
-language: [ar]
 library_name: sentence-transformers
 pipeline_tag: sentence-similarity
 tags:
@@ -9,19 +9,47 @@ tags:
 - sentence-similarity
 - feature-extraction
 - generated_from_trainer
-- dataset_size:10000
 - loss:MatryoshkaLoss
 - loss:MultipleNegativesRankingLoss
 ---
-# Arabic SBERT
-This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [aubmindlab/bert-base-arabertv02](https://huggingface.co/aubmindlab/bert-base-arabertv02).
-It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search,
-paraphrase mining, text classification, clustering, and more.
-The model is based on a sample from the `akhooli/arabic-triplets-1m-curated-sims-len` dataset. This is an early test version. Do not use while the model name has the
-word `test`.
 ## Model Details
@@ -68,9 +96,9 @@ from sentence_transformers import SentenceTransformer
 model = SentenceTransformer("sentence_transformers_model_id")
 # Run inference
 sentences = [
-    'أسباب كثرة التبول',
-    'أسباب كثرة التبول. يمكن أن يكون التبول المتكرر أحد أعراض العديد من المشاكل المختلفة من أمراض الكلى إلى مجرد شرب الكثير من السوائل. عندما يكون التبول المتكرر مصحوبًا بالحمى ، والحاجة الملحة للتبول ، والألم أو عدم الراحة في البطن ، فقد يكون لديك التهاب في المسالك البولية.',
-    'من الطبيعي أن يتبول البالغون سبع مرات خلال اليوم. في بعض الحيوانات ، بالإضافة إلى طرد النفايات ، يمكن أن يؤدي التبول إلى تحديد المنطقة أو التعبير عن الخضوع. من الناحية الفسيولوجية ، يتضمن التبول التنسيق بين الجهاز العصبي المركزي والجهاز ال��صبي اللاإرادي والجسدي.',
 ]
 embeddings = model.encode(sentences)
 print(embeddings.shape)
@@ -125,19 +153,19 @@ You can finetune this model on your own dataset.
 #### Unnamed Dataset
-* Size: 10,000 training samples
 * Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
 * Approximate statistics based on the first 1000 samples:
-  |         | anchor                                                                           | positive                                                                           | negative                                                                            |
-  |:--------|:---------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
-  | type    | string                                                                           | string                                                                             | string                                                                              |
-  | details | <ul><li>min: 4 tokens</li><li>mean: 8.78 tokens</li><li>max: 34 tokens</li></ul> | <ul><li>min: 8 tokens</li><li>mean: 67.32 tokens</li><li>max: 187 tokens</li></ul> | <ul><li>min: 12 tokens</li><li>mean: 67.49 tokens</li><li>max: 220 tokens</li></ul> |
 * Samples:
-  | anchor                                        | positive                                                                                                                                                                                                                                                                                                                                                                                                                                                                              | negative                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             |
-  |:----------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
-  | <code>النظرية الأساسية للتعريف الحسابي</code> | <code>النظرية الأساسية في الحساب. من ويكيبيديا، الموسوعة الحرة. النظرية الأساسية للأخلاق الحسابية (وتسمى أيضًا نظرية العوامل الفريدة) هي نظرية نظرية الأعداد. تقول النظرية أن كل عدد صحيح موجب أكبر من 1 يمكن كتابته كمنتج للأعداد الأولية (أو أن العدد الصحيح هو نفسه عدد أولي).</code>                                                                                                                                                                                              | <code>يتم تعريف الأساسي على أنه شيء أساسي أو أساسي. الحقيقة الأساسية للدين هي مثال لحقيقة أساسية. تعريف الأساسي هو حقيقة أساسية أو قانون. الحرية هي مثال أساسي للمثل الأعلى الأمريكي.</code>                                                                                                                                                                                                                                                                                                                                                                         |
-  | <code>كيف يتم تشخيص السعال الديكي</code>      | <code>تشخيص السعال الديكي. في الحالات المشتبه فيها من السعال الديكي ، يشتمل التشخيص عادةً على مراجعة التاريخ الطبي للمريض ، وفحصًا بدنيًا ، و (في بعض الحالات) اختبارات معينة. كجزء من تشخيص السعال الديكي (المعروف أيضًا باسم السعال الديكي) ، سيستبعد الطبيب أيضًا الأمراض الأخرى ، مثل نزلات البرد والإنفلونزا والتهاب الشعب الهوائية.</code>                                                                                                                                      | <code>بمجرد إصابتك بالسعال الديكي ، يستغرق ظهور العلامات والأعراض من سبعة إلى عشرة أيام ، على الرغم من أنها قد تستغرق وقتًا أطول في بعض الأحيان. بعد أسبوع أو أسبوعين ، ساءت العلامات والأعراض. يتراكم المخاط السميك داخل الممرات الهوائية ، مما يسبب سعالًا لا يمكن السيطرة عليه. ومع ذلك ، فإن الكثير من الناس لا يطورون هذه الخاصية المميزة. في بعض الأحيان ، يكون السعال المتقطع هو العلامة الوحيدة على إصابة المراهق أو البالغ بالسعال الديكي. قد لا يسعل الأطفال على الإطلاق. بدلاً من ذلك ، قد يكافحون من أجل التنفس ، أو قد يتوقفون مؤقتًا عن التنفس.</code> |
-  | <code>ما هو متوسط ضغط الماء للمنزل</code>   | <code>ضغط الماء هو مقدار القوة من الماء الرئيسي إلى منزلك. يقاس ضغط الماء بالجنيه لكل بوصة مربعة (PSI) ، وضغط الماء العادي عادة ما بين 30 و 80 رطل لكل بوصة مربعة ، التدفق الوظيفي هو حجم المياه المتدفقة عبر الأنابيب الخاصة بك وتصل إلى التركيبات الفردية ، وهو جهاز على شكل جرس يقلل من ضغط الماء. يجب أن يكون ضغط الماء 60-70 رطل لكل بوصة مربعة. إذا كان ضغط المنزل منخفضًا ، فأنت تريد أولاً تحديد ما إذا كان المنزل يعمل بنظام إمداد المياه العام أو نظام الآبار الخاص.</code> | <code>الضغط المحيط في الماء ذي السطح الحر هو مزيج من الضغط الهيدروستاتيكي الناتج عن وزن عمود الماء والضغط الجوي على السطح الحر ، والضغط المحيط على الجسم هو ضغط الوسط المحيط ، مثل الغاز أو السائل الذي يلامس الجسم. محتويات.</code>                                                                                                                                                                                                                                                                                                                                 |
 * Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
   ```json
   {
@@ -165,19 +193,19 @@ You can finetune this model on your own dataset.
 #### Unnamed Dataset
-* Size: 3,273 evaluation samples
 * Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
 * Approximate statistics based on the first 1000 samples:
-  |         | anchor                                                                           | positive                                                                            | negative                                                                           |
-  |:--------|:---------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|
-  | type    | string                                                                           | string                                                                              | string                                                                             |
-  | details | <ul><li>min: 4 tokens</li><li>mean: 8.86 tokens</li><li>max: 31 tokens</li></ul> | <ul><li>min: 13 tokens</li><li>mean: 66.56 tokens</li><li>max: 191 tokens</li></ul> | <ul><li>min: 15 tokens</li><li>mean: 69.1 tokens</li><li>max: 198 tokens</li></ul> |
 * Samples:
-  | anchor                                           | positive                                                                                                                                                                                                                                                                                                                                                         | negative                                                                                                                                                                                                                                                                                                                                                                                                                                                                                 |
-  |:-------------------------------------------------|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
-  | <code>ما هي الفوائد الصحية للجوز</code>          | <code>11 فوائد لا تصدق للجوز. تشمل الفوائد الصحية للجوز الحد من الكوليسترول السيئ في الجسم ، وتحسين التمثيل الغذائي ، والسيطرة على مرض السكري. تنبع الفوائد الصحية المهمة الأخرى للجوز من حقيقة أن هذه المكسرات تمتلك خصائص مضادة للالتهابات ، وتساعد في إدارة الوزن ، وتساعد في تقوية الحالة المزاجية.</code>                                                   | <code>لا يشترط قانون إلينوي على أصحاب العمل تقديم مزايا صحية لموظفيهم أو عائلاتهم. ومع ذلك ، إذا كنت مشمولاً بالمزايا الصحية لصاحب العمل ، فقد يكون فقدان التغطية مدمرًا.</code>                                                                                                                                                                                                                                                                                                         |
-  | <code>أفضل عناية بالبشرة للاحمرار</code>         | <code>تم تصميم خط العناية بالبشرة لعلاج الاحمرار من مراد لتلبية احتياجات العناية بالبشرة للأفراد ذوي البشرة الحساسة المعرضة للاحمرار والتهيج. يشتمل النظام المكون من ثلاثة أجزاء على منظف وجل معالج ومرطب مصحح مع واقي من الشمس.</code>                                                                                                                          | <code>الأوصاف. يستخدم هيدروكورتيزون فاليرات الموضعي للمساعدة في تخفيف الاحمرار أو الحكة أو التورم أو غير ذلك من الانزعاج الناجم عن الأمراض الجلدية. هذا الدواء عبارة عن كورتيكوستيرويد (دواء شبيه بالكورتيزون أو الستيرويد) ، ولا يتوفر هذا الدواء إلا بوصفة طبية ، ويستخدم هيدروكورتيزون فاليرات الموضعي للمساعدة في تخفيف الاحمرار أو الحكة أو التورم أو غير ذلك من الانزعاج الناجم عن الأمراض الجلدية. هذا الدواء عبارة عن كورتيكوستيرويد (دواء يشبه الكورتيزون أو الستيرويد).</code> |
-  | <code>متوسط الطقس في مينيابوليس في مايو</code> | <code>متوسط حالة الطقس في مايو في مينيابوليس مينيسوتا، الولايات المتحدة. في مينيابوليس ، يتميز شهر مايو بالارتفاع السريع لدرجات الحرارة اليومية المرتفعة ، مع ارتفاع درجات الحرارة اليومية بمقدار 10 درجة فهرنهايت ، من 64 درجة فهرنهايت إلى 74 درجة فهرنهايت على مدار شهرًا ، ونادرًا ما تتجاوز 85 درجة فهرنهايت أو تنخفض إلى أقل من 51 درجة فهرنهايت.</code> | <code>بولدن ، أريزونا الطقس. يبلغ متوسط درجة حرارة بولدن 55.67 درجة فهرنهايت ، وهو أقل بكثير من متوسط درجة الحرارة في أريزونا البالغ 65.97 درجة فهرنهايت وأعلى من متوسط درجة الحرارة الوطنية البالغ 54.45 درجة فهرنهايت . الطقس التاريخي.</code>                                                                                                                                                                                                                                   |
 * Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
   ```json
   {
@@ -207,6 +235,7 @@ You can finetune this model on your own dataset.
 - `per_device_train_batch_size`: 16
 - `per_device_eval_batch_size`: 16
 - `learning_rate`: 2e-05
 - `warmup_ratio`: 0.1
 - `fp16`: True
 - `batch_sampler`: no_duplicates
@@ -230,7 +259,7 @@ You can finetune this model on your own dataset.
 - `adam_beta2`: 0.999
 - `adam_epsilon`: 1e-08
 - `max_grad_norm`: 1.0
-- `num_train_epochs`: 3
 - `max_steps`: -1
 - `lr_scheduler_type`: linear
 - `lr_scheduler_kwargs`: {}
@@ -327,9 +356,31 @@ You can finetune this model on your own dataset.
 </details>
 ### Training Logs
-| Epoch  | Step | Training Loss | loss   |
-|:------:|:----:|:-------------:|:------:|
-| 1.5974 | 500  | 0.7182        | 0.2672 |
 ### Framework Versions

 ---
 base_model: aubmindlab/bert-base-arabertv02
 datasets: []
+language: []
 library_name: sentence-transformers
 pipeline_tag: sentence-similarity
 tags:
 - sentence-similarity
 - feature-extraction
 - generated_from_trainer
+- dataset_size:75000
 - loss:MatryoshkaLoss
 - loss:MultipleNegativesRankingLoss
+widget:
+- source_sentence: رجل ينظر إلى ما يبدو أنه قطع من الورق المقوى لامرأة في المطبخ.
+  sentences:
+  - زوج وزوجته يتزلجان على الجبال السويسرية
+  - ما هو الكتاب الجيد للقراءة؟
+  - رجل يحدق في امرأة في المطبخ
+- source_sentence: الكلب الرمادي يركض على جانب بركة بينما الكلب الأصفر يقفز إلى البركة.
+  sentences:
+  - الكلاب تأكل عشائها الليلي
+  - هناك كلبان بالخارج بالقرب من حمام السباحة
+  - كيف تصنع زجاج بيريكس؟
+- source_sentence: كيف يمكننا كسب المال من يوتيوب؟
+  sentences:
+  - كيف يمكنني كسب المال من خلال اليوتيوب؟
+  - فتى يرمي حقيبة.
+  - هل يمكن لشخص متحول جنسياً أن يعود إلى جنسه السابق بعد جراحة تغيير الجنس؟
+- source_sentence: كيف يحصل المرء على رقم هاتف فتاة بسرعة؟
+  sentences:
+  - امرأة تتسوق في سوق المزارعين
+  - كيف تحصل على رقم هاتف فتاة؟
+  - كيف يمكنني التخلص من حب الشباب؟
+- source_sentence: ما هو نوع الدهون الموجودة في الأفوكادو
+  sentences:
+  - حوالي 15 في المائة من الدهون في الأفوكادو مشبعة ، مع كل كوب واحد من الأفوكادو
+    المفروم يحتوي على 3.2 جرام من الدهون المشبعة ، وهو ما يمثل 16 في المائة من DV
+    البالغ 20 جرامًا. تحتوي الأفوكادو في الغالب على دهون أحادية غير مشبعة ، مع 67
+    في المائة من إجمالي الدهون ، أو 14.7 جرامًا لكل كوب مفروم ، ويتكون من هذا النوع
+    من الدهون.
+  - امرأة تستمتع برائحة شايها في الهواء الطلق.
+  - يمكن أن يؤدي ارتفاع مستوى الدهون الثلاثية ، وهي نوع من الدهون (الدهون) في الدم
+    ، إلى زيادة خطر الإصابة بأمراض القلب ، ويمكن أن يؤدي توفير مستوى مرتفع من الدهون
+    الثلاثية ، وهي نوع من الدهون (الدهون) في الدم ، إلى زيادة خطر الإصابة بأمراض القلب.
+    مرض.
 ---
+# SentenceTransformer based on aubmindlab/bert-base-arabertv02
+This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [aubmindlab/bert-base-arabertv02](https://huggingface.co/aubmindlab/bert-base-arabertv02). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
 ## Model Details
 model = SentenceTransformer("sentence_transformers_model_id")
 # Run inference
 sentences = [
+    'ما هو نوع الدهون الموجودة في الأفوكادو',
+    'حوالي 15 في المائة من الدهون في الأفوكادو مشبعة ، مع كل كوب واحد من الأفوكادو المفروم يحتوي على 3.2 جرام من الدهون المشبعة ، وهو ما يمثل 16 في المائة من DV البالغ 20 جرامًا. تحتوي الأفوكادو في الغالب على دهون أحادية غير مشبعة ، مع 67 في المائة من إجمالي الدهون ، أو 14.7 جرامًا لكل كوب مفروم ، ويتكون من هذا النوع من الدهون.',
+    'يمكن أن يؤدي ارتفاع مستوى الدهون الثلاثية ، وهي نوع من الدهون (الدهون) في الدم ، إلى زيادة خطر الإصابة بأمراض القلب ، ويمكن أن يؤدي توفير مستوى مرتفع من الدهون الثلاثية ، وهي نوع من الدهون (الدهون) في الدم ، إلى زيادة خطر الإصابة بأمراض القلب. مرض.',
 ]
 embeddings = model.encode(sentences)
 print(embeddings.shape)
 #### Unnamed Dataset
+* Size: 75,000 training samples
 * Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
 * Approximate statistics based on the first 1000 samples:
+  |         | anchor                                                                            | positive                                                                           | negative                                                                           |
+  |:--------|:----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|
+  | type    | string                                                                            | string                                                                             | string                                                                             |
+  | details | <ul><li>min: 4 tokens</li><li>mean: 12.88 tokens</li><li>max: 58 tokens</li></ul> | <ul><li>min: 4 tokens</li><li>mean: 13.74 tokens</li><li>max: 126 tokens</li></ul> | <ul><li>min: 4 tokens</li><li>mean: 13.38 tokens</li><li>max: 146 tokens</li></ul> |
 * Samples:
+  | anchor                                                                                    | positive                                                      | negative                                          |
+  |:------------------------------------------------------------------------------------------|:--------------------------------------------------------------|:--------------------------------------------------|
+  | <code>هل تشاجر (سي إس لويس) و (جي آر آر تولكين) ؟ إن كان الأمر كذلك، فما هو السبب؟</code> | <code>هل صحيح أن (سي إس لويس) و (تولكين) تشاجرا؟</code>       | <code>ما هي أفضل الكتب للدراسة في الجامعة؟</code> |
+  | <code>ما هي اعراض فقر الدم؟</code>                                                        | <code>ما هي اعراض الانيميا؟</code>                            | <code>كيف احضر  كيكة العسل؟</code>                |
+  | <code>من ستصوت له، دونالد ترامب أم هيلاري كلينتون؟</code>                                 | <code>هل تؤيدون دونالد ترامب أم هيلاري كلينتون؟ لماذا؟</code> | <code>كيف أتغلب على إدمان المواد الإباحية؟</code> |
 * Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
   ```json
   {
 #### Unnamed Dataset
+* Size: 25,000 evaluation samples
 * Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
 * Approximate statistics based on the first 1000 samples:
+  |         | anchor                                                                           | positive                                                                           | negative                                                                           |
+  |:--------|:---------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|
+  | type    | string                                                                           | string                                                                             | string                                                                             |
+  | details | <ul><li>min: 4 tokens</li><li>mean: 12.6 tokens</li><li>max: 70 tokens</li></ul> | <ul><li>min: 4 tokens</li><li>mean: 14.82 tokens</li><li>max: 239 tokens</li></ul> | <ul><li>min: 4 tokens</li><li>mean: 13.78 tokens</li><li>max: 128 tokens</li></ul> |
 * Samples:
+  | anchor                                                     | positive                                                     | negative                                    |
+  |:-----------------------------------------------------------|:-------------------------------------------------------------|:--------------------------------------------|
+  | <code>نعم , نعم , أو رأيت " تشيما بارا ديسو "</code>       | <code>نعم، أو "تشيما بارا ديسو" كانت تلك التي شاهدتها</code> | <code>أنا لم أرى "تشيما بارا ديسو".</code>  |
+  | <code>رجل وامرأة يجلسان على الشاطئ بينما تغرب الشمس</code> | <code>هناك رجل وامرأة يجلسان على الشاطئ</code>               | <code>إنهم يشاهدون شروق الشمس</code>        |
+  | <code>كيف أسيطر على غضبي؟</code>                           | <code>ما هي أفضل طريقة للسيطرة على الغضب؟</code>             | <code>كيف أعرف إن كانت زوجتي تخونني؟</code> |
 * Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
   ```json
   {
 - `per_device_train_batch_size`: 16
 - `per_device_eval_batch_size`: 16
 - `learning_rate`: 2e-05
+- `num_train_epochs`: 5
 - `warmup_ratio`: 0.1
 - `fp16`: True
 - `batch_sampler`: no_duplicates
 - `adam_beta2`: 0.999
 - `adam_epsilon`: 1e-08
 - `max_grad_norm`: 1.0
+- `num_train_epochs`: 5
 - `max_steps`: -1
 - `lr_scheduler_type`: linear
 - `lr_scheduler_kwargs`: {}
 </details>
 ### Training Logs
+| Epoch  | Step  | Training Loss | loss   |
+|:------:|:-----:|:-------------:|:------:|
+| 0.2133 | 500   | 1.4163        | 0.3134 |
+| 0.4266 | 1000  | 0.3306        | 0.1912 |
+| 0.6399 | 1500  | 0.2263        | 0.1527 |
+| 0.8532 | 2000  | 0.1818        | 0.1297 |
+| 1.0666 | 2500  | 0.1658        | 0.1167 |
+| 1.2799 | 3000  | 0.1139        | 0.1040 |
+| 1.4932 | 3500  | 0.0808        | 0.1018 |
+| 1.7065 | 4000  | 0.0692        | 0.0959 |
+| 1.9198 | 4500  | 0.058         | 0.0958 |
+| 2.1331 | 5000  | 0.0653        | 0.0882 |
+| 2.3464 | 5500  | 0.0503        | 0.0912 |
+| 2.5597 | 6000  | 0.0338        | 0.0970 |
+| 2.7730 | 6500  | 0.0363        | 0.0906 |
+| 2.9863 | 7000  | 0.0375        | 0.0856 |
+| 3.1997 | 7500  | 0.0401        | 0.0879 |
+| 3.4130 | 8000  | 0.031         | 0.0848 |
+| 3.6263 | 8500  | 0.0255        | 0.0938 |
+| 3.8396 | 9000  | 0.0239        | 0.0858 |
+| 4.0529 | 9500  | 0.0305        | 0.0840 |
+| 4.2662 | 10000 | 0.0281        | 0.0833 |
+| 4.4795 | 10500 | 0.0174        | 0.0840 |
+| 4.6928 | 11000 | 0.0216        | 0.0882 |
+| 4.9061 | 11500 | 0.022         | 0.0866 |
 ### Framework Versions

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a2f484329790d7d4196c0abbdef27adc40316af55d3aecc2b9a249dece8ef6b9
 size 540795752

 version https://git-lfs.github.com/spec/v1
+oid sha256:ee308a99b75411cbc36588efb0b0a39c698668b9d5a9cdf2afd8fcd82bdb2f44
 size 540795752