Add new SentenceTransformer model
Browse files- 1_Pooling/config.json +10 -0
- README.md +472 -0
- added_tokens.json +4 -0
- config.json +24 -0
- config_sentence_transformers.json +10 -0
- model.safetensors +3 -0
- modules.json +14 -0
- sentence_bert_config.json +4 -0
- special_tokens_map.json +37 -0
- tokenizer.json +0 -0
- tokenizer_config.json +110 -0
- vocab.txt +0 -0
1_Pooling/config.json
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"word_embedding_dimension": 768,
|
3 |
+
"pooling_mode_cls_token": false,
|
4 |
+
"pooling_mode_mean_tokens": true,
|
5 |
+
"pooling_mode_max_tokens": false,
|
6 |
+
"pooling_mode_mean_sqrt_len_tokens": false,
|
7 |
+
"pooling_mode_weightedmean_tokens": false,
|
8 |
+
"pooling_mode_lasttoken": false,
|
9 |
+
"include_prompt": true
|
10 |
+
}
|
README.md
ADDED
@@ -0,0 +1,472 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
tags:
|
3 |
+
- sentence-transformers
|
4 |
+
- sentence-similarity
|
5 |
+
- feature-extraction
|
6 |
+
- generated_from_trainer
|
7 |
+
- dataset_size:23589
|
8 |
+
- loss:CosineSimilarityLoss
|
9 |
+
- dataset_size:10128
|
10 |
+
base_model: omarelshehy/Arabic-Retrieval-v1.0
|
11 |
+
widget:
|
12 |
+
- source_sentence: متى تم اغتيال شكري بالعيد؟
|
13 |
+
sentences:
|
14 |
+
- كان إنريكو فيرمي أول من قام بتصويب النيوترونات على اليورانيوم عام 1934 ولكنه لم
|
15 |
+
ينجح في تفسير النتائج. وقام العالم الكيميائي الألماني أوتو هان وزميلته ليز مايتنر
|
16 |
+
وزميلهما فريتز شتراسمان بتلك الأبحاث وقاموا بتحليل المواد الناتجة عن التفاعل.
|
17 |
+
وكانت مفاجأة لم يستطيعوا تفسيرها أولاً، إذ أنهم وجدوا عناصر جديدة تكونت من خلال
|
18 |
+
التفاعل. وكان أن أعادوا التجربة باستخدام يورانيوم عالي النقاء، فكانت النتيجة هي
|
19 |
+
ما وجدوه من قبل وتكوّن عنصر الباريوم. والعدد الذري للباريوم نصف العدد الذري لليورانيوم
|
20 |
+
تقريباً. كان ذلك عام 1938 وبعدها بدأت الحرب العالمية الثانية واضطرت ليزا مايتنر
|
21 |
+
إلى مغادرة ألمانيا نظراً لاضطهاد النازية لليهود. وسافرت ليزا إلى السويد حيث كان
|
22 |
+
أحد أقربائها يعمل هناك وهو روبرت فريتش. وقصت عليه نتائج تجربة اليورانيوم.
|
23 |
+
- ولاية سيدي بوزيد هي إحدى ولايات الجمهورية التونسية الـ24 من سنة1973, مساحتها 6994
|
24 |
+
كم مربع. وبلغ عدد سكان الولاية 912 429 ساكن حسب إحصائيات رسمية لسنة 2014[1], بها
|
25 |
+
12 معتمدية أكبرها سيدي بوزيد الغربية وسيدي بوزيد الشرقية والمكناسي والرقاب وجلمة
|
26 |
+
والمزونة، هي ولاية فلاحية من أهم إنتاجها الخضر وزيت الزيتون. مركز الولاية مدينة
|
27 |
+
سيدي بوزيد.
|
28 |
+
- في ديسمبر 1800 أعلن جورج أوستن على غير توقع قرار تقاعده من عمله ككاهن، وغادر ستيفنتون
|
29 |
+
وانتقل بالعائلة إلى باث. على الرغم من أن قرار التقاعد والسفر جيدًا للأشقاء الكبار،
|
30 |
+
صدمت جين لمعرفتها أنها ستغادر المنزل الوحيد الذي طالما عرفته.[53] عدم قدرتها على
|
31 |
+
الإنتاج كان دلالة على ارتباك عقلها عندما عاشت في باث. قامت ببعض المراجعات لرواية
|
32 |
+
"سوزان"، وبدأت ثم ترطت رواية جديدة تدعى "آل واتسون" ، لكن لم يكن هناك ما يضاهي
|
33 |
+
الإنتاج المثمر ما بين 1795 و1799.[54] اقترحت تومالين أن ذلك يعكس اكتئابًا عميقًا
|
34 |
+
يعجزها ككاتبة. عارضها هونان وقال أن أوستن كتبت أو راجعت كتاباتها الخام طوال حياتها
|
35 |
+
ماعدا بضعة أشهر عقب وفاة والدها.[55]
|
36 |
+
- source_sentence: ما هو عدد ممالك إسكندنافيا؟
|
37 |
+
sentences:
|
38 |
+
- يهتم هذا العلم فعليا بدراسة الشروط الضرورية لنشأة الحياة، والآليات التي يمكن بها
|
39 |
+
تحول ما ليس بحي إلى حي لكن هذه الاليات لا تزال غير مؤكدة حتى الآن. ومع ذلك، توجد
|
40 |
+
العديد من النظريات العلمية لتفسير ظهور الحياة كما نعرفها اليوم، الذي يعتقد أنه
|
41 |
+
يعود تاريخها إلى حوالي 3،5 إلى 3،8 مليارات سنة.
|
42 |
+
- تم اغتيال الرئيس ماكينلي في سبتمبر 1901، وخلفه روزفلت إلى المنصب وهو بعمر 42 عاما،
|
43 |
+
ليصبح أصغر رئيس للبلاد في تاريخها. وقاد الحزب والبلاد في الحقبة التقدمية، ودافع
|
44 |
+
عن سياسته المحلية التي سميت "الاتفاق العادل"، واعدا بإنصاف المواطن العادي، وسحب
|
45 |
+
الديون، وتنظيم سكك الحديد والغذاء النقي والعقاقير. كما جعل الحفاظ على الطبيعة
|
46 |
+
من رأس أولوياته، وأنشأ عددا كبيرا من الحدائق الوطنية الجديدة والغابات والآثار
|
47 |
+
بهدف الحفاظ على الموارد الطبيعية للبلاد. ركز روزفلت في سياسته الخارجية على أمريكا
|
48 |
+
الوسطى، حيث بدأ بناء قناة بنما. وقام بتوسعة القوات البحرية للولايات المتحدة، وأرسل
|
49 |
+
ا��أسطول الأبيض العظيم في جولة حول العالم لإبراز القوة البحرية للولايات المتحدة
|
50 |
+
في جميع أنحاء العالم. كما نجح في إنهاء الحرب الروسية اليابانية، فأكسبته جهوده
|
51 |
+
جائزة نوبل للسلام عام 1906.
|
52 |
+
- ولدت آشانتي في حي جلين-كوف بولاية نيويورك بالولايات المتحدة الأمريكية، وهي أمريكية
|
53 |
+
من أصل أفريقي. وقد ورثت آشانتي شغفها للموسيقى من والدتها تينا دوجلاس والتي عملت
|
54 |
+
سابقا كمدرسة للرقص، كذلك من أبيها كين-كيد توماس دوجلاس والذي عمل سابقا كمغني.
|
55 |
+
ولها اخت صغرى تسمى كيناشيا.عمها، فوفو لاندفور، شغل منصب عمدة آتلانتيك سيتي بولاية
|
56 |
+
نيو جيرزي. وقد قامت والدة آشانتي بتسميتها بهذا الاسم تيمنا بإمبراطورية "آشانتي"
|
57 |
+
في التي وجدت يوما في "غانا". في تلك الإمبراطورية تمتعت النساء بالقوة والنفوذ،
|
58 |
+
وذلك ما تمنته الأم لابنتها.جدها، جيمس، كان ناشطا في مجال الحقوق المدنية، وساعد
|
59 |
+
السيد مارتن لوثر كينج خلال فترة الستينيات. وعندما كبرت آشانتي، بدأت في تلقى دروس
|
60 |
+
الرقص كما انضمت لجوقة الكنيسة. ذهبت آشانتي لمركز بيرنيس جونسون للفنون الثقافية،
|
61 |
+
حيث درست أنماط الرقص المختلفة، بما في ذلك النقر، الجاز، الباليه، الرقص الأفريقي،
|
62 |
+
الرقص الحديث والهيب هوب. رقصت مع فرقة برو (للكبار) بأماكن مختلفة مثل قاعة كارنيجي،
|
63 |
+
مسرح أبولو، أكاديمية بروكلين للموسيقى، قاعة آفري فيشر ومسرح الطيف الأسود. كما
|
64 |
+
قامت بالأداء أيضا في حفل الجوائز الكاريبية، ورقصت مع جوديث جاميسون من شركة آلفين
|
65 |
+
آيلي للرقص. وبقيادة الممثلة ومصممة الرقصات ديبي آلين، قامت آشانتي بالآداء في فيلم
|
66 |
+
ديزني التلفزيوني "بولي" Polly, بجانب نجوم كبار مثل كيشيا نايت بوليام وفيليشيا
|
67 |
+
رشاد.
|
68 |
+
- source_sentence: ما هي الحركة الصهيونية؟
|
69 |
+
sentences:
|
70 |
+
- كانت هذه الحروب الأهلية قد أنهكت اليثربيين أوسهم وخزرجهم , وبعد يوم بعاث قرر عقلاء
|
71 |
+
الطرفين وضع حد لهذه الحال فاتفقوا على تنصيب رجل واحد منهم يقبله الطرفان فوقع الاختيار
|
72 |
+
على عبد الله بن أبي بن سلول , وفيما كانا يُجهزان له ملكه حدثت بيعة العقبة الأولى
|
73 |
+
والثانية ودخل الإسلام يثرب ثم هاجر إليها النبي , فزال مُلك ابن أبي قبل أن يهنأ
|
74 |
+
به ولو ليوم واحد فعاش عبدالله بن أُبي تحت سيادة النبي كأكبر منافق ومعادٍ للنبي
|
75 |
+
عرفه التاريخ الإسلامي , والسبب في هذا واضحٌ فهو كان يرى أن النبي قد انتزعه ملكه
|
76 |
+
الذي كان يُجهز له . وكان يوم بعاث نهاية لحروب يثرب بين الأوس والخزرج حيث أنهم
|
77 |
+
اصطلحوا على ايقاف الحرب ثم دخلوا في الإسلام جميعاً وأصبحت سيوفهم تُسل على عدو
|
78 |
+
واحد دفاعاً عن عقيدتهم .
|
79 |
+
- شريف كواشي (1982-2015) وهو أحد المنفذين لحادثة الهجوم على صحيفة شارلي إبدو في
|
80 |
+
7 يناير 2015 رفقة شقيقه الأكبر سعيد كواشي.
|
81 |
+
- أهم الأنهار التي تصب في البحر الأسود هو نهر الدانوب في الشمال الغربي و نهر الدنيستر
|
82 |
+
و الدنييبر في الشمال و نهر الكوبان في الشرق و نهر سقاريا في الجنوب و لا يوجد فيه
|
83 |
+
سوى ثلاث جزر صغيرة مهمة مميزة و هي زميني و بيرتيران و كفكن . مساحة المسطح المائي
|
84 |
+
للبحر الأسود تزيد عن 420 ألف كم مربع وأقصى عمق له 2210 م و أقصر عرض له يقع فيما
|
85 |
+
بين رأس سارتيش في شبه جزيرة القرم شمالا و رأس سارتيش جنوبا و لا يزيد على 263 كم
|
86 |
+
.
|
87 |
+
- source_sentence: ما هي كونشيرتو دي آرانخويث؟
|
88 |
+
sentences:
|
89 |
+
- زلزال سيتشوان 2008 هو زلزال حدث في مقاطعة سيشوان جنوب غرب جمهورية الصين الشعبية
|
90 |
+
في 12 مايو 2008 بالتوقيت المحلي 14:28:04، 06:28:04 غرينيتش. حسب نشرة للمسح الجيولوجي
|
91 |
+
الأمريكي أن شدة الزلزال بلغت 7.8 حسب مقياس ريختر.[1]. شعر بالزلزال سكان بكين،
|
92 |
+
شانغهاي، بانكوك، هونغ كونغ، هانوي، وتايبيه.[2]
|
93 |
+
- 'البصمة الوراثية أو الطبعة الوراثية أو بصمة الحمض النووي هي أحد وسائل التعرف على
|
94 |
+
الشخص عن طريق مقارنة مقاطع من الحمض النووي الريبوزي منقوص الأكسجين.[1][2][3] وتعتبر
|
95 |
+
البصمة الوراثية أهم تقدم للبشرية ضمن مجال البحث الجنائي من أجل محاربة الجريمة.
|
96 |
+
إن كل ما يحتاج إليه المحققون لتحديد البصمة الوراثية هو العثور على دليل بشري في
|
97 |
+
مكان الجريمة، مثل: قطرات العرق، السائل المنوي، الشعر، واللعاب. فكل ما يلمس المرء،
|
98 |
+
ومهما بلغت بساطة اللمسة، سيترك أثراً لبصمة وراثية فريدة.'
|
99 |
+
- حَقلُ الغَوَّار هو حقل نفط يقع بمحافظة الأحساء، بالمنطقة الشرقية، في السعودية[1].
|
100 |
+
يبلغ اتساعه 280 في 30 كلم، وهو أكبر حقل نفط معروف في العالم[1]، وهو السبب في أكثر
|
101 |
+
من نصف إنتاج نصف كمية البترول التراكمية في السعودية. تمتلك أرامكو السعودية حقل
|
102 |
+
الغوّار وتديره بالكامل، هناك معلومات قليلة نسبياً عن الحقل، بسبب تحفظ الحكومة
|
103 |
+
السعودية على بيانات الأداء والإنتاج، ولكن تتوفر عنه بعض المعلومات السابقة أثناء
|
104 |
+
الدولة السعودية الثالثة من المنشورات الطارئة أو القولية[1].
|
105 |
+
- source_sentence: متى ولد زين الدين زيدان ؟
|
106 |
+
sentences:
|
107 |
+
- الدرفلة هي عملية صناعية تعتبر إحدى طرق تشكيل المعادن. وتعتمد فكرتها على تمرير
|
108 |
+
المعدن على البارد أو الساخن عبر أجسام أسطوانية ثقيلة وذات صلادة عالية (تسمى الدرافيل)
|
109 |
+
وذلك بهدف تقليل سمك الصفائح أو قطر القضبان.[1][2]
|
110 |
+
- والرئيس الحالي للبرتغال هو مارسيلو ريبيلو دي سوزا، الذي تولى منصبه في 9 مارس 2016.
|
111 |
+
- هو أبو عبد الله حمود عقلا الشعيبي (ولد عام 1346هـ - توفي عام 1422 هـ) اسمه بالكامل
|
112 |
+
حمود بن عبد الله بن عقلاء بن محمد بن علي بن عقلاء الشعيبي الخالدي من آل جناح من
|
113 |
+
بني خالد ولد في بلدة الشقة من أعمال القصيم، نشأ في بيت دين وكرم فلما كان عمره
|
114 |
+
ست سنوات التحق بالكتّاب فتعلم القراءة والكتابة والحساب، وفي عام 1352 هـ أصيب الشعيبي
|
115 |
+
بمرض الجدري مما أدى إلى فقده بصره، وقد حرص عليه والده منذ نعومة أظفاره وكان والده
|
116 |
+
عبد الله صاحب زراعة وفلاحة فتعلم الشعيبي منه مع فقده لبصره الزراعة والسقي وغيرها.
|
117 |
+
pipeline_tag: sentence-similarity
|
118 |
+
library_name: sentence-transformers
|
119 |
+
---
|
120 |
+
|
121 |
+
# SentenceTransformer based on omarelshehy/Arabic-Retrieval-v1.0
|
122 |
+
|
123 |
+
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [omarelshehy/Arabic-Retrieval-v1.0](https://huggingface.co/omarelshehy/Arabic-Retrieval-v1.0). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
|
124 |
+
|
125 |
+
## Model Details
|
126 |
+
|
127 |
+
### Model Description
|
128 |
+
- **Model Type:** Sentence Transformer
|
129 |
+
- **Base model:** [omarelshehy/Arabic-Retrieval-v1.0](https://huggingface.co/omarelshehy/Arabic-Retrieval-v1.0) <!-- at revision 899f6e1b765915a72d5e4ace6bb2b221715550d8 -->
|
130 |
+
- **Maximum Sequence Length:** 512 tokens
|
131 |
+
- **Output Dimensionality:** 768 dimensions
|
132 |
+
- **Similarity Function:** Cosine Similarity
|
133 |
+
<!-- - **Training Dataset:** Unknown -->
|
134 |
+
<!-- - **Language:** Unknown -->
|
135 |
+
<!-- - **License:** Unknown -->
|
136 |
+
|
137 |
+
### Model Sources
|
138 |
+
|
139 |
+
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
|
140 |
+
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
|
141 |
+
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
|
142 |
+
|
143 |
+
### Full Model Architecture
|
144 |
+
|
145 |
+
```
|
146 |
+
SentenceTransformer(
|
147 |
+
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
|
148 |
+
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
|
149 |
+
)
|
150 |
+
```
|
151 |
+
|
152 |
+
## Usage
|
153 |
+
|
154 |
+
### Direct Usage (Sentence Transformers)
|
155 |
+
|
156 |
+
First install the Sentence Transformers library:
|
157 |
+
|
158 |
+
```bash
|
159 |
+
pip install -U sentence-transformers
|
160 |
+
```
|
161 |
+
|
162 |
+
Then you can load this model and run inference.
|
163 |
+
```python
|
164 |
+
from sentence_transformers import SentenceTransformer
|
165 |
+
|
166 |
+
# Download from the 🤗 Hub
|
167 |
+
model = SentenceTransformer("yoriis/BGE-M3-cosine-TAFSEER")
|
168 |
+
# Run inference
|
169 |
+
sentences = [
|
170 |
+
'متى ولد زين الدين زيدان ؟',
|
171 |
+
'الدرفلة هي عملية صناعية تعتبر إحدى طرق تشكيل المعادن. وتعتمد فكرتها على تمرير المعدن على البارد أو الساخن عبر أجسام أسطوانية ثقيلة وذات صلادة عالية (تسمى الدرافيل) وذلك بهدف تقليل سمك الصفائح أو قطر القضبان.[1][2]',
|
172 |
+
'هو أبو عبد الله حمود عقلا الشعيبي (ولد عام 1346هـ - توفي عام 1422 هـ) اسمه بالكامل حمود بن عبد الله بن عقلاء بن محمد بن علي بن عقلاء الشعيبي الخالدي من آل جناح من بني خالد ولد في بلدة الشقة من أعمال القصيم، نشأ في بيت دين وكرم فلما كان عمره ست سنوات التحق بالكتّاب فتعلم القراءة والكتابة والحساب، وفي عام 1352 هـ أصيب الشعيبي بمرض الجدري مما أدى إلى فقده بصره، وقد حرص عليه والده منذ نعومة أظفاره وكان والده عبد الله صاحب زراعة وفلاحة فتعلم الشعيبي منه مع فقده لبصره الزراعة والسقي وغيرها.',
|
173 |
+
]
|
174 |
+
embeddings = model.encode(sentences)
|
175 |
+
print(embeddings.shape)
|
176 |
+
# [3, 768]
|
177 |
+
|
178 |
+
# Get the similarity scores for the embeddings
|
179 |
+
similarities = model.similarity(embeddings, embeddings)
|
180 |
+
print(similarities.shape)
|
181 |
+
# [3, 3]
|
182 |
+
```
|
183 |
+
|
184 |
+
<!--
|
185 |
+
### Direct Usage (Transformers)
|
186 |
+
|
187 |
+
<details><summary>Click to see the direct usage in Transformers</summary>
|
188 |
+
|
189 |
+
</details>
|
190 |
+
-->
|
191 |
+
|
192 |
+
<!--
|
193 |
+
### Downstream Usage (Sentence Transformers)
|
194 |
+
|
195 |
+
You can finetune this model on your own dataset.
|
196 |
+
|
197 |
+
<details><summary>Click to expand</summary>
|
198 |
+
|
199 |
+
</details>
|
200 |
+
-->
|
201 |
+
|
202 |
+
<!--
|
203 |
+
### Out-of-Scope Use
|
204 |
+
|
205 |
+
*List how the model may foreseeably be misused and address what users ought not to do with the model.*
|
206 |
+
-->
|
207 |
+
|
208 |
+
<!--
|
209 |
+
## Bias, Risks and Limitations
|
210 |
+
|
211 |
+
*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
|
212 |
+
-->
|
213 |
+
|
214 |
+
<!--
|
215 |
+
### Recommendations
|
216 |
+
|
217 |
+
*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
|
218 |
+
-->
|
219 |
+
|
220 |
+
## Training Details
|
221 |
+
|
222 |
+
### Training Dataset
|
223 |
+
|
224 |
+
#### Unnamed Dataset
|
225 |
+
|
226 |
+
* Size: 10,128 training samples
|
227 |
+
* Columns: <code>sentence_0</code>, <code>sentence_1</code>, and <code>label</code>
|
228 |
+
* Approximate statistics based on the first 1000 samples:
|
229 |
+
| | sentence_0 | sentence_1 | label |
|
230 |
+
|:--------|:-------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:---------------------------------------------------------------|
|
231 |
+
| type | string | string | float |
|
232 |
+
| details | <ul><li>min: 36 tokens</li><li>mean: 235.81 tokens</li><li>max: 512 tokens</li></ul> | <ul><li>min: 13 tokens</li><li>mean: 91.92 tokens</li><li>max: 316 tokens</li></ul> | <ul><li>min: 0.0</li><li>mean: 0.13</li><li>max: 1.0</li></ul> |
|
233 |
+
* Samples:
|
234 |
+
| sentence_0 | sentence_1 | label |
|
235 |
+
|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------|
|
236 |
+
| <code>«و» أرسلنا «إلى ثمود» بترك الصرف مرادا به القبيلة «أخاهم صالحا قال يا قوم اعبدوا الله ما لكم من إله غيره قد جاءتكم بينة» معجزة «من ربكم» على صدقي «هذه ناقة الله لكم آية» حال عاملها معنى الإشارة وكانوا سألوه أن يخرجها لهم صخرة عينوها «فذروها تأكل في أرض الله ولا تمسوها بسوء» بعقر أو ضرب «فيأخذكم عذاب أليم»<br> «واذكروا إذ جعلكم خلفاء» في الأرض «من بعد عاد وبوأكم» أسكنكم «في الأرض تتخذون من سهولها قصورا» تسكنونها في الصيف «وتنحتون الجبال بيوتا» تسكنونها في الشتاء ونصبه على الحال المقدرة «فاذكروا آلاء الله ولا تعثوا في الأرض مفسدين»<br> «قال الملأ الذين استكبروا من قومه» تكبروا عن الإيمان به «للذين استضعفوا لمن آمن منهم» أي من قومه بدل مما قبله بإعادة الجار «أتعلمون أن صالحا مرسل من ربه» إليكم «قالوا» نعم «إنا بما أرسل به مؤمنون»<br> «قال الذين استكبروا إنا بالذي آمنتم به كافرون»<br> وكانت الناقة لها يوم في الماء ولهم يوم فملوا ذلك «فعقروا الناقة» عقرها قدار بأمرهم بأن قتلها بالسيف «وعتوا عن أمر ربهم وقالوا يا صالح ائتنا بما تعدنا» به من العذاب على قتلها «إن كنت من المرسلين»<br> «فأخذتهم الرجفة» الزلزلة...</code> | <code>وإلى ثمود أخاهم صالحا قال يا قوم اعبدوا الله ما لكم من إله غيره قد جاءتكم بينة من ربكم هذه ناقة الله لكم آية فذروها تأكل في أرض الله ولا تمسوها بسوء فيأخذكم عذاب أليم. واذكروا إذ جعلكم خلفاء من بعد عاد وبوأكم في الأرض تتخذون من سهولها قصورا وتنحتون الجبال بيوتا فاذكروا آلاء الله ولا تعثوا في الأرض مف��دين. قال الملأ الذين استكبروا من قومه للذين استضعفوا لمن آمن منهم أتعلمون أن صالحا مرسل من ربه قالوا إنا بما أرسل به مؤمنون. قال الذين استكبروا إنا بالذي آمنتم به كافرون. فعقروا الناقة وعتوا عن أمر ربهم وقالوا يا صالح ائتنا بما تعدنا إن كنت من المرسلين. فأخذتهم الرجفة فأصبحوا في دارهم جاثمين. فتولى عنهم وقال يا قوم لقد أبلغتكم رسالة ربي ونصحت لكم ولكن لا تحبون الناصحين.</code> | <code>1.0</code> |
|
237 |
+
| <code>«أأنتم» بتحقيق الهمزتين وإبدال الثانية ألفا وتسهيلها وإدخال ألف بين المسهلة والأخرى وتركه أي منكرو البعث «أشد خلقا أم السماء» أشد خلقا «بناها» بيان لكيفية خلقها<br> «رفع سمكها» تفسير لكيفية البناء أي جعل سمتها في جهة العلو رفيعا وقيل سمكها سقفها «فسواها» جعلها مستوية بلا عيب<br> «وأغطش ليلها» أظلمه «وأخرج ضحاها» أبرز نور شمسها وأضيف إليها الليل لأنه ظلها والشمس لأنها سراجها<br> «والأرض بعد ذلك دحاها» بسطها وكانت مخلوقة قبل السماء من غير دحو<br> «أخرج» حال بإضمار قد أي مخرجا «منها ماءها» بتفجير عيونها «ومرعاها» ما ترعاه النعم من الشجر والعشب وما يأكله الناس من الأقوات والثمار وإطلاق المرعى عليه استعارة<br> «والجبال أرساها» أثبتها على وجه الأرض لتسكن<br> «متاعا» مفعول له لمقدر أي فعل ذلك متعة أو مصدر أي تمتيعا «لكم ولأنعامكم» جمع نعم وهي الإبل والبقر والغنم</code> | <code>لقد أخذنا ميثاق بني إسرائيل وأرسلنا إليهم رسلا كلما جاءهم رسول بما لا تهوى أنفسهم فريقا كذبوا وفريقا يقتلون. وحسبوا ألا تكون فتنة فعموا وصموا ثم تاب الله عليهم ثم عموا وصموا كثير منهم والله بصير بما يعملون.</code> | <code>0.0</code> |
|
238 |
+
| <code>«ولما رجع موسى إلى قومه غضبان» من جهتهم «أسفا» شديد الحزن «قال» «بئسما» أي بئس خلافة «خلفتموني» ها «من بعدي» خلافتكم هذه حيث أشركتم «أعجلتم أمر ربكم وألقى الألواح» ألواح التوراة غضبا لربه فتكسرت «وأخذ برأس أخيه» أي شعره بيمينه ولحيته بشماله «يجره إليه» غضبا «قال» يا «ابن أم» بكسر الميم وفتحها أراد أمي وذكرها أعطف لقبله «إن القوم استضعفوني وكادوا» قاربوا «يقتلونني فلا تشمت» تفرح «بي الأعداء» بإهانتك إياي «ولا تجعلني مع القوم الظالمين» بعبادة العجل في المؤاخذة<br> «قال رب اغفر لي» ما صنعت بأخي «ولأخي» أشركه في الدعاء إرضاء له ودفعا للشماتة به «وأدخلنا في رحمتك وأنت أرحم الراحمين» قال تعالى<br> «إن الذين اتخذوا العجل» إلها «سينالهم غضب» عذاب «من ربهم وذلة في الحياة الدنيا» فعذبوا بالأمر بقتل أنفسهم وضربت عليهم الذلة إلى يوم القيامة «وكذلك» كما جزيناهم «نجزي المفترين» على الله بالإشراك وغيره<br> «والذين عملوا السيئات ثم تابوا» رجعوا عنها «من بعدها وآمنوا» بالله «إن ربك من بعدها» أي التوبة «لغفور» لهم «رحيم» بهم</code> | <code>إن في ذلك لآية لمن خاف عذاب الآخرة ذلك يوم مجموع له الناس وذلك يوم مشهود. وما نؤخره إلا لأجل معدود. يوم يأت لا تكلم نفس إلا بإذنه فمنهم شقي وسعيد. فأما الذين شقوا ففي النار لهم فيها زفير وشهيق. خالدين فيها ما دامت السماوات والأرض إلا ما شاء ربك إن ربك فعال لما يريد. وأما الذين سعدوا ففي الجنة خالدين فيها ما دامت السماوات والأرض إلا ما شاء ربك عطاء غير مجذوذ.</code> | <code>0.0</code> |
|
239 |
+
* Loss: [<code>CosineSimilarityLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cosinesimilarityloss) with these parameters:
|
240 |
+
```json
|
241 |
+
{
|
242 |
+
"loss_fct": "torch.nn.modules.loss.MSELoss"
|
243 |
+
}
|
244 |
+
```
|
245 |
+
|
246 |
+
### Training Hyperparameters
|
247 |
+
#### Non-Default Hyperparameters
|
248 |
+
|
249 |
+
- `per_device_train_batch_size`: 4
|
250 |
+
- `per_device_eval_batch_size`: 4
|
251 |
+
- `fp16`: True
|
252 |
+
- `multi_dataset_batch_sampler`: round_robin
|
253 |
+
|
254 |
+
#### All Hyperparameters
|
255 |
+
<details><summary>Click to expand</summary>
|
256 |
+
|
257 |
+
- `overwrite_output_dir`: False
|
258 |
+
- `do_predict`: False
|
259 |
+
- `eval_strategy`: no
|
260 |
+
- `prediction_loss_only`: True
|
261 |
+
- `per_device_train_batch_size`: 4
|
262 |
+
- `per_device_eval_batch_size`: 4
|
263 |
+
- `per_gpu_train_batch_size`: None
|
264 |
+
- `per_gpu_eval_batch_size`: None
|
265 |
+
- `gradient_accumulation_steps`: 1
|
266 |
+
- `eval_accumulation_steps`: None
|
267 |
+
- `torch_empty_cache_steps`: None
|
268 |
+
- `learning_rate`: 5e-05
|
269 |
+
- `weight_decay`: 0.0
|
270 |
+
- `adam_beta1`: 0.9
|
271 |
+
- `adam_beta2`: 0.999
|
272 |
+
- `adam_epsilon`: 1e-08
|
273 |
+
- `max_grad_norm`: 1
|
274 |
+
- `num_train_epochs`: 3
|
275 |
+
- `max_steps`: -1
|
276 |
+
- `lr_scheduler_type`: linear
|
277 |
+
- `lr_scheduler_kwargs`: {}
|
278 |
+
- `warmup_ratio`: 0.0
|
279 |
+
- `warmup_steps`: 0
|
280 |
+
- `log_level`: passive
|
281 |
+
- `log_level_replica`: warning
|
282 |
+
- `log_on_each_node`: True
|
283 |
+
- `logging_nan_inf_filter`: True
|
284 |
+
- `save_safetensors`: True
|
285 |
+
- `save_on_each_node`: False
|
286 |
+
- `save_only_model`: False
|
287 |
+
- `restore_callback_states_from_checkpoint`: False
|
288 |
+
- `no_cuda`: False
|
289 |
+
- `use_cpu`: False
|
290 |
+
- `use_mps_device`: False
|
291 |
+
- `seed`: 42
|
292 |
+
- `data_seed`: None
|
293 |
+
- `jit_mode_eval`: False
|
294 |
+
- `use_ipex`: False
|
295 |
+
- `bf16`: False
|
296 |
+
- `fp16`: True
|
297 |
+
- `fp16_opt_level`: O1
|
298 |
+
- `half_precision_backend`: auto
|
299 |
+
- `bf16_full_eval`: False
|
300 |
+
- `fp16_full_eval`: False
|
301 |
+
- `tf32`: None
|
302 |
+
- `local_rank`: 0
|
303 |
+
- `ddp_backend`: None
|
304 |
+
- `tpu_num_cores`: None
|
305 |
+
- `tpu_metrics_debug`: False
|
306 |
+
- `debug`: []
|
307 |
+
- `dataloader_drop_last`: False
|
308 |
+
- `dataloader_num_workers`: 0
|
309 |
+
- `dataloader_prefetch_factor`: None
|
310 |
+
- `past_index`: -1
|
311 |
+
- `disable_tqdm`: False
|
312 |
+
- `remove_unused_columns`: True
|
313 |
+
- `label_names`: None
|
314 |
+
- `load_best_model_at_end`: False
|
315 |
+
- `ignore_data_skip`: False
|
316 |
+
- `fsdp`: []
|
317 |
+
- `fsdp_min_num_params`: 0
|
318 |
+
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
|
319 |
+
- `fsdp_transformer_layer_cls_to_wrap`: None
|
320 |
+
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
|
321 |
+
- `deepspeed`: None
|
322 |
+
- `label_smoothing_factor`: 0.0
|
323 |
+
- `optim`: adamw_torch
|
324 |
+
- `optim_args`: None
|
325 |
+
- `adafactor`: False
|
326 |
+
- `group_by_length`: False
|
327 |
+
- `length_column_name`: length
|
328 |
+
- `ddp_find_unused_parameters`: None
|
329 |
+
- `ddp_bucket_cap_mb`: None
|
330 |
+
- `ddp_broadcast_buffers`: False
|
331 |
+
- `dataloader_pin_memory`: True
|
332 |
+
- `dataloader_persistent_workers`: False
|
333 |
+
- `skip_memory_metrics`: True
|
334 |
+
- `use_legacy_prediction_loop`: False
|
335 |
+
- `push_to_hub`: False
|
336 |
+
- `resume_from_checkpoint`: None
|
337 |
+
- `hub_model_id`: None
|
338 |
+
- `hub_strategy`: every_save
|
339 |
+
- `hub_private_repo`: None
|
340 |
+
- `hub_always_push`: False
|
341 |
+
- `hub_revision`: None
|
342 |
+
- `gradient_checkpointing`: False
|
343 |
+
- `gradient_checkpointing_kwargs`: None
|
344 |
+
- `include_inputs_for_metrics`: False
|
345 |
+
- `include_for_metrics`: []
|
346 |
+
- `eval_do_concat_batches`: True
|
347 |
+
- `fp16_backend`: auto
|
348 |
+
- `push_to_hub_model_id`: None
|
349 |
+
- `push_to_hub_organization`: None
|
350 |
+
- `mp_parameters`:
|
351 |
+
- `auto_find_batch_size`: False
|
352 |
+
- `full_determinism`: False
|
353 |
+
- `torchdynamo`: None
|
354 |
+
- `ray_scope`: last
|
355 |
+
- `ddp_timeout`: 1800
|
356 |
+
- `torch_compile`: False
|
357 |
+
- `torch_compile_backend`: None
|
358 |
+
- `torch_compile_mode`: None
|
359 |
+
- `include_tokens_per_second`: False
|
360 |
+
- `include_num_input_tokens_seen`: False
|
361 |
+
- `neftune_noise_alpha`: None
|
362 |
+
- `optim_target_modules`: None
|
363 |
+
- `batch_eval_metrics`: False
|
364 |
+
- `eval_on_start`: False
|
365 |
+
- `use_liger_kernel`: False
|
366 |
+
- `liger_kernel_config`: None
|
367 |
+
- `eval_use_gather_object`: False
|
368 |
+
- `average_tokens_across_devices`: False
|
369 |
+
- `prompts`: None
|
370 |
+
- `batch_sampler`: batch_sampler
|
371 |
+
- `multi_dataset_batch_sampler`: round_robin
|
372 |
+
|
373 |
+
</details>
|
374 |
+
|
375 |
+
### Training Logs
|
376 |
+
| Epoch | Step | Training Loss |
|
377 |
+
|:------:|:-----:|:-------------:|
|
378 |
+
| 0.0848 | 500 | 0.0371 |
|
379 |
+
| 0.1695 | 1000 | 0.0317 |
|
380 |
+
| 0.2543 | 1500 | 0.0302 |
|
381 |
+
| 0.3391 | 2000 | 0.0304 |
|
382 |
+
| 0.4239 | 2500 | 0.0295 |
|
383 |
+
| 0.5086 | 3000 | 0.0263 |
|
384 |
+
| 0.5934 | 3500 | 0.0271 |
|
385 |
+
| 0.6782 | 4000 | 0.0278 |
|
386 |
+
| 0.7630 | 4500 | 0.0263 |
|
387 |
+
| 0.8477 | 5000 | 0.0271 |
|
388 |
+
| 0.9325 | 5500 | 0.0253 |
|
389 |
+
| 1.0173 | 6000 | 0.022 |
|
390 |
+
| 1.1021 | 6500 | 0.0085 |
|
391 |
+
| 1.1868 | 7000 | 0.0115 |
|
392 |
+
| 1.2716 | 7500 | 0.0127 |
|
393 |
+
| 1.3564 | 8000 | 0.0111 |
|
394 |
+
| 1.4412 | 8500 | 0.011 |
|
395 |
+
| 1.5259 | 9000 | 0.0124 |
|
396 |
+
| 1.6107 | 9500 | 0.0116 |
|
397 |
+
| 1.6955 | 10000 | 0.0112 |
|
398 |
+
| 1.7803 | 10500 | 0.0131 |
|
399 |
+
| 1.8650 | 11000 | 0.0127 |
|
400 |
+
| 1.9498 | 11500 | 0.011 |
|
401 |
+
| 2.0346 | 12000 | 0.0094 |
|
402 |
+
| 2.1194 | 12500 | 0.0051 |
|
403 |
+
| 2.2041 | 13000 | 0.0042 |
|
404 |
+
| 2.2889 | 13500 | 0.0044 |
|
405 |
+
| 2.3737 | 14000 | 0.0048 |
|
406 |
+
| 2.4585 | 14500 | 0.0065 |
|
407 |
+
| 2.5432 | 15000 | 0.0055 |
|
408 |
+
| 2.6280 | 15500 | 0.0055 |
|
409 |
+
| 2.7128 | 16000 | 0.0049 |
|
410 |
+
| 2.7976 | 16500 | 0.0049 |
|
411 |
+
| 2.8823 | 17000 | 0.0045 |
|
412 |
+
| 2.9671 | 17500 | 0.0053 |
|
413 |
+
| 0.1975 | 500 | 0.0366 |
|
414 |
+
| 0.3949 | 1000 | 0.0155 |
|
415 |
+
| 0.5924 | 1500 | 0.0143 |
|
416 |
+
| 0.7899 | 2000 | 0.012 |
|
417 |
+
| 0.9874 | 2500 | 0.0119 |
|
418 |
+
| 1.1848 | 3000 | 0.006 |
|
419 |
+
| 1.3823 | 3500 | 0.0052 |
|
420 |
+
| 1.5798 | 4000 | 0.005 |
|
421 |
+
| 1.7773 | 4500 | 0.0048 |
|
422 |
+
| 1.9747 | 5000 | 0.0037 |
|
423 |
+
| 2.1722 | 5500 | 0.0023 |
|
424 |
+
| 2.3697 | 6000 | 0.0018 |
|
425 |
+
| 2.5671 | 6500 | 0.0016 |
|
426 |
+
| 2.7646 | 7000 | 0.0018 |
|
427 |
+
| 2.9621 | 7500 | 0.0023 |
|
428 |
+
|
429 |
+
|
430 |
+
### Framework Versions
|
431 |
+
- Python: 3.11.13
|
432 |
+
- Sentence Transformers: 4.1.0
|
433 |
+
- Transformers: 4.54.0
|
434 |
+
- PyTorch: 2.6.0+cu124
|
435 |
+
- Accelerate: 1.9.0
|
436 |
+
- Datasets: 4.0.0
|
437 |
+
- Tokenizers: 0.21.2
|
438 |
+
|
439 |
+
## Citation
|
440 |
+
|
441 |
+
### BibTeX
|
442 |
+
|
443 |
+
#### Sentence Transformers
|
444 |
+
```bibtex
|
445 |
+
@inproceedings{reimers-2019-sentence-bert,
|
446 |
+
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
|
447 |
+
author = "Reimers, Nils and Gurevych, Iryna",
|
448 |
+
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
|
449 |
+
month = "11",
|
450 |
+
year = "2019",
|
451 |
+
publisher = "Association for Computational Linguistics",
|
452 |
+
url = "https://arxiv.org/abs/1908.10084",
|
453 |
+
}
|
454 |
+
```
|
455 |
+
|
456 |
+
<!--
|
457 |
+
## Glossary
|
458 |
+
|
459 |
+
*Clearly define terms in order to be accessible across audiences.*
|
460 |
+
-->
|
461 |
+
|
462 |
+
<!--
|
463 |
+
## Model Card Authors
|
464 |
+
|
465 |
+
*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
|
466 |
+
-->
|
467 |
+
|
468 |
+
<!--
|
469 |
+
## Model Card Contact
|
470 |
+
|
471 |
+
*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
|
472 |
+
-->
|
added_tokens.json
ADDED
@@ -0,0 +1,4 @@
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"<passage>": 64001,
|
3 |
+
"<query>": 64000
|
4 |
+
}
|
config.json
ADDED
@@ -0,0 +1,24 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"architectures": [
|
3 |
+
"BertModel"
|
4 |
+
],
|
5 |
+
"attention_probs_dropout_prob": 0.1,
|
6 |
+
"classifier_dropout": null,
|
7 |
+
"hidden_act": "gelu",
|
8 |
+
"hidden_dropout_prob": 0.1,
|
9 |
+
"hidden_size": 768,
|
10 |
+
"initializer_range": 0.02,
|
11 |
+
"intermediate_size": 3072,
|
12 |
+
"layer_norm_eps": 1e-12,
|
13 |
+
"max_position_embeddings": 512,
|
14 |
+
"model_type": "bert",
|
15 |
+
"num_attention_heads": 12,
|
16 |
+
"num_hidden_layers": 12,
|
17 |
+
"pad_token_id": 0,
|
18 |
+
"position_embedding_type": "absolute",
|
19 |
+
"torch_dtype": "float32",
|
20 |
+
"transformers_version": "4.54.0",
|
21 |
+
"type_vocab_size": 2,
|
22 |
+
"use_cache": true,
|
23 |
+
"vocab_size": 64002
|
24 |
+
}
|
config_sentence_transformers.json
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"__version__": {
|
3 |
+
"sentence_transformers": "4.1.0",
|
4 |
+
"transformers": "4.54.0",
|
5 |
+
"pytorch": "2.6.0+cu124"
|
6 |
+
},
|
7 |
+
"prompts": {},
|
8 |
+
"default_prompt_name": null,
|
9 |
+
"similarity_fn_name": "cosine"
|
10 |
+
}
|
model.safetensors
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:33a649d0cf597093f6aa8bc5fc49b12f55d13c980b0112a3cf3e628843caa80a
|
3 |
+
size 540801896
|
modules.json
ADDED
@@ -0,0 +1,14 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
[
|
2 |
+
{
|
3 |
+
"idx": 0,
|
4 |
+
"name": "0",
|
5 |
+
"path": "",
|
6 |
+
"type": "sentence_transformers.models.Transformer"
|
7 |
+
},
|
8 |
+
{
|
9 |
+
"idx": 1,
|
10 |
+
"name": "1",
|
11 |
+
"path": "1_Pooling",
|
12 |
+
"type": "sentence_transformers.models.Pooling"
|
13 |
+
}
|
14 |
+
]
|
sentence_bert_config.json
ADDED
@@ -0,0 +1,4 @@
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"max_seq_length": 512,
|
3 |
+
"do_lower_case": false
|
4 |
+
}
|
special_tokens_map.json
ADDED
@@ -0,0 +1,37 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"cls_token": {
|
3 |
+
"content": "[CLS]",
|
4 |
+
"lstrip": false,
|
5 |
+
"normalized": false,
|
6 |
+
"rstrip": false,
|
7 |
+
"single_word": false
|
8 |
+
},
|
9 |
+
"mask_token": {
|
10 |
+
"content": "[MASK]",
|
11 |
+
"lstrip": false,
|
12 |
+
"normalized": false,
|
13 |
+
"rstrip": false,
|
14 |
+
"single_word": false
|
15 |
+
},
|
16 |
+
"pad_token": {
|
17 |
+
"content": "[PAD]",
|
18 |
+
"lstrip": false,
|
19 |
+
"normalized": false,
|
20 |
+
"rstrip": false,
|
21 |
+
"single_word": false
|
22 |
+
},
|
23 |
+
"sep_token": {
|
24 |
+
"content": "[SEP]",
|
25 |
+
"lstrip": false,
|
26 |
+
"normalized": false,
|
27 |
+
"rstrip": false,
|
28 |
+
"single_word": false
|
29 |
+
},
|
30 |
+
"unk_token": {
|
31 |
+
"content": "[UNK]",
|
32 |
+
"lstrip": false,
|
33 |
+
"normalized": false,
|
34 |
+
"rstrip": false,
|
35 |
+
"single_word": false
|
36 |
+
}
|
37 |
+
}
|
tokenizer.json
ADDED
The diff for this file is too large to render.
See raw diff
|
|
tokenizer_config.json
ADDED
@@ -0,0 +1,110 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"added_tokens_decoder": {
|
3 |
+
"0": {
|
4 |
+
"content": "[PAD]",
|
5 |
+
"lstrip": false,
|
6 |
+
"normalized": false,
|
7 |
+
"rstrip": false,
|
8 |
+
"single_word": false,
|
9 |
+
"special": true
|
10 |
+
},
|
11 |
+
"1": {
|
12 |
+
"content": "[UNK]",
|
13 |
+
"lstrip": false,
|
14 |
+
"normalized": false,
|
15 |
+
"rstrip": false,
|
16 |
+
"single_word": false,
|
17 |
+
"special": true
|
18 |
+
},
|
19 |
+
"2": {
|
20 |
+
"content": "[CLS]",
|
21 |
+
"lstrip": false,
|
22 |
+
"normalized": false,
|
23 |
+
"rstrip": false,
|
24 |
+
"single_word": false,
|
25 |
+
"special": true
|
26 |
+
},
|
27 |
+
"3": {
|
28 |
+
"content": "[SEP]",
|
29 |
+
"lstrip": false,
|
30 |
+
"normalized": false,
|
31 |
+
"rstrip": false,
|
32 |
+
"single_word": false,
|
33 |
+
"special": true
|
34 |
+
},
|
35 |
+
"4": {
|
36 |
+
"content": "[MASK]",
|
37 |
+
"lstrip": false,
|
38 |
+
"normalized": false,
|
39 |
+
"rstrip": false,
|
40 |
+
"single_word": false,
|
41 |
+
"special": true
|
42 |
+
},
|
43 |
+
"5": {
|
44 |
+
"content": "[رابط]",
|
45 |
+
"lstrip": false,
|
46 |
+
"normalized": true,
|
47 |
+
"rstrip": false,
|
48 |
+
"single_word": true,
|
49 |
+
"special": true
|
50 |
+
},
|
51 |
+
"6": {
|
52 |
+
"content": "[بريد]",
|
53 |
+
"lstrip": false,
|
54 |
+
"normalized": true,
|
55 |
+
"rstrip": false,
|
56 |
+
"single_word": true,
|
57 |
+
"special": true
|
58 |
+
},
|
59 |
+
"7": {
|
60 |
+
"content": "[مستخدم]",
|
61 |
+
"lstrip": false,
|
62 |
+
"normalized": true,
|
63 |
+
"rstrip": false,
|
64 |
+
"single_word": true,
|
65 |
+
"special": true
|
66 |
+
},
|
67 |
+
"64000": {
|
68 |
+
"content": "<query>",
|
69 |
+
"lstrip": false,
|
70 |
+
"normalized": false,
|
71 |
+
"rstrip": false,
|
72 |
+
"single_word": false,
|
73 |
+
"special": true
|
74 |
+
},
|
75 |
+
"64001": {
|
76 |
+
"content": "<passage>",
|
77 |
+
"lstrip": false,
|
78 |
+
"normalized": false,
|
79 |
+
"rstrip": false,
|
80 |
+
"single_word": false,
|
81 |
+
"special": true
|
82 |
+
}
|
83 |
+
},
|
84 |
+
"clean_up_tokenization_spaces": false,
|
85 |
+
"cls_token": "[CLS]",
|
86 |
+
"do_basic_tokenize": true,
|
87 |
+
"do_lower_case": false,
|
88 |
+
"extra_special_tokens": {},
|
89 |
+
"mask_token": "[MASK]",
|
90 |
+
"max_len": 512,
|
91 |
+
"max_length": 256,
|
92 |
+
"model_max_length": 512,
|
93 |
+
"never_split": [
|
94 |
+
"[بريد]",
|
95 |
+
"[مستخدم]",
|
96 |
+
"[رابط]"
|
97 |
+
],
|
98 |
+
"pad_to_multiple_of": null,
|
99 |
+
"pad_token": "[PAD]",
|
100 |
+
"pad_token_type_id": 0,
|
101 |
+
"padding_side": "right",
|
102 |
+
"sep_token": "[SEP]",
|
103 |
+
"stride": 0,
|
104 |
+
"strip_accents": null,
|
105 |
+
"tokenize_chinese_chars": true,
|
106 |
+
"tokenizer_class": "BertTokenizer",
|
107 |
+
"truncation_side": "right",
|
108 |
+
"truncation_strategy": "longest_first",
|
109 |
+
"unk_token": "[UNK]"
|
110 |
+
}
|
vocab.txt
ADDED
The diff for this file is too large to render.
See raw diff
|
|