Add new SentenceTransformer model
Browse files- .gitattributes +1 -0
- 1_Pooling/config.json +10 -0
- README.md +547 -0
- config.json +26 -0
- config_sentence_transformers.json +14 -0
- model.safetensors +3 -0
- modules.json +20 -0
- sentence_bert_config.json +4 -0
- special_tokens_map.json +51 -0
- tokenizer.json +3 -0
- tokenizer_config.json +63 -0
.gitattributes
CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
|
|
33 |
*.zip filter=lfs diff=lfs merge=lfs -text
|
34 |
*.zst filter=lfs diff=lfs merge=lfs -text
|
35 |
*tfevents* filter=lfs diff=lfs merge=lfs -text
|
|
|
|
33 |
*.zip filter=lfs diff=lfs merge=lfs -text
|
34 |
*.zst filter=lfs diff=lfs merge=lfs -text
|
35 |
*tfevents* filter=lfs diff=lfs merge=lfs -text
|
36 |
+
tokenizer.json filter=lfs diff=lfs merge=lfs -text
|
1_Pooling/config.json
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"word_embedding_dimension": 384,
|
3 |
+
"pooling_mode_cls_token": false,
|
4 |
+
"pooling_mode_mean_tokens": true,
|
5 |
+
"pooling_mode_max_tokens": false,
|
6 |
+
"pooling_mode_mean_sqrt_len_tokens": false,
|
7 |
+
"pooling_mode_weightedmean_tokens": false,
|
8 |
+
"pooling_mode_lasttoken": false,
|
9 |
+
"include_prompt": true
|
10 |
+
}
|
README.md
ADDED
@@ -0,0 +1,547 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
tags:
|
3 |
+
- sentence-transformers
|
4 |
+
- sentence-similarity
|
5 |
+
- feature-extraction
|
6 |
+
- generated_from_trainer
|
7 |
+
- dataset_size:2971
|
8 |
+
- loss:MultipleNegativesRankingLoss
|
9 |
+
base_model: intfloat/multilingual-e5-small
|
10 |
+
widget:
|
11 |
+
- source_sentence: Какие положения о защите инвестиций мне нужно учесть при разработке
|
12 |
+
информационной системы для российско-датских торговых операций в соответствии
|
13 |
+
с Соглашением от 4 ноября 1993 года?
|
14 |
+
sentences:
|
15 |
+
- "Первое, что нужно понять: если у тебя есть идея, но ты не знаешь, как ее реализовать\
|
16 |
+
\ — грош цена твоей идее. \n\r\nВсе, о чем Вы пишите, уже ни раз освещалось на\
|
17 |
+
\ хабре — достаточно воспользоваться поиском. Серьезно, ну очень много статей\
|
18 |
+
\ на эту тему тут. Задал вопрос — вбил в поиск — прочитал статью.\r\nВы же понимаете,\
|
19 |
+
\ что не бывает книг «Сделай сам свой стартап за 21 день и стань миллионером для\
|
20 |
+
\ чайников»? Вернее, такие книги есть, но прочитав их Вы ни на шаг не приблизитесь\
|
21 |
+
\ к исполнению своей идеи.\n\r\nПоднять свой магазин на CMS — не большая проблема.\
|
22 |
+
\ Есть шаблоны и для joomla, и для drupal, и для кучи других CMS. Если не нужен\
|
23 |
+
\ магазин, всегда можно подделать контент под то, что требуется. \r\nХороший дизайн\
|
24 |
+
\ можно заказать у фрилансеров, предварительно его обговорив. \n\r\nВ общем, надо\
|
25 |
+
\ либо все методично изучать самой, либо набирать команду, либо просить фрилансеров.\
|
26 |
+
\ \r\nА то получается, как в анектоте "
|
27 |
+
- " \nРОССИЙСКАЯ ФЕДЕРАЦИЯ\n \nФЕДЕРАЛЬНЫЙ ЗАКОН\n \nО ратификации Соглашения между\
|
28 |
+
\ Правительством Российской Федерации и Правительством Королевства Дания о поощрении\
|
29 |
+
\ и взаимной защите капиталовложений\n \nПринят Государственной Думой 7 июня 1996\
|
30 |
+
\ года\nОдобрен Советом Федерации 26 июня 1996 года\n \nРатифицировать Соглашение\
|
31 |
+
\ между Правительством Российской Федерации и Правительством Королевства Дания\
|
32 |
+
\ о поощрении и взаимной защите капиталовложений, подписанное в городе Копенгагене\
|
33 |
+
\ 4 ноября 1993 года.\n \nПрезидент Российской Федерации Б.Ельцин\n \nМосква,\
|
34 |
+
\ Кремль\n8 июля 1996 года\n№ 89-ФЗ\n "
|
35 |
+
- " ПОСТАНОВЛЕНИЕ ГОСУДАРСТВЕННОЙ ДУМЫ \n ФЕДЕРАЛЬНОГО СОБРАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ\
|
36 |
+
\ \n О проекте федерального закона N 219416-3 \n \"О внесении изменений в Федеральный\
|
37 |
+
\ закон \"Об иностранных инвестициях в Российской Федерации\" \n Государственная\
|
38 |
+
\ Дума Федерального Собрания Российской Федерации постановляет: \n 1. Принять\
|
39 |
+
\ в первом чтении проект федерального закона N 219416-3 \"О внесении изменений\
|
40 |
+
\ в Федеральный закон \"Об иностранных инвестициях в Российской Федерации\", внесенный\
|
41 |
+
\ депутатами Государственной Думы П.В.Крашенинниковым, В.С.Плескачевским, Г.А.Томчиным,\
|
42 |
+
\ О.В.Морозовым, В.А.Пехтиным. \n 2. Настоящее Постановление вступает в силу со\
|
43 |
+
\ дня его принятия. \n Председатель Государственной Думы \n Федерального Собрания\
|
44 |
+
\ \n Российской Федерации Г.Н.Селезнев \n Москва \n 28 июня 2002 года \n N 2963-III\
|
45 |
+
\ ГД \n "
|
46 |
+
- source_sentence: Какие системы или базы данных необходимо обновить после отклонения
|
47 |
+
проекта федерального закона № 300332-6 о статусе депутатов Государственной Думы?
|
48 |
+
sentences:
|
49 |
+
- " \nПОСТАНОВЛЕНИЕ\n \nГОСУДАРСТВЕННОЙ ДУМЫ\nФЕДЕРАЛЬНОГО СОБРАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ\n\
|
50 |
+
\ \nО проекте федерального закона № 300332-6 \"О внесении изменения в статью 14\
|
51 |
+
\ Федерального закона \"О статусе члена Совета Федерации и статусе депутата Государственной\
|
52 |
+
\ Думы Федерального Собрания Российской Федерации\"\n \nГосударственная Дума Федерального\
|
53 |
+
\ Собрания Российской Федерации постановляет:\n1. Отклонить проект федерального\
|
54 |
+
\ закона № 300332-6 \"О внесении изменения в статью 14 Федерального закона \"\
|
55 |
+
О статусе члена Совета Федерации и статусе депутата Государственной Думы Федерального\
|
56 |
+
\ Собрания Российской Федерации\", внесенный А.Г.Лысковым в период исполнения\
|
57 |
+
\ им полномочий члена Совета Федерации.\n2. Настоящее Постановление вступает в\
|
58 |
+
\ силу со дня его принятия.\n \nПредседатель Государственной Думы\nФедерального\
|
59 |
+
\ Собрания\nРоссийской Федерации С.Е.Нарышкин\n \nМосква\n11 ноября 2014 года\n\
|
60 |
+
№ 5336-6 ГД\n "
|
61 |
+
- " \nРОССИЙСКАЯ ФЕДЕРАЦИЯ\n \nФЕДЕРАЛЬНЫЙ ЗАКОН\n \nО ратификации Протокола к Соглашению\
|
62 |
+
\ между Правительством Российской Федерации и Правительством Китайской Народной\
|
63 |
+
\ Республики о сотрудничестве в сооружении на территории КНР атомной электростанции\
|
64 |
+
\ и предоставлении Россией КНР государственного кредита от 18 декабря 1992 г.\n\
|
65 |
+
\ \nПринят Государственной Думой 26 ноября 2010 года\nОдобрен Советом Федерации\
|
66 |
+
\ 1 декабря 2010 года\n \nРатифицировать Протокол к Соглашению между Правительством\
|
67 |
+
\ Российской Федерации и Правительством Китайской Народной Республики о сотрудничестве\
|
68 |
+
\ в сооружении на территории КНР атомной электростанции и предоставлении Россией\
|
69 |
+
\ КНР государственного кредита от 18 декабря 1992 г., подписанный в городе Москве\
|
70 |
+
\ 23 марта 2010 года.\n \nПрезидент Российской Федерации Д.Медведев\n \nМосква,\
|
71 |
+
\ Кремль\n8 декабря 2010 года\n№ 330-ФЗ\n "
|
72 |
+
- " ПОСТАНОВЛЕНИЕ ГОСУДАРСТВЕННОЙ ДУМЫ \n ФЕДЕРАЛЬНОГО СОБРАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ\
|
73 |
+
\ \n О проекте федерального закона N 264619-4 \n \"О внесении изменения в статью\
|
74 |
+
\ 16.21 Кодекса Российской \n Федерации об административных правонарушениях\"\
|
75 |
+
\ \n Государственная Дума Федерального Собрания Российской Федерации постановляет:\
|
76 |
+
\ \n 1. Отклонить проект федерального закона N 264619-4 \"О внесении изменения\
|
77 |
+
\ в статью 16.21 Кодекса Российской Федерации об административных правонарушениях\"\
|
78 |
+
, внесенный Курганской областной Думой. \n 2. Направить настоящее Постановление\
|
79 |
+
\ и указанный проект федерального закона в Курганскую областную Думу. \n 3. Настоящее\
|
80 |
+
\ Постановление вступает в силу со дня его принятия. \n Председатель Государственной\
|
81 |
+
\ Думы \n Федерального Собрания \n Российской Федерации Б.В.Грызлов \n Москва\
|
82 |
+
\ \n 30 июня 2006 года \n N 3317-IV ГД \n "
|
83 |
+
- source_sentence: Какие изменения можно вносить в государственный контракт №111-03-20-Р
|
84 |
+
при взаимном согласии сторон?
|
85 |
+
sentences:
|
86 |
+
- " \nРОССИЙСКАЯ ФЕДЕРАЦИЯ\n \nФЕДЕРАЛЬНЫЙ ЗАКОН\n \nО внесении изменения в статью\
|
87 |
+
\ 24 Федерального закона \"О связи\"\n \nПринят Государственной Думой 22 апреля\
|
88 |
+
\ 2016 года\nОдобрен Советом Федерации 27 апреля 2016 года\n \nВнести в абзац\
|
89 |
+
\ второй пункта 14 статьи 24 Федерального закона <ref nd=\"102082548\"> от 7 июля\
|
90 |
+
\ 2003 года № 126-ФЗ </ref> \"О связи\" (Собрание законодательства Российской\
|
91 |
+
\ Федерации, 2003, № 28, ст. 2895; 2011, № 9, ст. 1205; № 27, ст. 3880; № 50,\
|
92 |
+
\ ст. 7366; 2015, № 29, ст. 4389; 2016, № 15, ст. 2066) изменение, заменив слова\
|
93 |
+
\ \"с учетом разделительного баланса\" словами \"с учетом положений передаточного\
|
94 |
+
\ акта\".\n \nПрезидент Российской Федерации В.Путин\n \nМосква, Кремль\n1 мая\
|
95 |
+
\ 2016 года\n№ 122-ФЗ\n "
|
96 |
+
- " \nРОССИЙСКАЯ ФЕДЕРАЦИЯ\n \nФЕДЕРАЛЬНЫЙ ЗАКОН\n \nО ратификации Соглашения о\
|
97 |
+
\ взаимной правовой помощи по административным вопросам в сфере обмена персональными\
|
98 |
+
\ данными\n \nПринят Государственной Думой 26 октября 2021 года\nОдобрен Советом\
|
99 |
+
\ Федерации 10 ноября 2021 года\n \nРатифицировать <ref nd=\"604463817\"> Соглашение\
|
100 |
+
\ </ref> о взаимной правовой помощи по административным вопросам в сфере обмена\
|
101 |
+
\ персональными данными, подписанное 18 декабря 2020 года.\n \nПрезидент Российской\
|
102 |
+
\ Федерации В.Путин\n \nМосква, Кремль\n19 ноября 2021 года\n№ 367-ФЗ\n "
|
103 |
+
- " \nПРАВИТЕЛЬСТВО РОССИЙСКОЙ ФЕДЕРАЦИИ\n \nРАСПОРЯЖЕНИЕ\n \nот 19 апреля 2022\
|
104 |
+
\ г. № 933-р\n \nМОСКВА\n \nВ соответствии с частью 1 статьи 111 Федерального\
|
105 |
+
\ закона <ref nd=\"102164547\"> \"О контрактной системе в сфере закупок товаров,\
|
106 |
+
\ работ, услуг для обеспечения государственных и муниципальных нужд\" </ref> установить,\
|
107 |
+
\ что при исполнении государственного контракта от 30 июня 2020 г. № 111-03-20-Р\
|
108 |
+
\ (реестровый номер 1770641334820000133), заключенного в соответствии с распоряжением\
|
109 |
+
\ Правительства Российской Федерации <ref nd=\"102781123\"> от 1 июня 2020 г.\
|
110 |
+
\ № 1461-р </ref>, стороны вправе по договоренности вносить в указанный контракт\
|
111 |
+
\ изменения в части, касающейся выделения дополнительных этапов работ и порядка\
|
112 |
+
\ их оплаты, без изменения срока исполнения и цены контракта.\n \nПредседатель\
|
113 |
+
\ Правительства\nРоссийской Федерации М.Мишустин\n "
|
114 |
+
- source_sentence: Как грамотно подключить шрифты?
|
115 |
+
sentences:
|
116 |
+
- "Обговорить с клиентом сам факт того, что такая технология лично вам не знакома.\
|
117 |
+
\ А там уже варианты. Если клиента нужно удержать любой ценой, можно предложить\
|
118 |
+
\ ему реализовать аналог на основе той технологии, которой владеете на данный\
|
119 |
+
\ момент. Если клиент заинтересован именно в ваших услугах — изучить технологию\
|
120 |
+
\ можно достаточно быстро.\r\nСтоимость изучения вкладывать неправильно, так как\
|
121 |
+
\ вы — специалист и заказчик именно поэтому к вам и обратился. Технологию изучаете\
|
122 |
+
\ сами, сумму оставляете без изменений, но сроки проекта расширяете соразмерно\
|
123 |
+
\ сложности технологии."
|
124 |
+
- "Ты когда проп��сываешь @font-face, он уже автоматом выбирает шрифт, который воспримет\
|
125 |
+
\ браузер пользователя. т.е. грамотное использование шрифтов - это грамотное их\
|
126 |
+
\ расположение по порядку(от самого легкого .woff до .svg для OS) . Как пример:@font-face\
|
127 |
+
\ {\n font-family: 'icomoon';\n src:url('../fonts/icomoon.eot?-cemaup');\n \
|
128 |
+
\ src:url('../fonts/icomoon.eot?#iefix-cemaup') format('embedded-opentype'),\n\
|
129 |
+
\ url('../fonts/icomoon.woff?-cemaup') format('woff'),\n url('../fonts/icomoon.ttf?-cemaup')\
|
130 |
+
\ format('truetype'),\n url('../fonts/icomoon.svg?-cemaup#icomoon') format('svg');\n\
|
131 |
+
\ font-weight: normal;\n font-style: normal;\n}"
|
132 |
+
- "Первое, что нужно понять: если у тебя есть идея, но ты не знаешь, как ее реализовать\
|
133 |
+
\ — грош цена твоей идее. \n\r\nВсе, о чем Вы пишите, уже ни раз освещалось на\
|
134 |
+
\ хабре — достаточно воспользоваться поиском. Серьезно, ну очень много статей\
|
135 |
+
\ на эту тему тут. Задал вопрос — вбил в поиск — прочитал статью.\r\nВы же понимаете,\
|
136 |
+
\ что не бывает книг «Сделай сам свой стартап за 21 день и стань миллионером для\
|
137 |
+
\ чайников»? Вернее, такие книги есть, но прочитав их Вы ни на шаг не приблизитесь\
|
138 |
+
\ к исполнению своей идеи.\n\r\nПоднять свой магазин на CMS — не большая проблема.\
|
139 |
+
\ Есть шаблоны и для joomla, и для drupal, и для кучи других CMS. Если не нужен\
|
140 |
+
\ магазин, всегда можно подделать контент под то, что требуется. \r\nХороший дизайн\
|
141 |
+
\ можно заказать у фрилансеров, предварительно его обговорив. \n\r\nВ общем, надо\
|
142 |
+
\ либо все методично изучать самой, либо набирать команду, либо просить фрилансеров.\
|
143 |
+
\ \r\nА то получается, как в анектоте "
|
144 |
+
- source_sentence: Как я могу определить условия взаимных поездок для владельцев дипломатических
|
145 |
+
паспортов между РФ и Филиппинами в рамках данного соглашения?
|
146 |
+
sentences:
|
147 |
+
- " ПРАВИТЕЛЬСТВО РОССИЙСКОЙ ФЕДЕРАЦИИ \n РАСПОРЯЖЕНИЕ \n от 23 марта 2004 г. N\
|
148 |
+
\ 397-р \n г. Москва \n О руководителе Федерального агентства по недропользованию\
|
149 |
+
\ \n Назначить Ледовских Анатолия Алексеевича руководителем Федерального агентства\
|
150 |
+
\ по недропользованию, освободив его от занимаемой должности. \n Председатель\
|
151 |
+
\ Правительства \n Российской Федерации М.Фрадков \n "
|
152 |
+
- " \nПРАВИТЕЛЬСТВО РОССИЙСКОЙ ФЕДЕРАЦИИ\n \nРАСПОРЯЖЕНИЕ\n \nот 14 июля 2012 г.\
|
153 |
+
\ № 1267-р\n \nМОСКВА\n \n1. Выдать разрешение Китайской Стороне на пересечение\
|
154 |
+
\ до 30 сентября 2012 г. государственной границы Российской Федерации вне выделенных\
|
155 |
+
\ воздушных коридоров Российской Федерации при проведении аэрофотосъемки приграничных\
|
156 |
+
\ районов Российской Федерации.\n2. Минобороны России по согласованию с заинтересованными\
|
157 |
+
\ федеральными органами исполнительной власти определить условия пересечения государственной\
|
158 |
+
\ границы Российской Федерации при совершении разворотов в воздушном пространстве\
|
159 |
+
\ Российской Федерации китайскими самолетами, выполняющими аэрофотосъемку приграничных\
|
160 |
+
\ районов Российской Федерации, исходя из того что даты полетов будут согласовываться\
|
161 |
+
\ по дипломатическим каналам.\n3. МИДу России проинформировать Китайскую Сторону\
|
162 |
+
\ о принятом решении.\n \nПредседатель Правительства\nРоссийской Федерации Д.Медведев\n\
|
163 |
+
\ "
|
164 |
+
- " \nРОССИЙСКАЯ ФЕДЕРАЦИЯ\n \nФЕДЕРАЛЬНЫЙ ЗАКОН\n \nО ратификации Соглашения между\
|
165 |
+
\ Правительством Российской Федерации и Правительством Республики Филиппины об\
|
166 |
+
\ условиях взаимных поездок владельцев дипломатических и служебных (официальных)\
|
167 |
+
\ паспортов\n \nПринят Государственной Думой 17 октября 2008 года\nОдобрен Советом\
|
168 |
+
\ Федерации 27 октября 2008 года\n \nРатифицировать Соглашение между Правительством\
|
169 |
+
\ Российской Федерации и Правительством Республики Филиппины об условиях взаимных\
|
170 |
+
\ поездок владельцев дипломатических и служебных (официальных) паспортов, подписанное\
|
171 |
+
\ в городе Маниле 3 августа 2007 года.\n \nПрезидент Российской Федерации Д.Медведев\n\
|
172 |
+
\ \nМосква, Кремль\n8 ноября 2008 года\n№ 199-ФЗ\n "
|
173 |
+
pipeline_tag: sentence-similarity
|
174 |
+
library_name: sentence-transformers
|
175 |
+
---
|
176 |
+
|
177 |
+
# SentenceTransformer based on intfloat/multilingual-e5-small
|
178 |
+
|
179 |
+
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [intfloat/multilingual-e5-small](https://huggingface.co/intfloat/multilingual-e5-small). It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
|
180 |
+
|
181 |
+
## Model Details
|
182 |
+
|
183 |
+
### Model Description
|
184 |
+
- **Model Type:** Sentence Transformer
|
185 |
+
- **Base model:** [intfloat/multilingual-e5-small](https://huggingface.co/intfloat/multilingual-e5-small) <!-- at revision c007d7ef6fd86656326059b28395a7a03a7c5846 -->
|
186 |
+
- **Maximum Sequence Length:** 512 tokens
|
187 |
+
- **Output Dimensionality:** 384 dimensions
|
188 |
+
- **Similarity Function:** Cosine Similarity
|
189 |
+
<!-- - **Training Dataset:** Unknown -->
|
190 |
+
<!-- - **Language:** Unknown -->
|
191 |
+
<!-- - **License:** Unknown -->
|
192 |
+
|
193 |
+
### Model Sources
|
194 |
+
|
195 |
+
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
|
196 |
+
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
|
197 |
+
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
|
198 |
+
|
199 |
+
### Full Model Architecture
|
200 |
+
|
201 |
+
```
|
202 |
+
SentenceTransformer(
|
203 |
+
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
|
204 |
+
(1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
|
205 |
+
(2): Normalize()
|
206 |
+
)
|
207 |
+
```
|
208 |
+
|
209 |
+
## Usage
|
210 |
+
|
211 |
+
### Direct Usage (Sentence Transformers)
|
212 |
+
|
213 |
+
First install the Sentence Transformers library:
|
214 |
+
|
215 |
+
```bash
|
216 |
+
pip install -U sentence-transformers
|
217 |
+
```
|
218 |
+
|
219 |
+
Then you can load this model and run inference.
|
220 |
+
```python
|
221 |
+
from sentence_transformers import SentenceTransformer
|
222 |
+
|
223 |
+
# Download from the 🤗 Hub
|
224 |
+
model = SentenceTransformer("vkimbris/e5-small-ru-laws-habr-qa")
|
225 |
+
# Run inference
|
226 |
+
sentences = [
|
227 |
+
'Как я могу определить условия взаимных поездок для владельцев дипломатических паспортов между РФ и Филиппинами в рамках данного соглашения?',
|
228 |
+
' \nРОССИЙСКАЯ ФЕДЕРАЦИЯ\n \nФЕДЕРАЛЬНЫЙ ЗАКОН\n \nО ратификации Соглашения между Правительством Российской Федерации и Правительством Республики Филиппины об условиях взаимных поездок владельцев дипломатических и служебных (официальных) паспортов\n \nПринят Государственной Думой 17 октября 2008 года\nОдобрен Советом Федерации 27 октября 2008 года\n \nРатифицировать Соглашение между Правительством Российской Федерации и Правительством Республики Филиппины об условиях взаимных поездок владельцев дипломатических и служебных (официальных) паспортов, подписанное в городе Маниле 3 августа 2007 года.\n \nПрезидент Российской Федерации Д.Медведев\n \nМосква, Кремль\n8 ноября 2008 года\n№ 199-ФЗ\n ',
|
229 |
+
' \nПРАВИТЕЛЬСТВО РОССИЙСКОЙ ФЕДЕРАЦИИ\n \nРАСПОРЯЖЕНИЕ\n \nот 14 июля 2012 г. № 1267-р\n \nМОСКВА\n \n1. Выдать разрешение Китайской Стороне на пересечение до 30 сентября 2012 г. государственной границы Российской Федерации вне выделенных воздушных коридоров Российской Федерации при проведении аэрофотосъемки приграничных районов Российской Федерации.\n2. Минобороны России по согласованию с заинтересованными федеральными органами исполнительной власти определить условия пересечения государственной границы Российской Федерации при совершении разворотов в воздушном пространстве Российской Федерации китайскими самолетами, выполняющими аэрофотосъемку приграничных районов Российской Федерации, исходя из того что даты полетов будут согласовываться по дипломатическим каналам.\n3. МИДу России проинформировать Китайскую Сторону о принятом решении.\n \nПредседатель Правительства\nРоссийской Федерации Д.Медведев\n ',
|
230 |
+
]
|
231 |
+
embeddings = model.encode(sentences)
|
232 |
+
print(embeddings.shape)
|
233 |
+
# [3, 384]
|
234 |
+
|
235 |
+
# Get the similarity scores for the embeddings
|
236 |
+
similarities = model.similarity(embeddings, embeddings)
|
237 |
+
print(similarities.shape)
|
238 |
+
# [3, 3]
|
239 |
+
```
|
240 |
+
|
241 |
+
<!--
|
242 |
+
### Direct Usage (Transformers)
|
243 |
+
|
244 |
+
<details><summary>Click to see the direct usage in Transformers</summary>
|
245 |
+
|
246 |
+
</details>
|
247 |
+
-->
|
248 |
+
|
249 |
+
<!--
|
250 |
+
### Downstream Usage (Sentence Transformers)
|
251 |
+
|
252 |
+
You can finetune this model on your own dataset.
|
253 |
+
|
254 |
+
<details><summary>Click to expand</summary>
|
255 |
+
|
256 |
+
</details>
|
257 |
+
-->
|
258 |
+
|
259 |
+
<!--
|
260 |
+
### Out-of-Scope Use
|
261 |
+
|
262 |
+
*List how the model may foreseeably be misused and address what users ought not to do with the model.*
|
263 |
+
-->
|
264 |
+
|
265 |
+
<!--
|
266 |
+
## Bias, Risks and Limitations
|
267 |
+
|
268 |
+
*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
|
269 |
+
-->
|
270 |
+
|
271 |
+
<!--
|
272 |
+
### Recommendations
|
273 |
+
|
274 |
+
*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
|
275 |
+
-->
|
276 |
+
|
277 |
+
## Training Details
|
278 |
+
|
279 |
+
### Training Dataset
|
280 |
+
|
281 |
+
#### Unnamed Dataset
|
282 |
+
|
283 |
+
* Size: 2,971 training samples
|
284 |
+
* Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
|
285 |
+
* Approximate statistics based on the first 1000 samples:
|
286 |
+
| | anchor | positive | negative |
|
287 |
+
|:--------|:----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|
|
288 |
+
| type | string | string | string |
|
289 |
+
| details | <ul><li>min: 2 tokens</li><li>mean: 30.23 tokens</li><li>max: 70 tokens</li></ul> | <ul><li>min: 55 tokens</li><li>mean: 169.82 tokens</li><li>max: 378 tokens</li></ul> | <ul><li>min: 55 tokens</li><li>mean: 179.34 tokens</li><li>max: 337 tokens</li></ul> |
|
290 |
+
* Samples:
|
291 |
+
| anchor | positive | negative |
|
292 |
+
|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
|
293 |
+
| <code>Какие документы добавлены в перечень сведений, которые могут быть предоставлены в рамках статьи 7 ФЗ "О государственной регистрации юридических лиц и индивидуальных предпринимателей"?</code> | <code> <br>РОССИЙСКАЯ ФЕДЕРАЦИЯ<br> <br>ФЕДЕРАЛЬНЫЙ ЗАКОН<br> <br>О внесении изменения в статью 7 Федерального закона "О государственной регистрации юридических лиц и индивидуальных предпринимателей"<br> <br>Принят Государственной Думой 13 июля 2023 года<br>Одобрен Советом Федерации 19 июля 2023 года<br> <br>Внести в абзац первый пункта 1 статьи 7 Федерального закона <ref nd="102072405"> от 8 августа 2001 года № 129-ФЗ </ref> "О государственной регистрации юридических лиц и индивидуальных предпринимателей" (Собрание законодательства Российской Федерации, 2001, № 33, ст. 3431; 2003, № 26, ст. 2565; 2013, № 30, ст. 4084; № 44, ст. 5633; 2015, № 13, ст. 1811; 2016, № 27, ст. 4248, 4294) изменение, дополнив его после слов "индивидуальном предпринимателе" словами ", копий содержащихся в едином государственном реестре юридических лиц учредительного документа юридического лица и внесенных в него изменений".<br> <br>Президент Российской Федерации В.Путин<br> <br>Москва, Кремль<br>24 июля 2023 года<br>№ 353-ФЗ<br> </code> | <code> <br>ПОСТАНОВЛЕНИЕ<br> <br>ГОСУДАРСТВЕННОЙ ДУМЫ<br>ФЕДЕРАЛЬНОГО СОБРАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ<br> <br>О проекте федерального закона № 720000-6 "О внесении изменений в часть первую Гражданского кодекса Российской Федерации и отдельные законодательные акты Российской Федерации"<br> <br>Государственная Дума Федерального Собрания Российской Федерации постановляет:<br>1. Принять во втором чтении проект федерального закона № 720000-6 "О внесении изменений в Федеральный закон "О государственной регистрации юридических лиц и индивидуальных предпринимателей" с новым наименованием "О внесении изменений в часть первую Гражданского кодекса Российской Федерации и отдельные законодательные акты Российской Федерации".<br>2. Настоящее Постановление вступает в силу со дня его принятия.<br> <br>Председатель Государственной Думы<br>Федерального Собрания<br>Российской Федерации С.Е.Нарышкин<br> <br>Москва<br>17 июня 2016 года<br>№ 9260-6 ГД<br> </code> |
|
294 |
+
| <code>Сайт, веб-приложение или веб-сервис?</code> | <code>Сайт - представительские функции (чаще всего).<br>Компания через сайт взаимодействует со своими клиентами (существующими и потенциальными), партнёрами и тд.<br>Компания публикует информацию.<br>Веб-приложение - программное средство (иногда, аппаратно-программное) для автоматизации бизнеса. Решает какие-то конкретные задачи конкретной компании или конкретного человека.<br>Компания обрабатывает информацию для себя.<br>Веб-сервис - система, предоставляющая услугу (услуги) своим клиентам.<br>Компания предоставляет услуги (возможно по предоставлению и обработки информации ).<br>Считаю, что у вас - сервис.</code> | <code>Попробую просто:
|
295 |
+
<br>API для сайта — это скрипт (как правило), который принимает запросы (по методам GET (site.ru/api.php?a=b), POST) и отдаёт не обычный HTML для браузеров, а результат запроса в определённом формате (XML, JSON, php serialize()-ed).
|
296 |
+
<br>Соответственно предназначен он не пользователям, а скрипту со стороннего сайта/сервиса/программки, который посылает эти GET/POST запросы, получает результат и как-то использует данные. Посылает он запросы естественно не просто так, а чтобы выполнить определённое действие (напр. как действия которые выполняют пользователи сайта через браузер).<br>
|
297 |
+
<br>Пользователям-программистам он нужен для интеграции с другими сайтами/сервисами программами, или автоматизации некоторых действий, создав программку для вашего сайта. Соответствено нужен он обычно только очень популярным сайтам/сервисам.</code> |
|
298 |
+
| <code>Кастомная кнопка «Назад» в iOS?</code> | <code>как понимаю, это просто иконка, которую поместили на картинку и заблокировали там же, чтобы при скроле она оставалась на месте или это прозрачный Navigation Bar???<br>не факт. не заблокирует ли Apple приложение за такую кнопку, ведь чтобы вернуться назад придется обязательно скроллить вверх?<br>не заблокируют. И скролить не полностью вверх. Ведь можно сделать что при например 30 пикселях скрола кнопна выежала назад. Пример тому приложение ВК когда листаете навбар улетает но стои немного вернуться как он сразу на месте.<br>Несколько полезных репо по теме раз, два.</code> | <code>Если QT берется только ради кроссплатформенности, так существует xamarin для мобильного C#+mono для Linux, OS X.<br>Delphi XE5 также позволяет делать приложения под iOS,Andoid,Windows и OS X.<br>Это так, если уж вы работали с С# и Delphi.<br>С точки зрения пользователя, по моему, удобней таки отдельный интерфейс для каждой платформы по гайдлайнам. Меня, например, бесит приложение ВК на андроиде, которое, похоже делалось с одним интерфейсом на все платформы ибо, например, на физическую кнопку "назад" оно не реагирует.</code> |
|
299 |
+
* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
|
300 |
+
```json
|
301 |
+
{
|
302 |
+
"scale": 20.0,
|
303 |
+
"similarity_fct": "cos_sim"
|
304 |
+
}
|
305 |
+
```
|
306 |
+
|
307 |
+
### Evaluation Dataset
|
308 |
+
|
309 |
+
#### Unnamed Dataset
|
310 |
+
|
311 |
+
* Size: 331 evaluation samples
|
312 |
+
* Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
|
313 |
+
* Approximate statistics based on the first 331 samples:
|
314 |
+
| | anchor | positive | negative |
|
315 |
+
|:--------|:----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
|
316 |
+
| type | string | string | string |
|
317 |
+
| details | <ul><li>min: 6 tokens</li><li>mean: 30.31 tokens</li><li>max: 56 tokens</li></ul> | <ul><li>min: 76 tokens</li><li>mean: 171.21 tokens</li><li>max: 396 tokens</li></ul> | <ul><li>min: 83 tokens</li><li>mean: 183.6 tokens</li><li>max: 396 tokens</li></ul> |
|
318 |
+
* Samples:
|
319 |
+
| anchor | positive | negative |
|
320 |
+
|:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
|
321 |
+
| <code>Какие атрибуты должны быть отражены в системе для корректного учета указов о помиловании?</code> | <code> <br>УКАЗ<br> <br>ПРЕЗИДЕНТА РОССИЙСКОЙ ФЕДЕРАЦИИ<br> <br>О помиловании Калимуллиной С.Ф.<br> <br>Руководствуясь принципами гуманности, постановляю:<br>помиловать КАЛИМУЛЛИНУ Светлану Фаритовну, 1980 года рождения, осужденную 25 июня 2009 г. Кировским районным судом г. Казани Республики Татарстан, освободив ее от дальнейшего отбывания наказания в виде лишения свободы.<br> <br>Президент Российской Федерации Д.Медведев<br> <br>Москва, ��ремль<br>27 января 2011 года<br>№ 107<br> </code> | <code> <br>РОССИЙСКАЯ ФЕДЕРАЦИЯ<br> <br>ФЕДЕРАЛЬНЫЙ ЗАКОН<br> <br>О внесении изменения в статью 82 Уголовного кодекса<br>Российской Федерации<br> <br>Принят Государственной Думой 24 сентября 2010 года<br>Одобрен Советом Федерации 29 сентября 2010 года<br> <br>Статья 1<br> <br>Внести в часть первую статьи 82 <ref nd="102041891"> Уголовного кодекса Российской Федерации </ref> (Собрание законодательства Российской Федерации, 1996, № 25, ст. 2954; 2001, № 11, ст. 1002; 2003, № 50, ст. 4848; 2010, № 8, ст. 780) изменение, дополнив ее после слов "кроме осужденных к" словами "ограничению свободы, к".<br> <br>Статья 2<br> <br>Настоящий Федеральный закон вступает в силу со дня его официального опубликования.<br> <br>Президент Российской Федерации Д.Медведев<br> <br>Москва, Кремль<br>4 октября 2010 года<br>№ 270-ФЗ<br> </code> |
|
322 |
+
| <code>Какие изменения необходимо внести в информационную систему для корректного отображения новых формулировок в примечаниях к статьям 260 и 261 УК РФ после замены слова "таксам" на "таксам и методике"?</code> | <code> <br>РОССИЙСКАЯ ФЕДЕРАЦИЯ<br> <br>ФЕДЕРАЛЬНЫЙ ЗАКОН<br> <br>О внесении изменений в статьи 260 и 261 Уголовного кодекса Российской Федерации<br> <br>Принят Государственной Думой 1 июля 2015 года<br>Одобрен Советом Федерации 8 июля 2015 года<br> <br>Внести в <ref nd="102041891"> Уголовный кодекс Российской Федерации </ref> (Собрание законодательства Российской Федерации, 1996, № 25, ст. 2954; 2001, № 53, ст. 5028; 2003, № 50, ст. 4848; 2006, № 50, ст. 5279; 2008, № 30, ст. 3601; 2010, № 19, ст. 2289; 2011, № 1, ст. 54; № 11, ст. 1495; № 50, ст. 7362; 2014, № 30, ст. 4278) следующие изменения:<br>1) в примечании к статье 260 слово "таксам" заменить словами "таксам и методике";<br>2) в примечании к статье 261 слово "таксам" заменить словами "таксам и методике".<br> <br>Президент Российской Федерации В.Путин<br> <br>Москва, Кремль<br>13 июля 2015 года<br>№ 267-ФЗ<br> </code> | <code> <br>РОССИЙСКАЯ ФЕДЕРАЦИЯ<br> <br>ФЕДЕРАЛЬНЫЙ ЗАКОН<br> <br>О внесении изменения в статью 82 Уголовного кодекса<br>Российской Федерации<br> <br>Принят Государственной Думой 24 сентября 2010 года<br>Одобрен Советом Федерации 29 сентября 2010 года<br> <br>Статья 1<br> <br>Внести в часть первую статьи 82 <ref nd="102041891"> Уголовного кодекса Российской Федерации </ref> (Собрание законодательства Российской Федерации, 1996, № 25, ст. 2954; 2001, № 11, ст. 1002; 2003, № 50, ст. 4848; 2010, № 8, ст. 780) изменение, дополнив ее после слов "кроме осужденных к" словами "ограничению свободы, к".<br> <br>Статья 2<br> <br>Настоящий Федеральный закон вступает в силу со дня его официального опубликования.<br> <br>Президент Российской Федерации Д.Медведев<br> <br>Москва, Кремль<br>4 октября 2010 года<br>№ 270-ФЗ<br> </code> |
|
323 |
+
| <code>FreeBSD и ZFS</code> | <code>Около года FreeBSD c ZFS в продуктиве на файловом сервере. Средняя отдача — 1ТБ трафика в сутки. Сервер: CPU — 2xOpteron 2214, Mem — 32G, контроллер — AMCC 9650SE-12M, диски — Seagate серии NS, 10-12 штук + SSD Intel X25-M под кэш устройство. Ни одного зависания связанного с ZFS за всё время работы сервера. Единственная проблема — замена отказавших дисков в raidz. Делаешь replace диску, пул резилверится на новый диск, а старый не уходит из конфигурации. Находил PR по этому багу, починили ли его или нет — не знаю.</code> | <code>POST /json/favorites/ HTTP/1.1
|
324 |
+
<br>Host: habrahabr.ru
|
325 |
+
<br>Connection: keep-alive
|
326 |
+
<br>Content-Length: 25
|
327 |
+
<br>Accept: application/json, text/javascript, */*; q=0.01
|
328 |
+
<br>Origin: habrahabr.ru
|
329 |
+
<br>X-Requested-With: XMLHttpRequest
|
330 |
+
<br>User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.110 Safari/537.36
|
331 |
+
<br>Content-Type: application/x-www-form-urlencoded; charset=UTF-8
|
332 |
+
<br>Referer: habrahabr.ru/qa/41576/
|
333 |
+
<br>Accept-Encoding: gzip,deflate,sdch
|
334 |
+
<br>Accept-Language: ru-RU,ru;q=0.8,en-US;q=0.6,en;q=0.4
|
335 |
+
<br>Cookie: PHPSESSID=fffraae8d5; hsec_id=4fffcbdbdebe539a313368f36e6; hl_flow=posts; __utma=164318880.1913179960.1370773129.1370773129.1370784648.2; __utmb=164318880.8.10.1370784648; __utmc=164318880; __utmz=164318880.1370773129.1.1.utmcsr=google|utmccn=(organic)|utmcmd=organic|utmctr=(not%20provided); _ym_visorc=b<br>
|
336 |
+
<br>tt=16&ti=41576&action=add<br>
|
337 |
+
<br>посмотрите каких заголовков не хватает для полного счастья
|
338 |
+
<br>например X-Requested-With: XMLHttpRequest</code> |
|
339 |
+
* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
|
340 |
+
```json
|
341 |
+
{
|
342 |
+
"scale": 20.0,
|
343 |
+
"similarity_fct": "cos_sim"
|
344 |
+
}
|
345 |
+
```
|
346 |
+
|
347 |
+
### Training Hyperparameters
|
348 |
+
#### Non-Default Hyperparameters
|
349 |
+
|
350 |
+
- `overwrite_output_dir`: True
|
351 |
+
- `eval_strategy`: epoch
|
352 |
+
- `per_device_train_batch_size`: 256
|
353 |
+
- `learning_rate`: 0.0002
|
354 |
+
- `num_train_epochs`: 7
|
355 |
+
- `warmup_steps`: 20
|
356 |
+
- `seed`: 21
|
357 |
+
- `load_best_model_at_end`: True
|
358 |
+
|
359 |
+
#### All Hyperparameters
|
360 |
+
<details><summary>Click to expand</summary>
|
361 |
+
|
362 |
+
- `overwrite_output_dir`: True
|
363 |
+
- `do_predict`: False
|
364 |
+
- `eval_strategy`: epoch
|
365 |
+
- `prediction_loss_only`: True
|
366 |
+
- `per_device_train_batch_size`: 256
|
367 |
+
- `per_device_eval_batch_size`: 8
|
368 |
+
- `per_gpu_train_batch_size`: None
|
369 |
+
- `per_gpu_eval_batch_size`: None
|
370 |
+
- `gradient_accumulation_steps`: 1
|
371 |
+
- `eval_accumulation_steps`: None
|
372 |
+
- `torch_empty_cache_steps`: None
|
373 |
+
- `learning_rate`: 0.0002
|
374 |
+
- `weight_decay`: 0.0
|
375 |
+
- `adam_beta1`: 0.9
|
376 |
+
- `adam_beta2`: 0.999
|
377 |
+
- `adam_epsilon`: 1e-08
|
378 |
+
- `max_grad_norm`: 1.0
|
379 |
+
- `num_train_epochs`: 7
|
380 |
+
- `max_steps`: -1
|
381 |
+
- `lr_scheduler_type`: linear
|
382 |
+
- `lr_scheduler_kwargs`: {}
|
383 |
+
- `warmup_ratio`: 0.0
|
384 |
+
- `warmup_steps`: 20
|
385 |
+
- `log_level`: passive
|
386 |
+
- `log_level_replica`: warning
|
387 |
+
- `log_on_each_node`: True
|
388 |
+
- `logging_nan_inf_filter`: True
|
389 |
+
- `save_safetensors`: True
|
390 |
+
- `save_on_each_node`: False
|
391 |
+
- `save_only_model`: False
|
392 |
+
- `restore_callback_states_from_checkpoint`: False
|
393 |
+
- `no_cuda`: False
|
394 |
+
- `use_cpu`: False
|
395 |
+
- `use_mps_device`: False
|
396 |
+
- `seed`: 21
|
397 |
+
- `data_seed`: None
|
398 |
+
- `jit_mode_eval`: False
|
399 |
+
- `use_ipex`: False
|
400 |
+
- `bf16`: False
|
401 |
+
- `fp16`: False
|
402 |
+
- `fp16_opt_level`: O1
|
403 |
+
- `half_precision_backend`: auto
|
404 |
+
- `bf16_full_eval`: False
|
405 |
+
- `fp16_full_eval`: False
|
406 |
+
- `tf32`: None
|
407 |
+
- `local_rank`: 0
|
408 |
+
- `ddp_backend`: None
|
409 |
+
- `tpu_num_cores`: None
|
410 |
+
- `tpu_metrics_debug`: False
|
411 |
+
- `debug`: []
|
412 |
+
- `dataloader_drop_last`: False
|
413 |
+
- `dataloader_num_workers`: 0
|
414 |
+
- `dataloader_prefetch_factor`: None
|
415 |
+
- `past_index`: -1
|
416 |
+
- `disable_tqdm`: False
|
417 |
+
- `remove_unused_columns`: True
|
418 |
+
- `label_names`: None
|
419 |
+
- `load_best_model_at_end`: True
|
420 |
+
- `ignore_data_skip`: False
|
421 |
+
- `fsdp`: []
|
422 |
+
- `fsdp_min_num_params`: 0
|
423 |
+
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
|
424 |
+
- `fsdp_transformer_layer_cls_to_wrap`: None
|
425 |
+
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
|
426 |
+
- `deepspeed`: None
|
427 |
+
- `label_smoothing_factor`: 0.0
|
428 |
+
- `optim`: adamw_torch
|
429 |
+
- `optim_args`: None
|
430 |
+
- `adafactor`: False
|
431 |
+
- `group_by_length`: False
|
432 |
+
- `length_column_name`: length
|
433 |
+
- `ddp_find_unused_parameters`: None
|
434 |
+
- `ddp_bucket_cap_mb`: None
|
435 |
+
- `ddp_broadcast_buffers`: False
|
436 |
+
- `dataloader_pin_memory`: True
|
437 |
+
- `dataloader_persistent_workers`: False
|
438 |
+
- `skip_memory_metrics`: True
|
439 |
+
- `use_legacy_prediction_loop`: False
|
440 |
+
- `push_to_hub`: False
|
441 |
+
- `resume_from_checkpoint`: None
|
442 |
+
- `hub_model_id`: None
|
443 |
+
- `hub_strategy`: every_save
|
444 |
+
- `hub_private_repo`: None
|
445 |
+
- `hub_always_push`: False
|
446 |
+
- `gradient_checkpointing`: False
|
447 |
+
- `gradient_checkpointing_kwargs`: None
|
448 |
+
- `include_inputs_for_metrics`: False
|
449 |
+
- `include_for_metrics`: []
|
450 |
+
- `eval_do_concat_batches`: True
|
451 |
+
- `fp16_backend`: auto
|
452 |
+
- `push_to_hub_model_id`: None
|
453 |
+
- `push_to_hub_organization`: None
|
454 |
+
- `mp_parameters`:
|
455 |
+
- `auto_find_batch_size`: False
|
456 |
+
- `full_determinism`: False
|
457 |
+
- `torchdynamo`: None
|
458 |
+
- `ray_scope`: last
|
459 |
+
- `ddp_timeout`: 1800
|
460 |
+
- `torch_compile`: False
|
461 |
+
- `torch_compile_backend`: None
|
462 |
+
- `torch_compile_mode`: None
|
463 |
+
- `dispatch_batches`: None
|
464 |
+
- `split_batches`: None
|
465 |
+
- `include_tokens_per_second`: False
|
466 |
+
- `include_num_input_tokens_seen`: False
|
467 |
+
- `neftune_noise_alpha`: None
|
468 |
+
- `optim_target_modules`: None
|
469 |
+
- `batch_eval_metrics`: False
|
470 |
+
- `eval_on_start`: False
|
471 |
+
- `use_liger_kernel`: False
|
472 |
+
- `eval_use_gather_object`: False
|
473 |
+
- `average_tokens_across_devices`: False
|
474 |
+
- `prompts`: None
|
475 |
+
- `batch_sampler`: batch_sampler
|
476 |
+
- `multi_dataset_batch_sampler`: proportional
|
477 |
+
|
478 |
+
</details>
|
479 |
+
|
480 |
+
### Training Logs
|
481 |
+
| Epoch | Step | Validation Loss |
|
482 |
+
|:-------:|:------:|:---------------:|
|
483 |
+
| 1.0 | 12 | 0.2855 |
|
484 |
+
| 2.0 | 24 | 0.2239 |
|
485 |
+
| 3.0 | 36 | 0.2088 |
|
486 |
+
| 4.0 | 48 | 0.2320 |
|
487 |
+
| **5.0** | **60** | **0.2298** |
|
488 |
+
| 6.0 | 72 | 0.2348 |
|
489 |
+
| 7.0 | 84 | 0.2385 |
|
490 |
+
|
491 |
+
* The bold row denotes the saved checkpoint.
|
492 |
+
|
493 |
+
### Framework Versions
|
494 |
+
- Python: 3.10.12
|
495 |
+
- Sentence Transformers: 3.4.1
|
496 |
+
- Transformers: 4.49.0
|
497 |
+
- PyTorch: 2.6.0+cu124
|
498 |
+
- Accelerate: 1.4.0
|
499 |
+
- Datasets: 3.3.2
|
500 |
+
- Tokenizers: 0.21.0
|
501 |
+
|
502 |
+
## Citation
|
503 |
+
|
504 |
+
### BibTeX
|
505 |
+
|
506 |
+
#### Sentence Transformers
|
507 |
+
```bibtex
|
508 |
+
@inproceedings{reimers-2019-sentence-bert,
|
509 |
+
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
|
510 |
+
author = "Reimers, Nils and Gurevych, Iryna",
|
511 |
+
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
|
512 |
+
month = "11",
|
513 |
+
year = "2019",
|
514 |
+
publisher = "Association for Computational Linguistics",
|
515 |
+
url = "https://arxiv.org/abs/1908.10084",
|
516 |
+
}
|
517 |
+
```
|
518 |
+
|
519 |
+
#### MultipleNegativesRankingLoss
|
520 |
+
```bibtex
|
521 |
+
@misc{henderson2017efficient,
|
522 |
+
title={Efficient Natural Language Response Suggestion for Smart Reply},
|
523 |
+
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
|
524 |
+
year={2017},
|
525 |
+
eprint={1705.00652},
|
526 |
+
archivePrefix={arXiv},
|
527 |
+
primaryClass={cs.CL}
|
528 |
+
}
|
529 |
+
```
|
530 |
+
|
531 |
+
<!--
|
532 |
+
## Glossary
|
533 |
+
|
534 |
+
*Clearly define terms in order to be accessible across audiences.*
|
535 |
+
-->
|
536 |
+
|
537 |
+
<!--
|
538 |
+
## Model Card Authors
|
539 |
+
|
540 |
+
*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
|
541 |
+
-->
|
542 |
+
|
543 |
+
<!--
|
544 |
+
## Model Card Contact
|
545 |
+
|
546 |
+
*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
|
547 |
+
-->
|
config.json
ADDED
@@ -0,0 +1,26 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"_name_or_path": "models/charcs-mapper",
|
3 |
+
"architectures": [
|
4 |
+
"BertModel"
|
5 |
+
],
|
6 |
+
"attention_probs_dropout_prob": 0.1,
|
7 |
+
"classifier_dropout": null,
|
8 |
+
"hidden_act": "gelu",
|
9 |
+
"hidden_dropout_prob": 0.1,
|
10 |
+
"hidden_size": 384,
|
11 |
+
"initializer_range": 0.02,
|
12 |
+
"intermediate_size": 1536,
|
13 |
+
"layer_norm_eps": 1e-12,
|
14 |
+
"max_position_embeddings": 512,
|
15 |
+
"model_type": "bert",
|
16 |
+
"num_attention_heads": 12,
|
17 |
+
"num_hidden_layers": 12,
|
18 |
+
"pad_token_id": 0,
|
19 |
+
"position_embedding_type": "absolute",
|
20 |
+
"tokenizer_class": "XLMRobertaTokenizer",
|
21 |
+
"torch_dtype": "float32",
|
22 |
+
"transformers_version": "4.44.0",
|
23 |
+
"type_vocab_size": 2,
|
24 |
+
"use_cache": true,
|
25 |
+
"vocab_size": 250037
|
26 |
+
}
|
config_sentence_transformers.json
ADDED
@@ -0,0 +1,14 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"__version__": {
|
3 |
+
"sentence_transformers": "3.4.1",
|
4 |
+
"transformers": "4.44.0",
|
5 |
+
"pytorch": "2.4.0+cu121"
|
6 |
+
},
|
7 |
+
"best_checkpoint": "checkpoint-60",
|
8 |
+
"prompts": {
|
9 |
+
"query": "query: ",
|
10 |
+
"passage": "passage: "
|
11 |
+
},
|
12 |
+
"default_prompt_name": "query",
|
13 |
+
"similarity_fn_name": "cosine"
|
14 |
+
}
|
model.safetensors
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:b10543f1f1f14a2d845716a7ae0306a0b5d90474545433b74b0d5287b51d0399
|
3 |
+
size 470637416
|
modules.json
ADDED
@@ -0,0 +1,20 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
[
|
2 |
+
{
|
3 |
+
"idx": 0,
|
4 |
+
"name": "0",
|
5 |
+
"path": "",
|
6 |
+
"type": "sentence_transformers.models.Transformer"
|
7 |
+
},
|
8 |
+
{
|
9 |
+
"idx": 1,
|
10 |
+
"name": "1",
|
11 |
+
"path": "1_Pooling",
|
12 |
+
"type": "sentence_transformers.models.Pooling"
|
13 |
+
},
|
14 |
+
{
|
15 |
+
"idx": 2,
|
16 |
+
"name": "2",
|
17 |
+
"path": "2_Normalize",
|
18 |
+
"type": "sentence_transformers.models.Normalize"
|
19 |
+
}
|
20 |
+
]
|
sentence_bert_config.json
ADDED
@@ -0,0 +1,4 @@
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"max_seq_length": 512,
|
3 |
+
"do_lower_case": false
|
4 |
+
}
|
special_tokens_map.json
ADDED
@@ -0,0 +1,51 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"bos_token": {
|
3 |
+
"content": "<s>",
|
4 |
+
"lstrip": false,
|
5 |
+
"normalized": false,
|
6 |
+
"rstrip": false,
|
7 |
+
"single_word": false
|
8 |
+
},
|
9 |
+
"cls_token": {
|
10 |
+
"content": "<s>",
|
11 |
+
"lstrip": false,
|
12 |
+
"normalized": false,
|
13 |
+
"rstrip": false,
|
14 |
+
"single_word": false
|
15 |
+
},
|
16 |
+
"eos_token": {
|
17 |
+
"content": "</s>",
|
18 |
+
"lstrip": false,
|
19 |
+
"normalized": false,
|
20 |
+
"rstrip": false,
|
21 |
+
"single_word": false
|
22 |
+
},
|
23 |
+
"mask_token": {
|
24 |
+
"content": "<mask>",
|
25 |
+
"lstrip": false,
|
26 |
+
"normalized": false,
|
27 |
+
"rstrip": false,
|
28 |
+
"single_word": false
|
29 |
+
},
|
30 |
+
"pad_token": {
|
31 |
+
"content": "<pad>",
|
32 |
+
"lstrip": false,
|
33 |
+
"normalized": false,
|
34 |
+
"rstrip": false,
|
35 |
+
"single_word": false
|
36 |
+
},
|
37 |
+
"sep_token": {
|
38 |
+
"content": "</s>",
|
39 |
+
"lstrip": false,
|
40 |
+
"normalized": false,
|
41 |
+
"rstrip": false,
|
42 |
+
"single_word": false
|
43 |
+
},
|
44 |
+
"unk_token": {
|
45 |
+
"content": "<unk>",
|
46 |
+
"lstrip": false,
|
47 |
+
"normalized": false,
|
48 |
+
"rstrip": false,
|
49 |
+
"single_word": false
|
50 |
+
}
|
51 |
+
}
|
tokenizer.json
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:ef04f2b385d1514f500e779207ace0f53e30895ce37563179e29f4022d28ca38
|
3 |
+
size 17083053
|
tokenizer_config.json
ADDED
@@ -0,0 +1,63 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"added_tokens_decoder": {
|
3 |
+
"0": {
|
4 |
+
"content": "<s>",
|
5 |
+
"lstrip": false,
|
6 |
+
"normalized": false,
|
7 |
+
"rstrip": false,
|
8 |
+
"single_word": false,
|
9 |
+
"special": true
|
10 |
+
},
|
11 |
+
"1": {
|
12 |
+
"content": "<pad>",
|
13 |
+
"lstrip": false,
|
14 |
+
"normalized": false,
|
15 |
+
"rstrip": false,
|
16 |
+
"single_word": false,
|
17 |
+
"special": true
|
18 |
+
},
|
19 |
+
"2": {
|
20 |
+
"content": "</s>",
|
21 |
+
"lstrip": false,
|
22 |
+
"normalized": false,
|
23 |
+
"rstrip": false,
|
24 |
+
"single_word": false,
|
25 |
+
"special": true
|
26 |
+
},
|
27 |
+
"3": {
|
28 |
+
"content": "<unk>",
|
29 |
+
"lstrip": false,
|
30 |
+
"normalized": false,
|
31 |
+
"rstrip": false,
|
32 |
+
"single_word": false,
|
33 |
+
"special": true
|
34 |
+
},
|
35 |
+
"250001": {
|
36 |
+
"content": "<mask>",
|
37 |
+
"lstrip": false,
|
38 |
+
"normalized": false,
|
39 |
+
"rstrip": false,
|
40 |
+
"single_word": false,
|
41 |
+
"special": true
|
42 |
+
}
|
43 |
+
},
|
44 |
+
"bos_token": "<s>",
|
45 |
+
"clean_up_tokenization_spaces": true,
|
46 |
+
"cls_token": "<s>",
|
47 |
+
"eos_token": "</s>",
|
48 |
+
"extra_special_tokens": {},
|
49 |
+
"mask_token": "<mask>",
|
50 |
+
"max_length": 512,
|
51 |
+
"model_max_length": 512,
|
52 |
+
"pad_to_multiple_of": null,
|
53 |
+
"pad_token": "<pad>",
|
54 |
+
"pad_token_type_id": 0,
|
55 |
+
"padding_side": "right",
|
56 |
+
"sep_token": "</s>",
|
57 |
+
"sp_model_kwargs": {},
|
58 |
+
"stride": 0,
|
59 |
+
"tokenizer_class": "XLMRobertaTokenizer",
|
60 |
+
"truncation_side": "right",
|
61 |
+
"truncation_strategy": "longest_first",
|
62 |
+
"unk_token": "<unk>"
|
63 |
+
}
|