DGSMsRzJ6xC2JthtHG9W commited on
Commit
2200c1f
·
verified ·
1 Parent(s): da43eb0

Add new SentenceTransformer model

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 768,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,938 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ language:
3
+ - en
4
+ license: apache-2.0
5
+ tags:
6
+ - sentence-transformers
7
+ - sentence-similarity
8
+ - feature-extraction
9
+ - generated_from_trainer
10
+ - dataset_size:42140
11
+ - loss:MatryoshkaLoss
12
+ - loss:MultipleNegativesRankingLoss
13
+ base_model: nomic-ai/nomic-embed-text-v2-moe
14
+ widget:
15
+ - source_sentence: Какие федеральные законы вносили изменения в пункты 4 и 5 данного
16
+ документа, и когда это произошло?
17
+ sentences:
18
+ - 7. В случае, если в течение тридцати дней с даты получения оферты обществом при
19
+ условии, что более продолжительный срок не предусмотрен уставом общества, участники
20
+ общества или общество не воспользуются преимущественным правом покупки доли или
21
+ части доли в уставном капитале общества, предлагаемых для продажи, в том числе
22
+ образующихся в результате использования преимущественного права покупки не всей
23
+ доли или не всей части доли либо отказа отдельных участников общества и общества
24
+ от преимущественного права покупки доли или части доли в уставном капитале общества,
25
+ оставшиеся доля или часть доли могут быть проданы третьему лицу по цене, которая
26
+ не ниже установленной в оферте для общества и его участников цены, и на условиях,
27
+ которые были сообщены обществу и его участникам, или по цене, которая не ниже
28
+ заранее определенной уставом цены. В случае, если заранее определенная цена покупки
29
+ доли или части доли обществом отличается от заранее определенной цены покупки
30
+ доли или части доли участниками общества, доля или часть доли в уставном капитале
31
+ общества может быть продана третьему лицу по цене, которая не ниже заранее определенной
32
+ цены покупки доли или части доли обществом.
33
+ - 4. Избрание органов управления общества, ревизионной комиссии общества, если уставом
34
+ общества не предусмотрено ее отсутствие, утверждение регистратора общества, а
35
+ также в случае, предусмотренном настоящим пунктом, назначение аудиторской организации
36
+ или индивидуального аудитора, привлекаемых для проведения аудита годовой бухгалтерской
37
+ (финансовой) отчетности общества (далее - аудиторская организация (индивидуальный
38
+ аудитор) общества), осуществляется учредителями общества большинством в три четверти
39
+ голосов, которые представляют подлежащие размещению среди учредителей общества
40
+ акции. (В редакции федеральных законов от 29.06.2015 № 210-ФЗ , от 19.07.2018
41
+ № 209-ФЗ , от 16.04.2022 № 114-ФЗ ) При учреждении общества учредители могут назначить
42
+ аудиторскую организацию (индивидуального аудитора) общества. В этом случае решение
43
+ об учреждении общества должно содержать результаты голосования учредителей общества
44
+ и принятое учредителями решение о назначении аудиторской организации (индивидуального
45
+ аудитора) общества. (В редакции Федерального закона от 16.04.2022 № 114-ФЗ ) (Пункт
46
+ в редакции Федерального закона от 27.07.2006 № 146-ФЗ ) 5. Учредители общества
47
+ заключают между собой письменный договор о его создании, определяющий порядок
48
+ осуществления ими совместной деятельности по учреждению общества, размер уставного
49
+ капитала общества, категории и типы акций, подлежащих размещению среди учредителей,
50
+ размер и порядок их оплаты, права и обязанности учредителей по созданию общества.
51
+ Договор о создании общества не является учредительным документом общества и действует
52
+ до окончания определенного договором срока оплаты акций, подлежащих размещению
53
+ среди учредителей. (В редакции Федерального закона от 29.12.2012 № 282-ФЗ )
54
+ - 1. Несовершеннолетний, достигший шестнадцати лет, может быть объявлен полностью
55
+ дееспособным, если он работает по трудовому договору, в том числе по контракту,
56
+ или с согласия родителей, усыновителей или попечителя занимается предпринимательской
57
+ деятельностью. Объявление несовершеннолетнего полностью дееспособным (эмансипация)
58
+ производится по решению органа опеки и попечительства - с согласия обоих родителей,
59
+ усыновителей или попечителя либо при отсутствии такого согласия - по решению суда.
60
+ 2. Родители, усыновители и попечитель не несут ответственности по обязательствам
61
+ эмансипированного несовершеннолетнего, в частности по обязательствам, возникшим
62
+ вследствие причинения им вреда.
63
+ - source_sentence: Гражданин Иванов умер, оставив после себя значительное наследство.
64
+ Нотариус Петров ведет наследственное дело. Иванов назначил в своем завещании
65
+ единственным наследником благотворительный фонд "Помощь детям". Какое заявление
66
+ должен направить нотариус Петров в уполномоченный государственный орган после
67
+ смерти Иванова, учитывая, что наследником является благотворительный фонд?
68
+ sentences:
69
+ - 4. Организация по управлению правами на коллективной основе производит распределение
70
+ вознаграждения за использование объектов авторских и смежных прав между правообладателями,
71
+ а также осуществляет выплату им указанного вознаграждения. Организация по управлению
72
+ правами на коллективной основе вправе удерживать из вознаграждения суммы на покрытие
73
+ необходимых расходов по сбору, распределению и выплате такого вознаграждения,
74
+ а также суммы, которые направляются в специальные фонды, создаваемые этой организацией
75
+ с согласия и в интересах представляемых ею правообладателей, в размерах и в порядке,
76
+ которые предусмотрены уставом организации. Предельный (максимальный) размер сумм,
77
+ удерживаемых аккредитованной организацией (статья 1244) на покрытие необходимых
78
+ расходов по сбору, распределению и выплате вознаграждения, а также сумм, которые
79
+ направляются в специальные фонды, устанавливается Правительством Российской Федерации.
80
+ (В редакции Федерального закона от 14.11.2017 № 319-ФЗ ) Распределение вознаграждения
81
+ и выплата вознаграждения должны производиться регулярно в сроки, предусмотренные
82
+ уставом организации по управлению правами на коллективной основе, и пропорционально
83
+ фактическому использованию соответствующих объектов авторских и смежных прав,
84
+ определяемому на основе сведений и документов, получаемых от пользователей, а
85
+ также других данных об использовании объектов авторских и смежных прав, в том
86
+ числе сведений статистического характера. Одновременно с выплатой вознаграждения
87
+ организация по управлению правами на коллективной основе обязана представить правообладателю
88
+ отчет, содержащий сведения об использовании его прав, в том числе о размере собранного
89
+ вознаграждения и об удержанных из него суммах.
90
+ - 1. Если иное не установлено законом или договором купли-продажи, покупатель вправе
91
+ предъявить требования, связанные с недостатками товара, при условии, что они обнаружены
92
+ в сроки, установленные настоящей статьей. 2. Если на товар не установлен гарантийный
93
+ срок или срок годности, требования, связанные с недостатками товара, могут быть
94
+ предъявлены покупателем при условии, что недостатки проданного товара были обнаружены
95
+ в разумный срок, но в пределах двух лет со дня передачи товара покупателю либо
96
+ в пределах более длительного срока, когда такой срок установлен законом или договором
97
+ купли-продажи. Срок для выявления недостатков товара, подлежащего перевозке или
98
+ отправке по почте, исчисляется со дня доставки товара в место его назначения.
99
+ 3. Если на товар установлен гарантийный срок, покупатель вправе предъявить требования,
100
+ связанные с недостатками товара, при обнаружении недостатков в течение гарантийного
101
+ срока. В случае, когда на комплектующее изделие в договоре купли-продажи установлен
102
+ гарантийный срок меньшей продолжительности, чем на основное изделие, покупатель
103
+ вправе предъявить требования, связанные с недостатками комплектующего изделия,
104
+ при их обнаружении в течение гарантийного срока на основное изделие. Если на комплектующее
105
+ изделие в договоре установлен гарантийный срок большей продолжительности, чем
106
+ гарантийный срок на основное изделие, покупатель вправе предъявить требования,
107
+ связанные с недостатками товара, если недостатки комплектующего изделия обнаружены
108
+ в течение гарантийного срока на него, независимо от истечения гарантийного срока
109
+ на основное изделие. 4. В отношении товара, на который установлен срок годности,
110
+ покупатель вправе предъявить требования, связанные с недостатками товара, если
111
+ они обнаружены в течение срока годности товара.
112
+ - После смерти гражданина нотариус, ведущий наследственное дело, направляет в уполномоченный
113
+ государственный орган заявление о государственной регистрации наследственного
114
+ фонда с указанием имени или наименования лица (лиц), осуществляющего полномочия
115
+ единоличного исполнительного органа фонда. (Дополнение пункто�� - Федеральный закон
116
+ от 29.07.2017 № 259-ФЗ ) (Дополнение статьей - Федеральный закон от 05.05.2014
117
+ № 99-ФЗ )
118
+ - source_sentence: Какие юридические последствия влечет за собой смерть нотариуса,
119
+ являющегося владельцем публичного депозитного счета?
120
+ sentences:
121
+ - 1. Независимая гарантия не может быть отозвана или изменена гарантом, если в ней
122
+ не предусмотрено иное. 2. В случаях, когда по условиям независимой гарантии допускается
123
+ ее отзыв или изменение гарантом, такой отзыв или такое изменение производится
124
+ в форме, в которой выдана гарантия, если иная форма не предусмотрена гарантией.
125
+ 3. Если по условиям независимой гарантии допускается возможность ее отзыва или
126
+ изменения гарантом с согласия бенефициара, то обязательство гаранта считается
127
+ измененным или прекращенным с момента получения гарантом согласия бенефициара.
128
+ 4. Изменение обязательства гаранта после выдачи независимой гарантии принципалу
129
+ не затрагивает прав и обязанностей принципала, если он впоследствии не дал согласие
130
+ на соответствующее изменение. (Статья в редакции Федерального закона от 08.03.2015
131
+ № 42-ФЗ )
132
+ - 1. Исключительное право на произведение действует в течение всей жизни автора
133
+ и семидесяти лет, считая с 1 января года, следующего за годом смерти автора. Исключительное
134
+ право на произведение, созданное в соавторстве, действует в течение всей жизни
135
+ автора, пережившего других соавторов, и семидесяти лет, считая с 1 января года,
136
+ следующего за годом его смерти. 2. На произведение, обнародованное анонимно или
137
+ под псевдонимом, срок действия исключительного права истекает через семьдесят
138
+ лет, считая с 1 января года, следующего за годом его правомерного обнародования.
139
+ Если в течение указанного срока автор произведения, обнародованного анонимно или
140
+ под псевдонимом, раскроет свою личность или его личность не будет далее оставлять
141
+ сомнений, исключительное право будет действовать в течение срока, установленного
142
+ пунктом 1 настоящей статьи. Правила настоящего пункта распространяются на произведения
143
+ литературы, изобразительного искусства, декоративно-прикладного искусства, фотографические
144
+ произведения, произведения, полученные способами, аналогичными фотографии, музыкальные
145
+ произведения (с текстом или без текста), авторы которых предполагаются неизвестными
146
+ (статья 1244.2). (Дополнение абзацем - Федеральный закон от 22.07.2024 № 190-ФЗ
147
+ ) 3. Исключительное право на произведение, обнародованное после смерти автора,
148
+ действует в течение семидесяти лет после обнародования произведения, считая с
149
+ 1 января года, следующего за годом его обнародования, при условии, что произведение
150
+ было обнародовано в течение семидесяти лет после смерти автора. 4. Если автор
151
+ произведения был репрессирован и посмертно реабилитирован, срок действия исключительного
152
+ права считается продленным и семьдесят лет исчисляются с 1 января года, следующего
153
+ за годом реабилитации автора произведения.
154
+ - 1. В случае смерти нотариуса (иного уполномоченного на открытие публичного депозитного
155
+ счета лица) или сложения им (прекращения) своих полномочий владелец публичного
156
+ депозитного счета заменяется на другого нотариуса (иное лицо), которому в соответствии
157
+ с законом, иными правовыми актами передаются дела нотариуса (иного лица), являвшегося
158
+ владельцем счета. 2. В случае упразднения или преобразования органа, который уполномочен
159
+ на открытие публичного депозитного счета, владелец такого счета заменяется на
160
+ другой орган, к компетенции которого в соответствии с законом, иными правовыми
161
+ актами относится открытие публичного депозитного счета для депонирования денежных
162
+ средств соответствующих депонентов. 3. Договор публичного депозитного счета не
163
+ может быть прекращен по основаниям, указанным в пунктах 2 и 4 статьи 859 настоящего
164
+ Кодекса.
165
+ - source_sentence: Может ли договор простого товарищества прекратиться в связи со
166
+ смертью одного из участников? Если да, то при каких условиях?
167
+ sentences:
168
+ - 1. В Российской Федерации признаются частная, государственная, муниципальная и
169
+ иные формы собственности. 2. Имущество может находиться в собственности граждан
170
+ и юридических лиц, а также Российской Федерации, субъектов Российской Федерации,
171
+ муниципальных образований. 3. Особенности приобретения и прекращения права собственности
172
+ на имущество, владения, пользования и распоряжения им в зависимости от того, находится
173
+ имущество в собственности гражданина или юридического лица, в собственности Российской
174
+ Федерации, субъекта Российской Федерации или муниципального образования, могут
175
+ устанавливаться лишь законом. Законом определяются виды имущества, которые могут
176
+ находиться только в государственной или муниципальной собственности. 4. Права
177
+ всех собственников защищаются равным образом.
178
+ - 1. Увеличение уставного капитала общества допускается только после его полной
179
+ оплаты. 2. Увеличение уставного капитала общества может осуществляться за счет
180
+ имущества общества, и (или) за счет дополнительных вкладов участников общества,
181
+ и (или), если это не запрещено уставом общества, за счет вкладов третьих лиц,
182
+ принимаемых в общество. 3. Факт принятия решения общего собрания участников общества
183
+ об увеличении уставного капитала и состав участников общества, присутствовавших
184
+ при принятии указанного решения, факт принятия решения единственным участником
185
+ общества об увеличении уставного капитала должны быть подтверждены путем нотариального
186
+ удостоверения. (Дополнение пунктом - Федеральный закон от 30.03.2015 № 67-ФЗ )
187
+ (В редакции Федерального закона от 01.07.2021 № 267-ФЗ )
188
+ - '1. Договор простого товарищества прекращается вследствие: объявления кого-либо
189
+ из товарищей недееспособным, ограниченно дееспособным или безвестно отсутствующим,
190
+ если договором простого товарищества или последующим соглашением не предусмотрено
191
+ сохранение договора в отношениях между остальными товарищами; объявления кого-либо
192
+ из товарищей несостоятельным (банкротом), за изъятием, указанным в абзаце втором
193
+ настоящего пункта; смерти товарища или ликвидации либо реорганизации участвующего
194
+ в договоре простого товарищества юридического лица, если договором или последующим
195
+ соглашением не предусмотрено сохранение договора в отношениях между остальными
196
+ товарищами либо замещение умершего товарища (ликвидированного или реорганизованного
197
+ юридического лица) его наследниками (правопреемниками); отказа кого-либо из товарищей
198
+ от дальнейшего участия в бессрочном договоре простого товарищества, за изъятием,
199
+ указанным в абзаце втором настоящего пункта; расторжения договора простого товарищества,
200
+ заключенного с указанием срока, по требованию одного из товарищей в отношениях
201
+ между ним и остальными товарищами, за изъятием, указанным в абзаце втором настоящего
202
+ пункта; истечения срока договора простого товарищества; выдела доли товарища по
203
+ требованию его кредитора, за изъятием, указанным в абзаце втором настоящего пункта.
204
+ 2. При прекращении договора простого товарищества вещи, переданные в общее владение
205
+ и (или) пользование товарищей, возвращаются предоставившим их товарищам без вознаграждения,
206
+ если иное не предусмотрено соглашением сторон. С момента прекращения договора
207
+ простого товарищества его участники несут солидарную ответственность по неисполненным
208
+ общим обязательствам в отношении третьих лиц. Раздел имущества, находившегося
209
+ в общей собственности товарищей, и возникших у них общих прав требования осуществляется
210
+ в порядке, установленном статьей 252 настоящего Кодекса.'
211
+ - source_sentence: Компания «Электромонтаж» выполнила электромонтажные работы в офисе. Гарантийный
212
+ срок на работы – 6 месяцев. Через 7 месяцев обнаружен дефект проводки. Какой срок
213
+ исковой давности применяется в данном случае?
214
+ sentences:
215
+ - 1. Срок исковой давности для требований, предъявляемых в связи с ненадлежащим
216
+ качеством работы, выполненной по договору подряда, составляет один год, а в отношении
217
+ зданий и сооружений определяется по правилам статьи 196 настоящего Кодекса. 2.
218
+ Если в соответствии с договором подряда результат работы принят заказчиком по
219
+ частям, течение срока исковой давности начинается со дня приемки результата работы
220
+ в целом. 3. Если законом, иными правовыми актами или договором подряда установлен
221
+ гарантийный срок и заявление по поводу недостатков результата работы сделано в
222
+ пределах гарантийного срока, течен��е срока исковой давности, указанного в пункте
223
+ 1 настоящей статьи, начинается со дня заявления о недостатках.
224
+ - Изменение и исключение положений устава общества, устанавливающих порядок определения
225
+ размеров вкладов в имущество общества непропорционально размерам долей участников
226
+ общества, а также ограничения, связанные с внесением вкладов в имущество общества,
227
+ установленные для всех участников общества, осуществляются по решению общего собрания
228
+ участников общества, принятому всеми участниками общества единогласно. Изменение
229
+ и исключение положений устава общества, устанавливающих указанные ограничения
230
+ для определенного участника общества, осуществляются по решению общего собрания
231
+ участников общества, принятому большинством не менее двух третей голосов от общего
232
+ числа голосов участников общества, при условии, если участник общества, для которого
233
+ установлены такие ограничения, голосовал за принятие такого решения или дал письменное
234
+ согласие. 3. Вклады в имущество общества вносятся деньгами, если иное не предусмотрено
235
+ уставом общества или решением общего собрания участников общества. 4. Вклады в
236
+ имущество общества не изменяют размеры и номинальную стоимость долей участников
237
+ общества в уставном капитале общества.
238
+ - Средства транспорта и другое имущество, предоставленные государством или муниципальным
239
+ образованием на льготных условиях наследодателю в связи с его инвалидностью или
240
+ другими подобными обстоятельствами, входят в состав наследства и наследуются на
241
+ общих основаниях, установленных настоящим Кодексом.
242
+ pipeline_tag: sentence-similarity
243
+ library_name: sentence-transformers
244
+ metrics:
245
+ - cosine_accuracy@1
246
+ - cosine_accuracy@3
247
+ - cosine_accuracy@5
248
+ - cosine_accuracy@10
249
+ - cosine_precision@1
250
+ - cosine_precision@3
251
+ - cosine_precision@5
252
+ - cosine_precision@10
253
+ - cosine_recall@1
254
+ - cosine_recall@3
255
+ - cosine_recall@5
256
+ - cosine_recall@10
257
+ - cosine_ndcg@10
258
+ - cosine_mrr@10
259
+ - cosine_map@100
260
+ model-index:
261
+ - name: nomic v2 tuned
262
+ results:
263
+ - task:
264
+ type: information-retrieval
265
+ name: Information Retrieval
266
+ dataset:
267
+ name: dim 768
268
+ type: dim_768
269
+ metrics:
270
+ - type: cosine_accuracy@1
271
+ value: 0.007473841554559043
272
+ name: Cosine Accuracy@1
273
+ - type: cosine_accuracy@3
274
+ value: 0.02391629297458894
275
+ name: Cosine Accuracy@3
276
+ - type: cosine_accuracy@5
277
+ value: 0.04505658765748452
278
+ name: Cosine Accuracy@5
279
+ - type: cosine_accuracy@10
280
+ value: 0.1627162075592569
281
+ name: Cosine Accuracy@10
282
+ - type: cosine_precision@1
283
+ value: 0.007473841554559043
284
+ name: Cosine Precision@1
285
+ - type: cosine_precision@3
286
+ value: 0.007972097658196313
287
+ name: Cosine Precision@3
288
+ - type: cosine_precision@5
289
+ value: 0.009011317531496905
290
+ name: Cosine Precision@5
291
+ - type: cosine_precision@10
292
+ value: 0.01627162075592569
293
+ name: Cosine Precision@10
294
+ - type: cosine_recall@1
295
+ value: 0.007473841554559043
296
+ name: Cosine Recall@1
297
+ - type: cosine_recall@3
298
+ value: 0.02391629297458894
299
+ name: Cosine Recall@3
300
+ - type: cosine_recall@5
301
+ value: 0.04505658765748452
302
+ name: Cosine Recall@5
303
+ - type: cosine_recall@10
304
+ value: 0.1627162075592569
305
+ name: Cosine Recall@10
306
+ - type: cosine_ndcg@10
307
+ value: 0.062297857301005934
308
+ name: Cosine Ndcg@10
309
+ - type: cosine_mrr@10
310
+ value: 0.03354670218859832
311
+ name: Cosine Mrr@10
312
+ - type: cosine_map@100
313
+ value: 0.07460257096902427
314
+ name: Cosine Map@100
315
+ - task:
316
+ type: information-retrieval
317
+ name: Information Retrieval
318
+ dataset:
319
+ name: dim 512
320
+ type: dim_512
321
+ metrics:
322
+ - type: cosine_accuracy@1
323
+ value: 0.007687379884689302
324
+ name: Cosine Accuracy@1
325
+ - type: cosine_accuracy@3
326
+ value: 0.0241298313047192
327
+ name: Cosine Accuracy@3
328
+ - type: cosine_accuracy@5
329
+ value: 0.04740550928891736
330
+ name: Cosine Accuracy@5
331
+ - type: cosine_accuracy@10
332
+ value: 0.16335682254964767
333
+ name: Cosine Accuracy@10
334
+ - type: cosine_precision@1
335
+ value: 0.007687379884689302
336
+ name: Cosine Precision@1
337
+ - type: cosine_precision@3
338
+ value: 0.008043277101573066
339
+ name: Cosine Precision@3
340
+ - type: cosine_precision@5
341
+ value: 0.009481101857783473
342
+ name: Cosine Precision@5
343
+ - type: cosine_precision@10
344
+ value: 0.016335682254964765
345
+ name: Cosine Precision@10
346
+ - type: cosine_recall@1
347
+ value: 0.007687379884689302
348
+ name: Cosine Recall@1
349
+ - type: cosine_recall@3
350
+ value: 0.0241298313047192
351
+ name: Cosine Recall@3
352
+ - type: cosine_recall@5
353
+ value: 0.04740550928891736
354
+ name: Cosine Recall@5
355
+ - type: cosine_recall@10
356
+ value: 0.16335682254964767
357
+ name: Cosine Recall@10
358
+ - type: cosine_ndcg@10
359
+ value: 0.06272107849599674
360
+ name: Cosine Ndcg@10
361
+ - type: cosine_mrr@10
362
+ value: 0.033902345193184316
363
+ name: Cosine Mrr@10
364
+ - type: cosine_map@100
365
+ value: 0.07482255723763048
366
+ name: Cosine Map@100
367
+ - task:
368
+ type: information-retrieval
369
+ name: Information Retrieval
370
+ dataset:
371
+ name: dim 256
372
+ type: dim_256
373
+ metrics:
374
+ - type: cosine_accuracy@1
375
+ value: 0.007046764894298526
376
+ name: Cosine Accuracy@1
377
+ - type: cosine_accuracy@3
378
+ value: 0.02114029468289558
379
+ name: Cosine Accuracy@3
380
+ - type: cosine_accuracy@5
381
+ value: 0.04228058936579116
382
+ name: Cosine Accuracy@5
383
+ - type: cosine_accuracy@10
384
+ value: 0.15972667093743326
385
+ name: Cosine Accuracy@10
386
+ - type: cosine_precision@1
387
+ value: 0.007046764894298526
388
+ name: Cosine Precision@1
389
+ - type: cosine_precision@3
390
+ value: 0.007046764894298526
391
+ name: Cosine Precision@3
392
+ - type: cosine_precision@5
393
+ value: 0.008456117873158232
394
+ name: Cosine Precision@5
395
+ - type: cosine_precision@10
396
+ value: 0.01597266709374333
397
+ name: Cosine Precision@10
398
+ - type: cosine_recall@1
399
+ value: 0.007046764894298526
400
+ name: Cosine Recall@1
401
+ - type: cosine_recall@3
402
+ value: 0.02114029468289558
403
+ name: Cosine Recall@3
404
+ - type: cosine_recall@5
405
+ value: 0.04228058936579116
406
+ name: Cosine Recall@5
407
+ - type: cosine_recall@10
408
+ value: 0.15972667093743326
409
+ name: Cosine Recall@10
410
+ - type: cosine_ndcg@10
411
+ value: 0.060640590982987505
412
+ name: Cosine Ndcg@10
413
+ - type: cosine_mrr@10
414
+ value: 0.032313603069528726
415
+ name: Cosine Mrr@10
416
+ - type: cosine_map@100
417
+ value: 0.07275849298151062
418
+ name: Cosine Map@100
419
+ - task:
420
+ type: information-retrieval
421
+ name: Information Retrieval
422
+ dataset:
423
+ name: dim 128
424
+ type: dim_128
425
+ metrics:
426
+ - type: cosine_accuracy@1
427
+ value: 0.007046764894298526
428
+ name: Cosine Accuracy@1
429
+ - type: cosine_accuracy@3
430
+ value: 0.02114029468289558
431
+ name: Cosine Accuracy@3
432
+ - type: cosine_accuracy@5
433
+ value: 0.04356181934657271
434
+ name: Cosine Accuracy@5
435
+ - type: cosine_accuracy@10
436
+ value: 0.15054452274183217
437
+ name: Cosine Accuracy@10
438
+ - type: cosine_precision@1
439
+ value: 0.007046764894298526
440
+ name: Cosine Precision@1
441
+ - type: cosine_precision@3
442
+ value: 0.007046764894298526
443
+ name: Cosine Precision@3
444
+ - type: cosine_precision@5
445
+ value: 0.008712363869314543
446
+ name: Cosine Precision@5
447
+ - type: cosine_precision@10
448
+ value: 0.015054452274183215
449
+ name: Cosine Precision@10
450
+ - type: cosine_recall@1
451
+ value: 0.007046764894298526
452
+ name: Cosine Recall@1
453
+ - type: cosine_recall@3
454
+ value: 0.02114029468289558
455
+ name: Cosine Recall@3
456
+ - type: cosine_recall@5
457
+ value: 0.04356181934657271
458
+ name: Cosine Recall@5
459
+ - type: cosine_recall@10
460
+ value: 0.15054452274183217
461
+ name: Cosine Recall@10
462
+ - type: cosine_ndcg@10
463
+ value: 0.05786903277162588
464
+ name: Cosine Ndcg@10
465
+ - type: cosine_mrr@10
466
+ value: 0.031293788068291584
467
+ name: Cosine Mrr@10
468
+ - type: cosine_map@100
469
+ value: 0.07086725621297205
470
+ name: Cosine Map@100
471
+ - task:
472
+ type: information-retrieval
473
+ name: Information Retrieval
474
+ dataset:
475
+ name: dim 64
476
+ type: dim_64
477
+ metrics:
478
+ - type: cosine_accuracy@1
479
+ value: 0.0064061499039077515
480
+ name: Cosine Accuracy@1
481
+ - type: cosine_accuracy@3
482
+ value: 0.018791373051462737
483
+ name: Cosine Accuracy@3
484
+ - type: cosine_accuracy@5
485
+ value: 0.03544736280162289
486
+ name: Cosine Accuracy@5
487
+ - type: cosine_accuracy@10
488
+ value: 0.14072175955584026
489
+ name: Cosine Accuracy@10
490
+ - type: cosine_precision@1
491
+ value: 0.0064061499039077515
492
+ name: Cosine Precision@1
493
+ - type: cosine_precision@3
494
+ value: 0.0062637910171542445
495
+ name: Cosine Precision@3
496
+ - type: cosine_precision@5
497
+ value: 0.007089472560324579
498
+ name: Cosine Precision@5
499
+ - type: cosine_precision@10
500
+ value: 0.014072175955584028
501
+ name: Cosine Precision@10
502
+ - type: cosine_recall@1
503
+ value: 0.0064061499039077515
504
+ name: Cosine Recall@1
505
+ - type: cosine_recall@3
506
+ value: 0.018791373051462737
507
+ name: Cosine Recall@3
508
+ - type: cosine_recall@5
509
+ value: 0.03544736280162289
510
+ name: Cosine Recall@5
511
+ - type: cosine_recall@10
512
+ value: 0.14072175955584026
513
+ name: Cosine Recall@10
514
+ - type: cosine_ndcg@10
515
+ value: 0.05328704452737674
516
+ name: Cosine Ndcg@10
517
+ - type: cosine_mrr@10
518
+ value: 0.02835102650925841
519
+ name: Cosine Mrr@10
520
+ - type: cosine_map@100
521
+ value: 0.0644339747332149
522
+ name: Cosine Map@100
523
+ ---
524
+
525
+ # nomic v2 tuned
526
+
527
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [nomic-ai/nomic-embed-text-v2-moe](https://huggingface.co/nomic-ai/nomic-embed-text-v2-moe) on the json dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
528
+
529
+ ## Model Details
530
+
531
+ ### Model Description
532
+ - **Model Type:** Sentence Transformer
533
+ - **Base model:** [nomic-ai/nomic-embed-text-v2-moe](https://huggingface.co/nomic-ai/nomic-embed-text-v2-moe) <!-- at revision 45301cc35fd6988724c4698ee0d97981889ef7a0 -->
534
+ - **Maximum Sequence Length:** 512 tokens
535
+ - **Output Dimensionality:** 768 dimensions
536
+ - **Similarity Function:** Cosine Similarity
537
+ - **Training Dataset:**
538
+ - json
539
+ - **Language:** en
540
+ - **License:** apache-2.0
541
+
542
+ ### Model Sources
543
+
544
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
545
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
546
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
547
+
548
+ ### Full Model Architecture
549
+
550
+ ```
551
+ SentenceTransformer(
552
+ (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: NomicBertModel
553
+ (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
554
+ (2): Normalize()
555
+ )
556
+ ```
557
+
558
+ ## Usage
559
+
560
+ ### Direct Usage (Sentence Transformers)
561
+
562
+ First install the Sentence Transformers library:
563
+
564
+ ```bash
565
+ pip install -U sentence-transformers
566
+ ```
567
+
568
+ Then you can load this model and run inference.
569
+ ```python
570
+ from sentence_transformers import SentenceTransformer
571
+
572
+ # Download from the 🤗 Hub
573
+ model = SentenceTransformer("DGSMsRzJ6xC2JthtHG9W/nomic-v2-tuned-1.4")
574
+ # Run inference
575
+ sentences = [
576
+ 'Компания «Электромонтаж» выполнила электромонтажные работы в офисе. Гарантийный срок на работы – 6 месяцев. Через 7 месяцев обнаружен дефект проводки. Какой срок исковой давности применяется в данном случае?',
577
+ '1. Срок исковой давности для требований, предъявляемых в связи с ненадлежащим качеством работы, выполненной по договору подряда, составляет один год, а в отношении зданий и сооружений определяется по правилам статьи 196 настоящего Кодекса. 2. Если в соответствии с договором подряда результат работы принят заказчиком по частям, течение срока исковой давности начинается со дня приемки результата работы в целом. 3. Если законом, иными правовыми актами или договором подряда установлен гарантийный срок и заявление по поводу недостатков результата работы сделано в пределах гарантийного срока, течение срока исковой давности, указанного в пункте 1 настоящей статьи, начинается со дня заявления о недостатках.',
578
+ 'Изменение и исключение положений устава общества, устанавливающих порядок определения размеров вкладов в имущество общества непропорционально размерам долей участников общества, а также ограничения, связанные с внесением вкладов в имущество общества, установленные для всех участников общества, осуществляются по решению общего собрания участников общества, принятому всеми участниками общества единогласно. Изменение и исключение положений устава общества, устанавливающих указанные ограничения для определенного участника общества, осуществляются по решению общего собрания участников общества, принятому большинством не менее двух третей голосов от общего числа голосов участников общества, при условии, если участник общества, для которого установлены такие ограничения, голосовал за принятие такого решения или дал письменное согласие. 3. Вклады в имущество общества вносятся деньгами, если иное не предусмотрено уставом общества или решением общего собрания участников общества. 4. Вклады в имущество общества не изменяют размеры и номинальную стоимость долей участников общества в уставном капитале общества.',
579
+ ]
580
+ embeddings = model.encode(sentences)
581
+ print(embeddings.shape)
582
+ # [3, 768]
583
+
584
+ # Get the similarity scores for the embeddings
585
+ similarities = model.similarity(embeddings, embeddings)
586
+ print(similarities.shape)
587
+ # [3, 3]
588
+ ```
589
+
590
+ <!--
591
+ ### Direct Usage (Transformers)
592
+
593
+ <details><summary>Click to see the direct usage in Transformers</summary>
594
+
595
+ </details>
596
+ -->
597
+
598
+ <!--
599
+ ### Downstream Usage (Sentence Transformers)
600
+
601
+ You can finetune this model on your own dataset.
602
+
603
+ <details><summary>Click to expand</summary>
604
+
605
+ </details>
606
+ -->
607
+
608
+ <!--
609
+ ### Out-of-Scope Use
610
+
611
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
612
+ -->
613
+
614
+ ## Evaluation
615
+
616
+ ### Metrics
617
+
618
+ #### Information Retrieval
619
+
620
+ * Datasets: `dim_768`, `dim_512`, `dim_256`, `dim_128` and `dim_64`
621
+ * Evaluated with [<code>InformationRetrievalEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.InformationRetrievalEvaluator)
622
+
623
+ | Metric | dim_768 | dim_512 | dim_256 | dim_128 | dim_64 |
624
+ |:--------------------|:-----------|:-----------|:-----------|:-----------|:-----------|
625
+ | cosine_accuracy@1 | 0.0075 | 0.0077 | 0.007 | 0.007 | 0.0064 |
626
+ | cosine_accuracy@3 | 0.0239 | 0.0241 | 0.0211 | 0.0211 | 0.0188 |
627
+ | cosine_accuracy@5 | 0.0451 | 0.0474 | 0.0423 | 0.0436 | 0.0354 |
628
+ | cosine_accuracy@10 | 0.1627 | 0.1634 | 0.1597 | 0.1505 | 0.1407 |
629
+ | cosine_precision@1 | 0.0075 | 0.0077 | 0.007 | 0.007 | 0.0064 |
630
+ | cosine_precision@3 | 0.008 | 0.008 | 0.007 | 0.007 | 0.0063 |
631
+ | cosine_precision@5 | 0.009 | 0.0095 | 0.0085 | 0.0087 | 0.0071 |
632
+ | cosine_precision@10 | 0.0163 | 0.0163 | 0.016 | 0.0151 | 0.0141 |
633
+ | cosine_recall@1 | 0.0075 | 0.0077 | 0.007 | 0.007 | 0.0064 |
634
+ | cosine_recall@3 | 0.0239 | 0.0241 | 0.0211 | 0.0211 | 0.0188 |
635
+ | cosine_recall@5 | 0.0451 | 0.0474 | 0.0423 | 0.0436 | 0.0354 |
636
+ | cosine_recall@10 | 0.1627 | 0.1634 | 0.1597 | 0.1505 | 0.1407 |
637
+ | **cosine_ndcg@10** | **0.0623** | **0.0627** | **0.0606** | **0.0579** | **0.0533** |
638
+ | cosine_mrr@10 | 0.0335 | 0.0339 | 0.0323 | 0.0313 | 0.0284 |
639
+ | cosine_map@100 | 0.0746 | 0.0748 | 0.0728 | 0.0709 | 0.0644 |
640
+
641
+ <!--
642
+ ## Bias, Risks and Limitations
643
+
644
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
645
+ -->
646
+
647
+ <!--
648
+ ### Recommendations
649
+
650
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
651
+ -->
652
+
653
+ ## Training Details
654
+
655
+ ### Training Dataset
656
+
657
+ #### json
658
+
659
+ * Dataset: json
660
+ * Size: 42,140 training samples
661
+ * Columns: <code>anchor</code> and <code>positive</code>
662
+ * Approximate statistics based on the first 1000 samples:
663
+ | | anchor | positive |
664
+ |:--------|:------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|
665
+ | type | string | string |
666
+ | details | <ul><li>min: 10 tokens</li><li>mean: 40.81 tokens</li><li>max: 141 tokens</li></ul> | <ul><li>min: 34 tokens</li><li>mean: 226.88 tokens</li><li>max: 464 tokens</li></ul> |
667
+ * Samples:
668
+ | anchor | positive |
669
+ |:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
670
+ | <code>Решение совета директоров было обжаловано в суде, но суд оставил решение в силе. Изменяет ли обжалование решения в суде его юридическую силу, если суд его подтвердил?</code> | <code>8. Решения совета директоров (наблюдательного совета) общества, принятые с нарушением компетенции совета директоров (наблюдательного совета) общества, при отсутствии кворума для проведения заседания совета директоров (наблюдательного совета) общества, если наличие кворума в соответствии с настоящим Федеральным законом является обязательным условием проведения такого заседания, или без необходимого для принятия решения большинства голосов членов совета директоров (наблюдательного совета) общества, не имеют силы независимо от обжалования их в судебном порядке. (Дополнение пунктом - Федеральный закон от 19.07.2009 № 205-ФЗ )</code> |
671
+ | <code>В результате незаконных действий сотрудников прокуратуры, дело о банкротстве компании «Бета» было затянуто на год, что привело к значительным финансовым потерям. Может ли компания «Бета» требовать возмещения убытков, и если да, то на основании какой части статьи и в каком порядке?</code> | <code>1. Вред, причиненный гражданину в результате незаконного осуждения, незаконного привлечения к уголовной ответственности, незаконного применения в качестве меры пресечения заключения под стражу или подписки о невыезде, незаконного привлечения к административной ответственности в виде административного ареста, а также вред, причиненный юридическому лицу в результате незаконного привлечения к административной ответственности в виде административного приостановления деятельности, возмещается за счет казны Российской Федерации, а в случаях, предусмотренных законом, за счет казны субъекта Российской Федерации или казны муниципального образования в полном объеме независимо от вины должностных лиц органов дознания, предварительного следствия, прокуратуры и суда в порядке, установленном законом. (В редакции Федерального закона от 09.05.2005 № 45-ФЗ ) 2. Вред, причиненный гражданину или юридическому лицу в результате незаконной деятельности органов дознания, предварительного следствия, прокурату...</code> |
672
+ | <code>Какие статьи Федерального закона № 73-ФЗ касаются стоимости восстановительных работ или мероприятий по сохранению объектов культурного наследия?</code> | <code>В случаях, когда собственник культурных ценностей, отнесенных в соответствии с законом к особо ценным и охраняемым государством, бесхозяйственно содержит эти ценности, что грозит утратой ими своего значения, такие ценности по решению суда могут быть изъяты у собственника путем выкупа государством или продажи с публичных торгов. При выкупе культурных ценностей собственнику возмещается их стоимость в размере, установленном соглашением сторон, а в случае спора - судом. При продаже с публичных торгов собственнику передается вырученная от продажи сумма за вычетом расходов на проведение торгов, а также стоимости восстановительных работ в отношении объекта культурного наследия, или стоимости мероприятий, необходимых для сохранения объекта археологического наследия, указанных в статье 40 Федерального закона от 25 июня 2002 года № 73-ФЗ "Об объектах культурного наследия (памятниках истории и культуры) народов Российской Федерации". (В редакции Федерального закона от 22.10.2014 № 315-ФЗ )</code> |
673
+ * Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
674
+ ```json
675
+ {
676
+ "loss": "MultipleNegativesRankingLoss",
677
+ "matryoshka_dims": [
678
+ 768,
679
+ 512,
680
+ 256,
681
+ 128,
682
+ 64
683
+ ],
684
+ "matryoshka_weights": [
685
+ 1,
686
+ 1,
687
+ 1,
688
+ 1,
689
+ 1
690
+ ],
691
+ "n_dims_per_step": -1
692
+ }
693
+ ```
694
+
695
+ ### Training Hyperparameters
696
+ #### Non-Default Hyperparameters
697
+
698
+ - `eval_strategy`: epoch
699
+ - `per_device_train_batch_size`: 32
700
+ - `per_device_eval_batch_size`: 16
701
+ - `gradient_accumulation_steps`: 16
702
+ - `learning_rate`: 2e-05
703
+ - `num_train_epochs`: 4
704
+ - `lr_scheduler_type`: cosine
705
+ - `warmup_ratio`: 0.1
706
+ - `bf16`: True
707
+ - `tf32`: True
708
+ - `load_best_model_at_end`: True
709
+ - `optim`: adamw_torch_fused
710
+ - `batch_sampler`: no_duplicates
711
+
712
+ #### All Hyperparameters
713
+ <details><summary>Click to expand</summary>
714
+
715
+ - `overwrite_output_dir`: False
716
+ - `do_predict`: False
717
+ - `eval_strategy`: epoch
718
+ - `prediction_loss_only`: True
719
+ - `per_device_train_batch_size`: 32
720
+ - `per_device_eval_batch_size`: 16
721
+ - `per_gpu_train_batch_size`: None
722
+ - `per_gpu_eval_batch_size`: None
723
+ - `gradient_accumulation_steps`: 16
724
+ - `eval_accumulation_steps`: None
725
+ - `torch_empty_cache_steps`: None
726
+ - `learning_rate`: 2e-05
727
+ - `weight_decay`: 0.0
728
+ - `adam_beta1`: 0.9
729
+ - `adam_beta2`: 0.999
730
+ - `adam_epsilon`: 1e-08
731
+ - `max_grad_norm`: 1.0
732
+ - `num_train_epochs`: 4
733
+ - `max_steps`: -1
734
+ - `lr_scheduler_type`: cosine
735
+ - `lr_scheduler_kwargs`: {}
736
+ - `warmup_ratio`: 0.1
737
+ - `warmup_steps`: 0
738
+ - `log_level`: passive
739
+ - `log_level_replica`: warning
740
+ - `log_on_each_node`: True
741
+ - `logging_nan_inf_filter`: True
742
+ - `save_safetensors`: True
743
+ - `save_on_each_node`: False
744
+ - `save_only_model`: False
745
+ - `restore_callback_states_from_checkpoint`: False
746
+ - `no_cuda`: False
747
+ - `use_cpu`: False
748
+ - `use_mps_device`: False
749
+ - `seed`: 42
750
+ - `data_seed`: None
751
+ - `jit_mode_eval`: False
752
+ - `use_ipex`: False
753
+ - `bf16`: True
754
+ - `fp16`: False
755
+ - `fp16_opt_level`: O1
756
+ - `half_precision_backend`: auto
757
+ - `bf16_full_eval`: False
758
+ - `fp16_full_eval`: False
759
+ - `tf32`: True
760
+ - `local_rank`: 0
761
+ - `ddp_backend`: None
762
+ - `tpu_num_cores`: None
763
+ - `tpu_metrics_debug`: False
764
+ - `debug`: []
765
+ - `dataloader_drop_last`: False
766
+ - `dataloader_num_workers`: 0
767
+ - `dataloader_prefetch_factor`: None
768
+ - `past_index`: -1
769
+ - `disable_tqdm`: False
770
+ - `remove_unused_columns`: True
771
+ - `label_names`: None
772
+ - `load_best_model_at_end`: True
773
+ - `ignore_data_skip`: False
774
+ - `fsdp`: []
775
+ - `fsdp_min_num_params`: 0
776
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
777
+ - `fsdp_transformer_layer_cls_to_wrap`: None
778
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
779
+ - `deepspeed`: None
780
+ - `label_smoothing_factor`: 0.0
781
+ - `optim`: adamw_torch_fused
782
+ - `optim_args`: None
783
+ - `adafactor`: False
784
+ - `group_by_length`: False
785
+ - `length_column_name`: length
786
+ - `ddp_find_unused_parameters`: None
787
+ - `ddp_bucket_cap_mb`: None
788
+ - `ddp_broadcast_buffers`: False
789
+ - `dataloader_pin_memory`: True
790
+ - `dataloader_persistent_workers`: False
791
+ - `skip_memory_metrics`: True
792
+ - `use_legacy_prediction_loop`: False
793
+ - `push_to_hub`: False
794
+ - `resume_from_checkpoint`: None
795
+ - `hub_model_id`: None
796
+ - `hub_strategy`: every_save
797
+ - `hub_private_repo`: False
798
+ - `hub_always_push`: False
799
+ - `gradient_checkpointing`: False
800
+ - `gradient_checkpointing_kwargs`: None
801
+ - `include_inputs_for_metrics`: False
802
+ - `eval_do_concat_batches`: True
803
+ - `fp16_backend`: auto
804
+ - `push_to_hub_model_id`: None
805
+ - `push_to_hub_organization`: None
806
+ - `mp_parameters`:
807
+ - `auto_find_batch_size`: False
808
+ - `full_determinism`: False
809
+ - `torchdynamo`: None
810
+ - `ray_scope`: last
811
+ - `ddp_timeout`: 1800
812
+ - `torch_compile`: False
813
+ - `torch_compile_backend`: None
814
+ - `torch_compile_mode`: None
815
+ - `dispatch_batches`: None
816
+ - `split_batches`: None
817
+ - `include_tokens_per_second`: False
818
+ - `include_num_input_tokens_seen`: False
819
+ - `neftune_noise_alpha`: None
820
+ - `optim_target_modules`: None
821
+ - `batch_eval_metrics`: False
822
+ - `eval_on_start`: False
823
+ - `eval_use_gather_object`: False
824
+ - `prompts`: None
825
+ - `batch_sampler`: no_duplicates
826
+ - `multi_dataset_batch_sampler`: proportional
827
+
828
+ </details>
829
+
830
+ ### Training Logs
831
+ | Epoch | Step | Training Loss | dim_768_cosine_ndcg@10 | dim_512_cosine_ndcg@10 | dim_256_cosine_ndcg@10 | dim_128_cosine_ndcg@10 | dim_64_cosine_ndcg@10 |
832
+ |:----------:|:-------:|:-------------:|:----------------------:|:----------------------:|:----------------------:|:----------------------:|:---------------------:|
833
+ | 0.1215 | 10 | 2.1586 | - | - | - | - | - |
834
+ | 0.2430 | 20 | 1.5192 | - | - | - | - | - |
835
+ | 0.3645 | 30 | 1.2178 | - | - | - | - | - |
836
+ | 0.4860 | 40 | 1.0226 | - | - | - | - | - |
837
+ | 0.6074 | 50 | 0.8285 | - | - | - | - | - |
838
+ | 0.7289 | 60 | 0.8067 | - | - | - | - | - |
839
+ | 0.8504 | 70 | 0.8069 | - | - | - | - | - |
840
+ | 0.9719 | 80 | 0.6563 | - | - | - | - | - |
841
+ | 0.9962 | 82 | - | 0.0605 | 0.0586 | 0.0555 | 0.0519 | 0.0497 |
842
+ | 1.0926 | 90 | 0.5938 | - | - | - | - | - |
843
+ | 1.2141 | 100 | 0.5605 | - | - | - | - | - |
844
+ | 1.3356 | 110 | 0.4838 | - | - | - | - | - |
845
+ | 1.4571 | 120 | 0.5023 | - | - | - | - | - |
846
+ | 1.5786 | 130 | 0.4771 | - | - | - | - | - |
847
+ | 1.7001 | 140 | 0.5294 | - | - | - | - | - |
848
+ | 1.8216 | 150 | 0.4608 | - | - | - | - | - |
849
+ | 1.9431 | 160 | 0.4833 | - | - | - | - | - |
850
+ | **1.9916** | **164** | **-** | **0.0626** | **0.0646** | **0.0612** | **0.0578** | **0.0541** |
851
+ | 2.0638 | 170 | 0.4273 | - | - | - | - | - |
852
+ | 2.1853 | 180 | 0.3557 | - | - | - | - | - |
853
+ | 2.3068 | 190 | 0.3496 | - | - | - | - | - |
854
+ | 2.4282 | 200 | 0.3509 | - | - | - | - | - |
855
+ | 2.5497 | 210 | 0.3588 | - | - | - | - | - |
856
+ | 2.6712 | 220 | 0.3145 | - | - | - | - | - |
857
+ | 2.7927 | 230 | 0.3764 | - | - | - | - | - |
858
+ | 2.9142 | 240 | 0.3226 | - | - | - | - | - |
859
+ | 2.9992 | 247 | - | 0.0616 | 0.0621 | 0.0563 | 0.0554 | 0.0512 |
860
+ | 3.0357 | 250 | 0.3038 | - | - | - | - | - |
861
+ | 3.1572 | 260 | 0.2591 | - | - | - | - | - |
862
+ | 3.2787 | 270 | 0.2943 | - | - | - | - | - |
863
+ | 3.4002 | 280 | 0.2728 | - | - | - | - | - |
864
+ | 3.5216 | 290 | 0.2821 | - | - | - | - | - |
865
+ | 3.6431 | 300 | 0.2756 | - | - | - | - | - |
866
+ | 3.7646 | 310 | 0.2801 | - | - | - | - | - |
867
+ | 3.8861 | 320 | 0.2999 | - | - | - | - | - |
868
+ | 3.9833 | 328 | - | 0.0623 | 0.0627 | 0.0606 | 0.0579 | 0.0533 |
869
+
870
+ * The bold row denotes the saved checkpoint.
871
+
872
+ ### Framework Versions
873
+ - Python: 3.11.11
874
+ - Sentence Transformers: 3.4.1
875
+ - Transformers: 4.43.0
876
+ - PyTorch: 2.6.0+cu124
877
+ - Accelerate: 1.3.0
878
+ - Datasets: 3.4.0
879
+ - Tokenizers: 0.19.1
880
+
881
+ ## Citation
882
+
883
+ ### BibTeX
884
+
885
+ #### Sentence Transformers
886
+ ```bibtex
887
+ @inproceedings{reimers-2019-sentence-bert,
888
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
889
+ author = "Reimers, Nils and Gurevych, Iryna",
890
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
891
+ month = "11",
892
+ year = "2019",
893
+ publisher = "Association for Computational Linguistics",
894
+ url = "https://arxiv.org/abs/1908.10084",
895
+ }
896
+ ```
897
+
898
+ #### MatryoshkaLoss
899
+ ```bibtex
900
+ @misc{kusupati2024matryoshka,
901
+ title={Matryoshka Representation Learning},
902
+ author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
903
+ year={2024},
904
+ eprint={2205.13147},
905
+ archivePrefix={arXiv},
906
+ primaryClass={cs.LG}
907
+ }
908
+ ```
909
+
910
+ #### MultipleNegativesRankingLoss
911
+ ```bibtex
912
+ @misc{henderson2017efficient,
913
+ title={Efficient Natural Language Response Suggestion for Smart Reply},
914
+ author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
915
+ year={2017},
916
+ eprint={1705.00652},
917
+ archivePrefix={arXiv},
918
+ primaryClass={cs.CL}
919
+ }
920
+ ```
921
+
922
+ <!--
923
+ ## Glossary
924
+
925
+ *Clearly define terms in order to be accessible across audiences.*
926
+ -->
927
+
928
+ <!--
929
+ ## Model Card Authors
930
+
931
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
932
+ -->
933
+
934
+ <!--
935
+ ## Model Card Contact
936
+
937
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
938
+ -->
config.json ADDED
@@ -0,0 +1,74 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "nomic-ai/nomic-embed-text-v2-moe",
3
+ "activation_function": "gelu",
4
+ "add_pooling_layer": false,
5
+ "architectures": [
6
+ "NomicBertModel"
7
+ ],
8
+ "attn_pdrop": 0.0,
9
+ "auto_map": {
10
+ "AutoConfig": "nomic-ai/nomic-bert-2048--configuration_hf_nomic_bert.NomicBertConfig",
11
+ "AutoModel": "nomic-ai/nomic-bert-2048--modeling_hf_nomic_bert.NomicBertModel",
12
+ "AutoModelForMaskedLM": "nomic-ai/nomic-bert-2048--modeling_hf_nomic_bert.NomicBertForPreTraining",
13
+ "AutoModelForMultipleChoice": "nomic-ai/nomic-bert-2048--modeling_hf_nomic_bert.NomicBertForMultipleChoice",
14
+ "AutoModelForQuestionAnswering": "nomic-ai/nomic-bert-2048--modeling_hf_nomic_bert.NomicBertForQuestionAnswering",
15
+ "AutoModelForSequenceClassification": "nomic-ai/nomic-bert-2048--modeling_hf_nomic_bert.NomicBertForSequenceClassification",
16
+ "AutoModelForTokenClassification": "nomic-ai/nomic-bert-2048--modeling_hf_nomic_bert.NomicBertForTokenClassification"
17
+ },
18
+ "bos_token_id": null,
19
+ "causal": false,
20
+ "dense_seq_output": true,
21
+ "embd_pdrop": 0.1,
22
+ "eos_token_id": null,
23
+ "expert_choice_router": false,
24
+ "ffn_div": 1,
25
+ "fused_bias_fc": true,
26
+ "fused_dropout_add_ln": true,
27
+ "initializer_range": 0.02,
28
+ "layer_norm_epsilon": 1e-05,
29
+ "max_trained_positions": 2048,
30
+ "mlp_fc1_bias": true,
31
+ "mlp_fc2_bias": true,
32
+ "model_type": "nomic_bert",
33
+ "moe_every_n_layers": 2,
34
+ "moe_impl": "megablocks",
35
+ "moe_normalize_expert_weights": false,
36
+ "moe_resid_pdrop": 0.0,
37
+ "moe_top_k": 2,
38
+ "n_embd": 768,
39
+ "n_head": 12,
40
+ "n_inner": 3072,
41
+ "n_layer": 12,
42
+ "n_positions": 2048,
43
+ "num_experts": 8,
44
+ "num_shared_experts": 0,
45
+ "pad_token_id": 1,
46
+ "pad_vocab_size_multiple": 64,
47
+ "parallel_block": false,
48
+ "parallel_block_tied_norm": false,
49
+ "prenorm": false,
50
+ "qkv_proj_bias": true,
51
+ "reorder_and_upcast_attn": false,
52
+ "resid_pdrop": 0.0,
53
+ "rotary_emb_base": 10000,
54
+ "rotary_emb_fraction": 1.0,
55
+ "rotary_emb_interleaved": false,
56
+ "rotary_emb_scale_base": null,
57
+ "rotary_scaling_factor": null,
58
+ "router_aux_loss_coef": 0.1,
59
+ "scale_attn_by_inverse_layer_idx": false,
60
+ "scale_attn_weights": true,
61
+ "summary_activation": null,
62
+ "summary_first_dropout": 0.1,
63
+ "summary_proj_to_labels": true,
64
+ "summary_type": "cls_index",
65
+ "summary_use_proj": true,
66
+ "torch_dtype": "float32",
67
+ "transformers_version": "4.43.0",
68
+ "type_vocab_size": 1,
69
+ "use_cache": true,
70
+ "use_flash_attn": true,
71
+ "use_rms_norm": null,
72
+ "use_xentropy": true,
73
+ "vocab_size": 250048
74
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,20 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.4.1",
4
+ "transformers": "4.43.0",
5
+ "pytorch": "2.6.0+cu124"
6
+ },
7
+ "prompts": {
8
+ "query": "search_query: ",
9
+ "passage": "search_document: ",
10
+ "Classification": "classification: ",
11
+ "MultilabelClassification": "classification: ",
12
+ "Clustering": "clustering: ",
13
+ "PairClassification": "classification: ",
14
+ "STS": "classification: ",
15
+ "Summarization": "classification: ",
16
+ "Speed": "search_document: "
17
+ },
18
+ "default_prompt_name": null,
19
+ "similarity_fn_name": "cosine"
20
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:59ced5bd5f128597244d28b7cbb9d73319ae284fc4d0e58df1ee8e206679c8db
3
+ size 1901187232
modules.json ADDED
@@ -0,0 +1,20 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ },
14
+ {
15
+ "idx": 2,
16
+ "name": "2",
17
+ "path": "2_Normalize",
18
+ "type": "sentence_transformers.models.Normalize"
19
+ }
20
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 512,
3
+ "do_lower_case": false
4
+ }
sentencepiece.bpe.model ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
3
+ size 5069051
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": true,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:883b037111086fd4dfebbbc9b7cee11e1517b5e0c0514879478661440f137085
3
+ size 17082987
tokenizer_config.json ADDED
@@ -0,0 +1,54 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "250001": {
36
+ "content": "<mask>",
37
+ "lstrip": true,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": true,
46
+ "cls_token": "<s>",
47
+ "eos_token": "</s>",
48
+ "mask_token": "<mask>",
49
+ "model_max_length": 512,
50
+ "pad_token": "<pad>",
51
+ "sep_token": "</s>",
52
+ "tokenizer_class": "XLMRobertaTokenizer",
53
+ "unk_token": "<unk>"
54
+ }