ng3owb commited on
Commit
4e007c3
·
verified ·
1 Parent(s): d647612

Add new SentenceTransformer model

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 768,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,802 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - sentence-similarity
5
+ - feature-extraction
6
+ - generated_from_trainer
7
+ - dataset_size:2954
8
+ - loss:MultipleNegativesRankingLoss
9
+ base_model: intfloat/multilingual-e5-base
10
+ widget:
11
+ - source_sentence: 'query: Mức trợ cấp một lần cho người có dưới 15 năm công tác được
12
+ tính như thế nào?'
13
+ sentences:
14
+ - 'passage: # 4804_2024_VBHN_BLĐTBXH_art14_16
15
+
16
+
17
+ Chương IV
18
+
19
+
20
+ TỔ CHỨC THỰC HIỆN VÀ ĐIỀU KHOẢN THI HÀNH[17]
21
+
22
+
23
+ Điều 14. Tổ chức thực hiện
24
+
25
+
26
+ 1. Bộ Lao động - Thương binh và Xã hội chủ trì, phối hợp với Bộ Thông tin và Truyền
27
+ thông và các bộ, cơ quan liên quan tổ chức tuyên truyền về công tác người có công
28
+ với cách mạng.
29
+
30
+
31
+ 2. Bộ Lao động - Thương binh và Xã hội chủ trì, phối hợp với Bộ Tài chính hướng
32
+ dẫn việc tổ chức thực hiện chi trả trợ cấp, phụ cấp và các chế độ ưu đãi người
33
+ có công với cách mạng đảm bảo đúng đối tượng, đầy đủ, kịp thời và phù hợp với
34
+ quy định hiện hành.
35
+
36
+
37
+ 3. Bộ Lao động - Thương binh và...'
38
+ - 'passage: # 02_2020_UBTVQH14_chuong2_muc3_4
39
+
40
+ Điều 15. Chế độ đối với liệt sỹ
41
+
42
+
43
+ 1. Tổ chức báo tử, truy điệu, an táng và ghi danh tại công trình ghi công liệt
44
+ sỹ.
45
+
46
+
47
+ 2. Truy tặng Bằng "Tổ quốc ghi công" theo quy định của Chính phủ.
48
+
49
+
50
+ 3. Hài cốt liệt sỹ được tìm kiếm, quy tập, xác định danh tính và an táng.
51
+
52
+
53
+ 4. Liệt sỹ không còn thân nhân hưởng trợ cấp tuất hằng tháng theo quy định tại
54
+ khoản 3 Điều 16 của Pháp lệnh này thì người được giao, ủy quyền thờ cúng liệt
55
+ sỹ được hưởng trợ cấp thờ cúng liệt sỹ.
56
+
57
+
58
+ Điều 16. Chế độ ưu đãi đối với thân nhân của liệt sỹ
59
+
60
+
61
+ 1. Cấp "Giấy chứng nhận gia đình liệt sĩ" theo...'
62
+ - 'passage: # 62_2011_QD_TTg_art5
63
+
64
+
65
+ Điều 5. Chế độ trợ cấp
66
+
67
+
68
+ 1. Chế độ trợ cấp hàng tháng được quy định như sau:
69
+
70
+
71
+ a) Đối tượng quy định tại điểm a khoản 1 Điều 2 Quyết định này có từ đủ 15 năm
72
+ đến dưới 20 năm công tác được tính hưởng theo quy định tại Điều 4 Quyết định này
73
+ (bao gồm cả số đối tượng đã phục viên, xuất ngũ, thôi việc hiện đang công tác
74
+ ở xã có tham gia bảo hiểm xã hội bắt buộc nhưng khi tính nối thời gian phục vụ
75
+ trong quân đội, công an, cơ yếu với thời gian công tác ở xã mà không đủ điều kiện
76
+ hưởng chế độ hưu trí theo quy định) được hưởng chế độ trợ cấp hàng tháng theo
77
+ số năm công tá...'
78
+ - source_sentence: 'query: Tổ chức dịch vụ chi trả phải báo cáo cho cơ quan LĐTBXH
79
+ những gì?'
80
+ sentences:
81
+ - 'passage: # 55_2023_NĐ_CP_appendix1
82
+
83
+
84
+ PHỤ LỤC I
85
+
86
+
87
+ MỨC HƯỞNG TRỢ CẤP, PHỤ CẤP ƯU ĐÃI HẰNG THÁNG ĐỐI VỚI NGƯỜI CÓ CÔNG VỚI CÁCH MẠNG
88
+ VÀ THÂN NHÂN CỦA NGƯỜI CÓ CÔNG VỚI CÁCH MẠNG (Kèm theo Nghị định số 55/2023/NĐ-CP
89
+ ngày 21 tháng 7 năm 2023 của Chính phủ)
90
+
91
+
92
+ Đơn vị: đồng
93
+
94
+
95
+ | MỨC TRỢ CẤP, PHỤ CẤP ƯU ĐÃI HẰNG THÁNG | | | |
96
+
97
+ |---|---|---|---|
98
+
99
+ | STT | Đối tượng | Mức trợ cấp, phụ cấp | |
100
+
101
+ | Trợ cấp | Phụ cấp | | |
102
+
103
+ | 1 | Người hoạt động cách mạng trước ngày 01 tháng 01 năm 1945 và thân nhân | | |
104
+
105
+ | 1.1 | Người hoạt động cách mạng trước ngày 01 tháng 01 năm 1945: | | |
106
+
107
+ | | Diện thoát ly | 2.297.000 ...'
108
+ - 'passage: # 31_2011_QD_UBND_quy_dinh_chuong2_art3_5
109
+
110
+
111
+ Chương II
112
+
113
+
114
+ CHẾ ĐỘ MIỄN GIẢM CỤ THỂ
115
+
116
+
117
+ Điều 3. Phạm vi đối tượng
118
+
119
+
120
+ Đối tượng áp dụng chế độ miễn, giảm là người có công với cách mạng hiện đang gặp
121
+ hoàn cảnh thật sự khó khăn về nhà ở, đất ở theo quy định tại Khoản 1, Điều 1,
122
+ Quyết định số 117/2007/QĐ-TTg ngày 25/7/2007 về việc sửa đổi, bổ sung một số điều
123
+ của Quyết định số 118/QĐ-TTg ngày 27/02/1996 của Thủ tướng Chính phủ về việc hỗ
124
+ trợ người có công với cách mạng cải thiện nhà ở.
125
+
126
+
127
+ Điều 4. Miễn tiền sử dụng đất
128
+
129
+
130
+ Người có công với cách mạng khi được giao đất ở, được phép chuyển mục đích sử
131
+ dụng,...'
132
+ - 'passage: # 101_2018_TT_BTC_ch2_art15
133
+
134
+ Điều 15. Chi trả chế độ cho người thụ hưởng thông qua tổ chức dịch vụ chi trả
135
+
136
+
137
+ 1. Việc lựa chọn tổ chức dịch vụ chi trả có kinh nghiệm, có mạng lưới điểm giao
138
+ dịch tại xã, phường, thị trấn, có thể đảm nhiệm việc chi trả tại nhà cho một số
139
+ đối tượng đặc thù, bảo đảm kịp thời và an toàn trong việc chi trả theo quy định
140
+ của Bộ trưởng Bộ LĐTBXH.
141
+
142
+
143
+ 2. Việc chi trả thông qua tổ chức dịch vụ chi trả được lập thành hợp đồng giữa
144
+ cơ quan LĐTBXH (Sở LĐTBXH hoặc Phòng LĐTBXH tùy theo phân cấp của từng địa phương)
145
+ và tổ chức dịch vụ chi trả, trong đó phải ghi rõ phạm vi...'
146
+ - source_sentence: 'query: Quyền lợi người được hưởng chế độ bảo hiểm y tế thực hiện
147
+ theo quy định nào?'
148
+ sentences:
149
+ - 'passage: # 12_2012_QĐ_UBND_quy_dinh_chuong2_art3
150
+
151
+
152
+ Chương II
153
+
154
+
155
+ CÁC QUY ĐỊNH CỤ THỂ
156
+
157
+
158
+ Điều 3. Đối tượng tặng quà, gồm:
159
+
160
+
161
+ 1. Nhóm đối tượng số 1:
162
+
163
+
164
+ 1.1. Bà mẹ Việt Nam anh hùng đang hưởng trợ cấp nuôi dưỡng và phụ cấp hằng tháng.
165
+
166
+
167
+ 1.2. Thương binh, người hưởng chính sách như thương binh bị suy giảm khả năng
168
+ lao động do thương tật từ 81% trở lên (bao gồm cả những thương binh loại B được
169
+ công nhận từ trước ngày 31 tháng 12 năm 1993) đang hưởng trợ cấp ưu đãi hằng tháng.
170
+
171
+
172
+ 1.3. Bệnh binh bị suy giảm khả năng lao động do bệnh tật từ 81% trở lên đang hưởng
173
+ trợ cấp ưu đãi hằng tháng.
174
+
175
+
176
+ 1.4. Thân nhân hai liệ...'
177
+ - 'passage: # 836_2024_VBHN_BLDTBXH_art2
178
+
179
+
180
+ Điều 2. Chế độ
181
+
182
+
183
+ 1. Chế độ bảo hiểm y tế
184
+
185
+
186
+ a) Thanh niên xung phong được Nhà nước mua bảo hiểm y tế như đối với thanh niên
187
+ xung phong chống Mỹ cứu nước theo Quyết định số 290/2005/QĐ- TTg ngày 08 tháng
188
+ 11 năm 2005 của Thủ tướng Chính phủ.
189
+
190
+
191
+ b) Quyền lợi của người được hưởng chế độ bảo hiểm y tế thực hiện theo quy định
192
+ hiện hành.
193
+
194
+
195
+ 2. Trợ cấp mai táng
196
+
197
+
198
+ a) Thanh niên xung phong chết, người hoặc tổ chức lo mai táng được nhận trợ cấp
199
+ mai táng như các đối tượng tham gia bảo hiểm xã hội bắt buộc do Luật Bảo hiểm
200
+ xã hội quy định.
201
+
202
+
203
+ b) Trường hợp đối tượng chế từ ngày...'
204
+ - 'passage: # 4804_2024_VBHN_BLĐTBXH_art13
205
+
206
+
207
+ Điều 13. Các chế độ ưu đãi khác
208
+
209
+
210
+ 1. Trợ cấp mai táng: mức chi theo quy định của pháp luật bảo hiểm xã hội về trợ
211
+ cấp mai táng.
212
+
213
+
214
+ 2. Trợ cấp thờ cúng liệt sĩ: 1.400.000 đồng/01 liệt sĩ/01 năm.
215
+
216
+
217
+ 3. Chi tiền ăn thêm ngày lễ, tết đối với thương binh, bệnh binh, người hưởng chính
218
+ sách như thương binh, thương binh loại B có tỷ lệ tổn thương cơ thể từ 81% trở
219
+ lên: Mức chi 200.000 đồng/01 người/01 ngày; số ngày được chi ăn thêm là ngày nghỉ
220
+ lễ, tết theo quy định của Bộ luật Lao động, ngày 27 tháng 7 và ngày 22 tháng 12
221
+ hằng năm.
222
+
223
+
224
+ 4. Người có công với cách mạng đ...'
225
+ - source_sentence: 'query: Hoạt động thể thao phục vụ điều dưỡng được chi bao nhiêu
226
+ tiền mỗi người?'
227
+ sentences:
228
+ - 'passage: # 835_2024_VBHN_BLDTBXH_form_8
229
+
230
+
231
+ Mẫu số 818
232
+
233
+
234
+ CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự do - Hạnh phúc ---------------
235
+
236
+
237
+ BIÊN BẢN XÁC NHẬN VÀ ĐỀ NGHỊ GIẢI QUYẾT CHẾ ĐỘ ĐỐI VỚI THANH NIÊN XUNG PHONG
238
+
239
+
240
+ Hôm nay, ngày...... tháng .... năm ...........
241
+
242
+
243
+ Tại UBND xã .....................huyện...........................tỉnh ..................
244
+
245
+
246
+ Chúng tôi, gồm:
247
+
248
+
249
+ 1. Đại diện Đảng ủy xã (phường): ......... ...........................................
250
+
251
+
252
+ 2. Đại diện UBND xã (phường): ......... ..............................................
253
+
254
+
255
+ 3. Đại diện Mặt trận tổ quốc:...... . . . . . . . ...........'
256
+ - 'passage: # 12_2012_QĐ_UBND_quy_dinh_chuong2_art3
257
+
258
+
259
+ Chương II
260
+
261
+
262
+ CÁC QUY ĐỊNH CỤ THỂ
263
+
264
+
265
+ Điều 3. Đối tượng tặng quà, gồm:
266
+
267
+
268
+ 1. Nhóm đối tượng số 1:
269
+
270
+
271
+ 1.1. Bà mẹ Việt Nam anh hùng đang hưởng trợ cấp nuôi dưỡng và phụ cấp hằng tháng.
272
+
273
+
274
+ 1.2. Thương binh, người hưởng chính sách như thương binh bị suy giảm khả năng
275
+ lao động do thương tật từ 81% trở lên (bao gồm cả những thương binh loại B được
276
+ công nhận từ trước ngày 31 tháng 12 năm 1993) đang hưởng trợ cấp ưu đãi hằng tháng.
277
+
278
+
279
+ 1.3. Bệnh binh bị suy giảm khả năng lao động do bệnh tật từ 81% trở lên đang hưởng
280
+ trợ cấp ưu đãi hằng tháng.
281
+
282
+
283
+ 1.4. Thân nhân hai liệ...'
284
+ - 'passage: # 101_2018_TT_BTC_ch2_art6
285
+
286
+ Điều 6. Chi chế độ điều dưỡng phục hồi sức khoẻ
287
+
288
+
289
+ 1. Điều dưỡng tại nhà
290
+
291
+
292
+ a) Mức chi thực hiện theo quy định tại điểm b khoản 3 Điều 53 Nghị định số 31/2013/NĐ-CP;
293
+
294
+
295
+ b) Phương thức: chi trực tiếp cho đối tượng được hưởng.
296
+
297
+
298
+ 2. Điều dưỡng tập trung
299
+
300
+
301
+ a) Mức chi thực hiện theo quy định tại điểm a khoản 3 Điều 53 Nghị định số 31/2013/NĐ-CP,
302
+ bao gồm:
303
+
304
+
305
+ - Tiền ăn trong thời gian điều dưỡng, gồm: ăn sáng, ăn 2 bữa chính (trưa và chiều)
306
+ và ăn bồi dưỡng thêm (nếu có);
307
+
308
+
309
+ - Thuốc bổ và thuốc chữa bệnh thông thường;
310
+
311
+
312
+ - Quà tặng cho đối tượng (bằng tiền hoặc hiện vật);
313
+
314
+
315
+ - Các ...'
316
+ - source_sentence: 'query: Giám đốc Sở Lao động - Thương binh và Xã hội TP HCM có
317
+ quyền gì về dự toán ngân sách?'
318
+ sentences:
319
+ - 'passage: # 55_2023_NĐ_CP_preamble
320
+
321
+
322
+ | CHÍNH PHỦ -------- | CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự do - Hạnh
323
+ phúc --------------- |
324
+
325
+ |---|---|
326
+
327
+ | Số: 55/2023/NĐ-CP | Hà Nội, ngày 21 tháng 7 năm 2023 |
328
+
329
+
330
+ NGHỊ ĐỊNH
331
+
332
+
333
+ SỬA ĐỔI, BỔ SUNG MỘT SỐ ĐIỀU CỦA NGHỊ ĐỊNH SỐ 75/2021/NĐ-CP NGÀY 24 THÁNG 7 NĂM
334
+ 2021 CỦA CHÍNH PHỦ QUY ĐỊNH MỨC HƯỞNG TRỢ CẤP, PHỤ CẤP VÀ CÁC CHẾ ĐỘ ƯU ĐÃI NGƯỜI
335
+ CÓ CÔNG VỚI CÁCH MẠNG
336
+
337
+
338
+ Căn cứ Luật Tổ chức Chính phủ ngày 19 tháng 6 năm 2015; Luật sửa đổi, bổ sung
339
+ một số điều của Luật Tổ chức Chính phủ và Luật Tổ chức chính quyền địa phương
340
+ ngày 22 tháng 11 năm 2019;
341
+
342
+
343
+ Căn cứ Pháp l...'
344
+ - 'passage: # 49_2012_QĐ_UBND_regulation_ch2_art4_5
345
+
346
+ Chương II
347
+
348
+
349
+ QUYỀN HẠN, TRÁCH NHIỆM CỦA CÁC NGÀNH VÀ CÁC CẤP NGÂN SÁCH
350
+
351
+
352
+ Điều 4. Sở Lao động - Thương binh và Xã hội có nhiệm vụ
353
+
354
+
355
+ 1. Thẩm tra dự toán kinh phí hàng năm thực hiện chính sách ưu đãi người có công
356
+ với cách mạng và người trực tiếp tham gia kháng chiến của Phòng Lao động - Thương
357
+ binh và Xã hội các quận - huyện, các đơn vị thuộc Sở Lao động - Thương binh và
358
+ Xã hội có sử dụng kinh phí thực hiện chính sách ưu đãi người có công với cách
359
+ mạng và người trực tiếp tham gia kháng chiến gồm: Ban Quản trang thành phố, Sở
360
+ Lao động - Thương binh và ...'
361
+ - 'passage: # 4804_2024_VBHN_BLĐTBXH_art1_2
362
+
363
+
364
+ Chương I
365
+
366
+
367
+ QUY ĐỊNH CHUNG
368
+
369
+
370
+ Điều 1. Phạm vi điều chỉnh[2]
371
+
372
+
373
+ Nghị định này quy định về mức hưởng trợ cấp, phụ cấp ưu đãi người có công với
374
+ cách mạng, thân nhân của người có công với cách mạng và các chế độ ưu đãi đối
375
+ với người có công với cách mạng từ nguồn ngân sách trung ương thực hiện Pháp lệnh
376
+ Ưu đãi người có công với cách mạng được bố trí trong dự toán ngân sách nhà nước
377
+ chi thường xuyên hằng năm của Bộ Lao động - Thương binh và Xã hội, Bộ Quốc phòng,
378
+ Bộ Công an.
379
+
380
+
381
+ Điều 2. Đối tượng áp dụng
382
+
383
+
384
+ Đối tượng áp dụng theo quy định tại Điều 2 Pháp lệnh số 02/20...'
385
+ pipeline_tag: sentence-similarity
386
+ library_name: sentence-transformers
387
+ metrics:
388
+ - cosine_accuracy@1
389
+ - cosine_accuracy@3
390
+ - cosine_accuracy@5
391
+ - cosine_accuracy@10
392
+ - cosine_precision@1
393
+ - cosine_precision@3
394
+ - cosine_precision@5
395
+ - cosine_precision@10
396
+ - cosine_recall@1
397
+ - cosine_recall@3
398
+ - cosine_recall@5
399
+ - cosine_recall@10
400
+ - cosine_ndcg@10
401
+ - cosine_mrr@10
402
+ - cosine_map@100
403
+ model-index:
404
+ - name: SentenceTransformer based on intfloat/multilingual-e5-base
405
+ results:
406
+ - task:
407
+ type: information-retrieval
408
+ name: Information Retrieval
409
+ dataset:
410
+ name: vietnamese eval
411
+ type: vietnamese-eval
412
+ metrics:
413
+ - type: cosine_accuracy@1
414
+ value: 0.24
415
+ name: Cosine Accuracy@1
416
+ - type: cosine_accuracy@3
417
+ value: 0.64
418
+ name: Cosine Accuracy@3
419
+ - type: cosine_accuracy@5
420
+ value: 0.82
421
+ name: Cosine Accuracy@5
422
+ - type: cosine_accuracy@10
423
+ value: 0.88
424
+ name: Cosine Accuracy@10
425
+ - type: cosine_precision@1
426
+ value: 0.24
427
+ name: Cosine Precision@1
428
+ - type: cosine_precision@3
429
+ value: 0.21333333333333332
430
+ name: Cosine Precision@3
431
+ - type: cosine_precision@5
432
+ value: 0.16399999999999998
433
+ name: Cosine Precision@5
434
+ - type: cosine_precision@10
435
+ value: 0.088
436
+ name: Cosine Precision@10
437
+ - type: cosine_recall@1
438
+ value: 0.24
439
+ name: Cosine Recall@1
440
+ - type: cosine_recall@3
441
+ value: 0.64
442
+ name: Cosine Recall@3
443
+ - type: cosine_recall@5
444
+ value: 0.82
445
+ name: Cosine Recall@5
446
+ - type: cosine_recall@10
447
+ value: 0.88
448
+ name: Cosine Recall@10
449
+ - type: cosine_ndcg@10
450
+ value: 0.5690341992760003
451
+ name: Cosine Ndcg@10
452
+ - type: cosine_mrr@10
453
+ value: 0.4673571428571428
454
+ name: Cosine Mrr@10
455
+ - type: cosine_map@100
456
+ value: 0.47461305536568693
457
+ name: Cosine Map@100
458
+ ---
459
+
460
+ # SentenceTransformer based on intfloat/multilingual-e5-base
461
+
462
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [intfloat/multilingual-e5-base](https://huggingface.co/intfloat/multilingual-e5-base). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
463
+
464
+ ## Model Details
465
+
466
+ ### Model Description
467
+ - **Model Type:** Sentence Transformer
468
+ - **Base model:** [intfloat/multilingual-e5-base](https://huggingface.co/intfloat/multilingual-e5-base) <!-- at revision 835193815a3936a24a0ee7dc9e3d48c1fbb19c55 -->
469
+ - **Maximum Sequence Length:** 512 tokens
470
+ - **Output Dimensionality:** 768 dimensions
471
+ - **Similarity Function:** Cosine Similarity
472
+ <!-- - **Training Dataset:** Unknown -->
473
+ <!-- - **Language:** Unknown -->
474
+ <!-- - **License:** Unknown -->
475
+
476
+ ### Model Sources
477
+
478
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
479
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
480
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
481
+
482
+ ### Full Model Architecture
483
+
484
+ ```
485
+ SentenceTransformer(
486
+ (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
487
+ (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
488
+ (2): Normalize()
489
+ )
490
+ ```
491
+
492
+ ## Usage
493
+
494
+ ### Direct Usage (Sentence Transformers)
495
+
496
+ First install the Sentence Transformers library:
497
+
498
+ ```bash
499
+ pip install -U sentence-transformers
500
+ ```
501
+
502
+ Then you can load this model and run inference.
503
+ ```python
504
+ from sentence_transformers import SentenceTransformer
505
+
506
+ # Download from the 🤗 Hub
507
+ model = SentenceTransformer("ng3owb/congbot-e5")
508
+ # Run inference
509
+ sentences = [
510
+ 'query: Giám đốc Sở Lao động - Thương binh và Xã hội TP HCM có quyền gì về dự toán ngân sách?',
511
+ 'passage: # 49_2012_QĐ_UBND_regulation_ch2_art4_5\nChương II\n\nQUYỀN HẠN, TRÁCH NHIỆM CỦA CÁC NGÀNH VÀ CÁC CẤP NGÂN SÁCH\n\nĐiều 4. Sở Lao động - Thương binh và Xã hội có nhiệm vụ\n\n1. Thẩm tra dự toán kinh phí hàng năm thực hiện chính sách ưu đãi người có công với cách mạng và người trực tiếp tham gia kháng chiến của Phòng Lao động - Thương binh và Xã hội các quận - huyện, các đơn vị thuộc Sở Lao động - Thương binh và Xã hội có sử dụng kinh phí thực hiện chính sách ưu đãi người có công với cách mạng và người trực tiếp tham gia kháng chiến gồm: Ban Quản trang thành phố, Sở Lao động - Thương binh và ...',
512
+ 'passage: # 55_2023_NĐ_CP_preamble\n\n| CHÍNH PHỦ -------- | CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự do - Hạnh phúc --------------- |\n|---|---|\n| Số: 55/2023/NĐ-CP | Hà Nội, ngày 21 tháng 7 năm 2023 |\n\nNGHỊ ĐỊNH\n\nSỬA ĐỔI, BỔ SUNG MỘT SỐ ĐIỀU CỦA NGHỊ ĐỊNH SỐ 75/2021/NĐ-CP NGÀY 24 THÁNG 7 NĂM 2021 CỦA CHÍNH PHỦ QUY ĐỊNH MỨC HƯỞNG TRỢ CẤP, PHỤ CẤP VÀ CÁC CHẾ ĐỘ ƯU ĐÃI NGƯỜI CÓ CÔNG VỚI CÁCH MẠNG\n\nCăn cứ Luật Tổ chức Chính phủ ngày 19 tháng 6 năm 2015; Luật sửa đổi, bổ sung một số điều của Luật Tổ chức Chính phủ và Luật Tổ chức chính quyền địa phương ngày 22 tháng 11 năm 2019;\n\nCăn cứ Pháp l...',
513
+ ]
514
+ embeddings = model.encode(sentences)
515
+ print(embeddings.shape)
516
+ # [3, 768]
517
+
518
+ # Get the similarity scores for the embeddings
519
+ similarities = model.similarity(embeddings, embeddings)
520
+ print(similarities.shape)
521
+ # [3, 3]
522
+ ```
523
+
524
+ <!--
525
+ ### Direct Usage (Transformers)
526
+
527
+ <details><summary>Click to see the direct usage in Transformers</summary>
528
+
529
+ </details>
530
+ -->
531
+
532
+ <!--
533
+ ### Downstream Usage (Sentence Transformers)
534
+
535
+ You can finetune this model on your own dataset.
536
+
537
+ <details><summary>Click to expand</summary>
538
+
539
+ </details>
540
+ -->
541
+
542
+ <!--
543
+ ### Out-of-Scope Use
544
+
545
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
546
+ -->
547
+
548
+ ## Evaluation
549
+
550
+ ### Metrics
551
+
552
+ #### Information Retrieval
553
+
554
+ * Dataset: `vietnamese-eval`
555
+ * Evaluated with [<code>InformationRetrievalEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.InformationRetrievalEvaluator)
556
+
557
+ | Metric | Value |
558
+ |:--------------------|:----------|
559
+ | cosine_accuracy@1 | 0.24 |
560
+ | cosine_accuracy@3 | 0.64 |
561
+ | cosine_accuracy@5 | 0.82 |
562
+ | cosine_accuracy@10 | 0.88 |
563
+ | cosine_precision@1 | 0.24 |
564
+ | cosine_precision@3 | 0.2133 |
565
+ | cosine_precision@5 | 0.164 |
566
+ | cosine_precision@10 | 0.088 |
567
+ | cosine_recall@1 | 0.24 |
568
+ | cosine_recall@3 | 0.64 |
569
+ | cosine_recall@5 | 0.82 |
570
+ | cosine_recall@10 | 0.88 |
571
+ | **cosine_ndcg@10** | **0.569** |
572
+ | cosine_mrr@10 | 0.4674 |
573
+ | cosine_map@100 | 0.4746 |
574
+
575
+ <!--
576
+ ## Bias, Risks and Limitations
577
+
578
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
579
+ -->
580
+
581
+ <!--
582
+ ### Recommendations
583
+
584
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
585
+ -->
586
+
587
+ ## Training Details
588
+
589
+ ### Training Dataset
590
+
591
+ #### Unnamed Dataset
592
+
593
+ * Size: 2,954 training samples
594
+ * Columns: <code>sentence_0</code> and <code>sentence_1</code>
595
+ * Approximate statistics based on the first 1000 samples:
596
+ | | sentence_0 | sentence_1 |
597
+ |:--------|:----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|
598
+ | type | string | string |
599
+ | details | <ul><li>min: 14 tokens</li><li>mean: 21.9 tokens</li><li>max: 38 tokens</li></ul> | <ul><li>min: 93 tokens</li><li>mean: 189.96 tokens</li><li>max: 304 tokens</li></ul> |
600
+ * Samples:
601
+ | sentence_0 | sentence_1 |
602
+ |:----------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
603
+ | <code>query: Căn cứ pháp lý nào quy định về thủ tục hành nghề luật sư?</code> | <code>passage: # 1766_2020_QĐ_UBND_annex_luat_su_1<br>| III | LĨNH VỰC LUẬT SƯ (14 TTHC) | | | | | | | | |<br>| III.1 | Thủ tục hành chính cấp tỉnh (14 TTHC) | | | | | | | | |<br>| 1 | 1.002010 | Đăng ký hoạt động của tổ chức hành nghề luật sư | 09 ngày | 3 | Có | - Tiếp nhận và trả kết quả tại Trung tâm HCC tỉnh (Quầy Sở Tư pháp) - Cơ quan giải quyết: Sở Tư pháp | 50.000 đồng/hồ sơ | - Luật Luật sư năm 2006 - Nghị định số 123/2013/NĐ-CP ngày 14/10/2013 của Chính phủ - Thông tư số 02/2015/TT-BTP ngày 16/01/2015 của Bộ Tư pháp - Thông tư số 47/2019/TT-BTC ngày 05/8/2019 của Bộ Tài chính | |<br>|...</code> |
604
+ | <code>query: Mức hưởng trợ cấp 3.953.000 đồng dành cho thương binh có điều kiện gì?</code> | <code>passage: # 55_2023_NĐ_CP_appendix2<br><br>PHỤ LỤC II<br><br>MỨC HƯỞNG TRỢ CẤP ƯU ĐÃI HẰNG THÁNG ĐỐI VỚI THƯƠNG BINH, NGƯỜI HƯỞNG CHÍNH SÁCH NHƯ THƯƠNG BINH (Kèm theo Nghị định số 55/2023/NĐ-CP ngày 21 tháng 7 năm 2023 của Chính phủ)<br><br>Đơn vị tính: đồng<br><br>| STT | Tỷ lệ tổn thương cơ thể | Mức hưởng trợ cấp | STT | Tỷ lệ tổn thương cơ thể | Mức hưởng trợ cấp |<br>|---|---|---|---|---|---|<br>| 1 | 21% | 1.384.000 | 21 | 41% | 2.702.000 |<br>| 2 | 22% | 1.451.000 | 22 | 42% | 2.766.000 |<br>| 3 | 23% | 1.513.000 | 23 | 43% | 2.829.000 |<br>| 4 | 24% | 1.580.000 | 24 | 44% | 2.899.000 |<br>| 5 | 25% | 1.648.000 | 25 | 45% | 2.96...</code> |
605
+ | <code>query: Làm nhiệm vụ quốc tế ở Căm-pu-chi-a, giúp bạn Lào được hưởng chế độ trợ cấp gì?</code> | <code>passage: # 101_2018_TT_BTC_ch2_art4<br>Chương II<br><br>CHI THỰC HIỆN CHẾ ĐỘ ƯU ĐÃI NGƯỜI CÓ CÔNG VỚI CÁCH MẠNG VÀ NGƯỜI TRỰC TIẾP THAM GIA KHÁNG CHIẾN<br><br>Điều 4. Chi chế độ trợ cấp, phụ cấp<br><br>1. Chi chế độ trợ cấp hàng tháng, phụ cấp hàng tháng, trợ cấp một lần đối với các đối tượng theo quy định tại Điều 1 Pháp lệnh sửa đổi, bổ sung một số điều của Pháp lệnh ưu đãi người có công với cách mạng ngày 16 tháng 7 năm 2012.<br><br>2. Chi chế độ trợ cấp hàng tháng, trợ cấp một lần đối với người trực tiếp tham gia kháng chiến do ngành LĐTBXH quản lý, gồm:<br><br>a) Trợ cấp hàng tháng đối với:<br><br>- Cán bộ, chiến sĩ Công an nh...</code> |
606
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
607
+ ```json
608
+ {
609
+ "scale": 20.0,
610
+ "similarity_fct": "cos_sim"
611
+ }
612
+ ```
613
+
614
+ ### Training Hyperparameters
615
+ #### Non-Default Hyperparameters
616
+
617
+ - `eval_strategy`: steps
618
+ - `per_device_train_batch_size`: 16
619
+ - `per_device_eval_batch_size`: 16
620
+ - `multi_dataset_batch_sampler`: round_robin
621
+
622
+ #### All Hyperparameters
623
+ <details><summary>Click to expand</summary>
624
+
625
+ - `overwrite_output_dir`: False
626
+ - `do_predict`: False
627
+ - `eval_strategy`: steps
628
+ - `prediction_loss_only`: True
629
+ - `per_device_train_batch_size`: 16
630
+ - `per_device_eval_batch_size`: 16
631
+ - `per_gpu_train_batch_size`: None
632
+ - `per_gpu_eval_batch_size`: None
633
+ - `gradient_accumulation_steps`: 1
634
+ - `eval_accumulation_steps`: None
635
+ - `torch_empty_cache_steps`: None
636
+ - `learning_rate`: 5e-05
637
+ - `weight_decay`: 0.0
638
+ - `adam_beta1`: 0.9
639
+ - `adam_beta2`: 0.999
640
+ - `adam_epsilon`: 1e-08
641
+ - `max_grad_norm`: 1
642
+ - `num_train_epochs`: 3
643
+ - `max_steps`: -1
644
+ - `lr_scheduler_type`: linear
645
+ - `lr_scheduler_kwargs`: {}
646
+ - `warmup_ratio`: 0.0
647
+ - `warmup_steps`: 0
648
+ - `log_level`: passive
649
+ - `log_level_replica`: warning
650
+ - `log_on_each_node`: True
651
+ - `logging_nan_inf_filter`: True
652
+ - `save_safetensors`: True
653
+ - `save_on_each_node`: False
654
+ - `save_only_model`: False
655
+ - `restore_callback_states_from_checkpoint`: False
656
+ - `no_cuda`: False
657
+ - `use_cpu`: False
658
+ - `use_mps_device`: False
659
+ - `seed`: 42
660
+ - `data_seed`: None
661
+ - `jit_mode_eval`: False
662
+ - `use_ipex`: False
663
+ - `bf16`: False
664
+ - `fp16`: False
665
+ - `fp16_opt_level`: O1
666
+ - `half_precision_backend`: auto
667
+ - `bf16_full_eval`: False
668
+ - `fp16_full_eval`: False
669
+ - `tf32`: None
670
+ - `local_rank`: 0
671
+ - `ddp_backend`: None
672
+ - `tpu_num_cores`: None
673
+ - `tpu_metrics_debug`: False
674
+ - `debug`: []
675
+ - `dataloader_drop_last`: False
676
+ - `dataloader_num_workers`: 0
677
+ - `dataloader_prefetch_factor`: None
678
+ - `past_index`: -1
679
+ - `disable_tqdm`: False
680
+ - `remove_unused_columns`: True
681
+ - `label_names`: None
682
+ - `load_best_model_at_end`: False
683
+ - `ignore_data_skip`: False
684
+ - `fsdp`: []
685
+ - `fsdp_min_num_params`: 0
686
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
687
+ - `tp_size`: 0
688
+ - `fsdp_transformer_layer_cls_to_wrap`: None
689
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
690
+ - `deepspeed`: None
691
+ - `label_smoothing_factor`: 0.0
692
+ - `optim`: adamw_torch
693
+ - `optim_args`: None
694
+ - `adafactor`: False
695
+ - `group_by_length`: False
696
+ - `length_column_name`: length
697
+ - `ddp_find_unused_parameters`: None
698
+ - `ddp_bucket_cap_mb`: None
699
+ - `ddp_broadcast_buffers`: False
700
+ - `dataloader_pin_memory`: True
701
+ - `dataloader_persistent_workers`: False
702
+ - `skip_memory_metrics`: True
703
+ - `use_legacy_prediction_loop`: False
704
+ - `push_to_hub`: False
705
+ - `resume_from_checkpoint`: None
706
+ - `hub_model_id`: None
707
+ - `hub_strategy`: every_save
708
+ - `hub_private_repo`: None
709
+ - `hub_always_push`: False
710
+ - `gradient_checkpointing`: False
711
+ - `gradient_checkpointing_kwargs`: None
712
+ - `include_inputs_for_metrics`: False
713
+ - `include_for_metrics`: []
714
+ - `eval_do_concat_batches`: True
715
+ - `fp16_backend`: auto
716
+ - `push_to_hub_model_id`: None
717
+ - `push_to_hub_organization`: None
718
+ - `mp_parameters`:
719
+ - `auto_find_batch_size`: False
720
+ - `full_determinism`: False
721
+ - `torchdynamo`: None
722
+ - `ray_scope`: last
723
+ - `ddp_timeout`: 1800
724
+ - `torch_compile`: False
725
+ - `torch_compile_backend`: None
726
+ - `torch_compile_mode`: None
727
+ - `include_tokens_per_second`: False
728
+ - `include_num_input_tokens_seen`: False
729
+ - `neftune_noise_alpha`: None
730
+ - `optim_target_modules`: None
731
+ - `batch_eval_metrics`: False
732
+ - `eval_on_start`: False
733
+ - `use_liger_kernel`: False
734
+ - `eval_use_gather_object`: False
735
+ - `average_tokens_across_devices`: False
736
+ - `prompts`: None
737
+ - `batch_sampler`: batch_sampler
738
+ - `multi_dataset_batch_sampler`: round_robin
739
+
740
+ </details>
741
+
742
+ ### Training Logs
743
+ | Epoch | Step | vietnamese-eval_cosine_ndcg@10 |
744
+ |:-----:|:----:|:------------------------------:|
745
+ | 1.0 | 93 | 0.5690 |
746
+
747
+
748
+ ### Framework Versions
749
+ - Python: 3.11.11
750
+ - Sentence Transformers: 3.4.1
751
+ - Transformers: 4.51.3
752
+ - PyTorch: 2.6.0+cu124
753
+ - Accelerate: 1.5.2
754
+ - Datasets: 3.6.0
755
+ - Tokenizers: 0.21.1
756
+
757
+ ## Citation
758
+
759
+ ### BibTeX
760
+
761
+ #### Sentence Transformers
762
+ ```bibtex
763
+ @inproceedings{reimers-2019-sentence-bert,
764
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
765
+ author = "Reimers, Nils and Gurevych, Iryna",
766
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
767
+ month = "11",
768
+ year = "2019",
769
+ publisher = "Association for Computational Linguistics",
770
+ url = "https://arxiv.org/abs/1908.10084",
771
+ }
772
+ ```
773
+
774
+ #### MultipleNegativesRankingLoss
775
+ ```bibtex
776
+ @misc{henderson2017efficient,
777
+ title={Efficient Natural Language Response Suggestion for Smart Reply},
778
+ author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
779
+ year={2017},
780
+ eprint={1705.00652},
781
+ archivePrefix={arXiv},
782
+ primaryClass={cs.CL}
783
+ }
784
+ ```
785
+
786
+ <!--
787
+ ## Glossary
788
+
789
+ *Clearly define terms in order to be accessible across audiences.*
790
+ -->
791
+
792
+ <!--
793
+ ## Model Card Authors
794
+
795
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
796
+ -->
797
+
798
+ <!--
799
+ ## Model Card Contact
800
+
801
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
802
+ -->
config.json ADDED
@@ -0,0 +1,27 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "XLMRobertaModel"
4
+ ],
5
+ "attention_probs_dropout_prob": 0.1,
6
+ "bos_token_id": 0,
7
+ "classifier_dropout": null,
8
+ "eos_token_id": 2,
9
+ "hidden_act": "gelu",
10
+ "hidden_dropout_prob": 0.1,
11
+ "hidden_size": 768,
12
+ "initializer_range": 0.02,
13
+ "intermediate_size": 3072,
14
+ "layer_norm_eps": 1e-05,
15
+ "max_position_embeddings": 514,
16
+ "model_type": "xlm-roberta",
17
+ "num_attention_heads": 12,
18
+ "num_hidden_layers": 12,
19
+ "output_past": true,
20
+ "pad_token_id": 1,
21
+ "position_embedding_type": "absolute",
22
+ "torch_dtype": "float32",
23
+ "transformers_version": "4.51.3",
24
+ "type_vocab_size": 1,
25
+ "use_cache": true,
26
+ "vocab_size": 250002
27
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.4.1",
4
+ "transformers": "4.51.3",
5
+ "pytorch": "2.6.0+cu124"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": "cosine"
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:4dfcc849cf84d05f1547fdae50723e7fcd3e1ed8be35d8ac2dfc7384df43dd0f
3
+ size 1112197096
modules.json ADDED
@@ -0,0 +1,20 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ },
14
+ {
15
+ "idx": 2,
16
+ "name": "2",
17
+ "path": "2_Normalize",
18
+ "type": "sentence_transformers.models.Normalize"
19
+ }
20
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 512,
3
+ "do_lower_case": false
4
+ }
sentencepiece.bpe.model ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
3
+ size 5069051
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": true,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:883b037111086fd4dfebbbc9b7cee11e1517b5e0c0514879478661440f137085
3
+ size 17082987
tokenizer_config.json ADDED
@@ -0,0 +1,62 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "250001": {
36
+ "content": "<mask>",
37
+ "lstrip": true,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": true,
46
+ "cls_token": "<s>",
47
+ "eos_token": "</s>",
48
+ "extra_special_tokens": {},
49
+ "mask_token": "<mask>",
50
+ "max_length": 512,
51
+ "model_max_length": 512,
52
+ "pad_to_multiple_of": null,
53
+ "pad_token": "<pad>",
54
+ "pad_token_type_id": 0,
55
+ "padding_side": "right",
56
+ "sep_token": "</s>",
57
+ "stride": 0,
58
+ "tokenizer_class": "XLMRobertaTokenizer",
59
+ "truncation_side": "right",
60
+ "truncation_strategy": "longest_first",
61
+ "unk_token": "<unk>"
62
+ }