Add new SentenceTransformer model
Browse files- .gitattributes +1 -0
- 1_Pooling/config.json +10 -0
- README.md +802 -0
- config.json +27 -0
- config_sentence_transformers.json +10 -0
- model.safetensors +3 -0
- modules.json +20 -0
- sentence_bert_config.json +4 -0
- sentencepiece.bpe.model +3 -0
- special_tokens_map.json +51 -0
- tokenizer.json +3 -0
- tokenizer_config.json +62 -0
.gitattributes
CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
|
|
33 |
*.zip filter=lfs diff=lfs merge=lfs -text
|
34 |
*.zst filter=lfs diff=lfs merge=lfs -text
|
35 |
*tfevents* filter=lfs diff=lfs merge=lfs -text
|
|
|
|
33 |
*.zip filter=lfs diff=lfs merge=lfs -text
|
34 |
*.zst filter=lfs diff=lfs merge=lfs -text
|
35 |
*tfevents* filter=lfs diff=lfs merge=lfs -text
|
36 |
+
tokenizer.json filter=lfs diff=lfs merge=lfs -text
|
1_Pooling/config.json
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"word_embedding_dimension": 768,
|
3 |
+
"pooling_mode_cls_token": false,
|
4 |
+
"pooling_mode_mean_tokens": true,
|
5 |
+
"pooling_mode_max_tokens": false,
|
6 |
+
"pooling_mode_mean_sqrt_len_tokens": false,
|
7 |
+
"pooling_mode_weightedmean_tokens": false,
|
8 |
+
"pooling_mode_lasttoken": false,
|
9 |
+
"include_prompt": true
|
10 |
+
}
|
README.md
ADDED
@@ -0,0 +1,802 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
tags:
|
3 |
+
- sentence-transformers
|
4 |
+
- sentence-similarity
|
5 |
+
- feature-extraction
|
6 |
+
- generated_from_trainer
|
7 |
+
- dataset_size:2954
|
8 |
+
- loss:MultipleNegativesRankingLoss
|
9 |
+
base_model: intfloat/multilingual-e5-base
|
10 |
+
widget:
|
11 |
+
- source_sentence: 'query: Mức trợ cấp một lần cho người có dưới 15 năm công tác được
|
12 |
+
tính như thế nào?'
|
13 |
+
sentences:
|
14 |
+
- 'passage: # 4804_2024_VBHN_BLĐTBXH_art14_16
|
15 |
+
|
16 |
+
|
17 |
+
Chương IV
|
18 |
+
|
19 |
+
|
20 |
+
TỔ CHỨC THỰC HIỆN VÀ ĐIỀU KHOẢN THI HÀNH[17]
|
21 |
+
|
22 |
+
|
23 |
+
Điều 14. Tổ chức thực hiện
|
24 |
+
|
25 |
+
|
26 |
+
1. Bộ Lao động - Thương binh và Xã hội chủ trì, phối hợp với Bộ Thông tin và Truyền
|
27 |
+
thông và các bộ, cơ quan liên quan tổ chức tuyên truyền về công tác người có công
|
28 |
+
với cách mạng.
|
29 |
+
|
30 |
+
|
31 |
+
2. Bộ Lao động - Thương binh và Xã hội chủ trì, phối hợp với Bộ Tài chính hướng
|
32 |
+
dẫn việc tổ chức thực hiện chi trả trợ cấp, phụ cấp và các chế độ ưu đãi người
|
33 |
+
có công với cách mạng đảm bảo đúng đối tượng, đầy đủ, kịp thời và phù hợp với
|
34 |
+
quy định hiện hành.
|
35 |
+
|
36 |
+
|
37 |
+
3. Bộ Lao động - Thương binh và...'
|
38 |
+
- 'passage: # 02_2020_UBTVQH14_chuong2_muc3_4
|
39 |
+
|
40 |
+
Điều 15. Chế độ đối với liệt sỹ
|
41 |
+
|
42 |
+
|
43 |
+
1. Tổ chức báo tử, truy điệu, an táng và ghi danh tại công trình ghi công liệt
|
44 |
+
sỹ.
|
45 |
+
|
46 |
+
|
47 |
+
2. Truy tặng Bằng "Tổ quốc ghi công" theo quy định của Chính phủ.
|
48 |
+
|
49 |
+
|
50 |
+
3. Hài cốt liệt sỹ được tìm kiếm, quy tập, xác định danh tính và an táng.
|
51 |
+
|
52 |
+
|
53 |
+
4. Liệt sỹ không còn thân nhân hưởng trợ cấp tuất hằng tháng theo quy định tại
|
54 |
+
khoản 3 Điều 16 của Pháp lệnh này thì người được giao, ủy quyền thờ cúng liệt
|
55 |
+
sỹ được hưởng trợ cấp thờ cúng liệt sỹ.
|
56 |
+
|
57 |
+
|
58 |
+
Điều 16. Chế độ ưu đãi đối với thân nhân của liệt sỹ
|
59 |
+
|
60 |
+
|
61 |
+
1. Cấp "Giấy chứng nhận gia đình liệt sĩ" theo...'
|
62 |
+
- 'passage: # 62_2011_QD_TTg_art5
|
63 |
+
|
64 |
+
|
65 |
+
Điều 5. Chế độ trợ cấp
|
66 |
+
|
67 |
+
|
68 |
+
1. Chế độ trợ cấp hàng tháng được quy định như sau:
|
69 |
+
|
70 |
+
|
71 |
+
a) Đối tượng quy định tại điểm a khoản 1 Điều 2 Quyết định này có từ đủ 15 năm
|
72 |
+
đến dưới 20 năm công tác được tính hưởng theo quy định tại Điều 4 Quyết định này
|
73 |
+
(bao gồm cả số đối tượng đã phục viên, xuất ngũ, thôi việc hiện đang công tác
|
74 |
+
ở xã có tham gia bảo hiểm xã hội bắt buộc nhưng khi tính nối thời gian phục vụ
|
75 |
+
trong quân đội, công an, cơ yếu với thời gian công tác ở xã mà không đủ điều kiện
|
76 |
+
hưởng chế độ hưu trí theo quy định) được hưởng chế độ trợ cấp hàng tháng theo
|
77 |
+
số năm công tá...'
|
78 |
+
- source_sentence: 'query: Tổ chức dịch vụ chi trả phải báo cáo cho cơ quan LĐTBXH
|
79 |
+
những gì?'
|
80 |
+
sentences:
|
81 |
+
- 'passage: # 55_2023_NĐ_CP_appendix1
|
82 |
+
|
83 |
+
|
84 |
+
PHỤ LỤC I
|
85 |
+
|
86 |
+
|
87 |
+
MỨC HƯỞNG TRỢ CẤP, PHỤ CẤP ƯU ĐÃI HẰNG THÁNG ĐỐI VỚI NGƯỜI CÓ CÔNG VỚI CÁCH MẠNG
|
88 |
+
VÀ THÂN NHÂN CỦA NGƯỜI CÓ CÔNG VỚI CÁCH MẠNG (Kèm theo Nghị định số 55/2023/NĐ-CP
|
89 |
+
ngày 21 tháng 7 năm 2023 của Chính phủ)
|
90 |
+
|
91 |
+
|
92 |
+
Đơn vị: đồng
|
93 |
+
|
94 |
+
|
95 |
+
| MỨC TRỢ CẤP, PHỤ CẤP ƯU ĐÃI HẰNG THÁNG | | | |
|
96 |
+
|
97 |
+
|---|---|---|---|
|
98 |
+
|
99 |
+
| STT | Đối tượng | Mức trợ cấp, phụ cấp | |
|
100 |
+
|
101 |
+
| Trợ cấp | Phụ cấp | | |
|
102 |
+
|
103 |
+
| 1 | Người hoạt động cách mạng trước ngày 01 tháng 01 năm 1945 và thân nhân | | |
|
104 |
+
|
105 |
+
| 1.1 | Người hoạt động cách mạng trước ngày 01 tháng 01 năm 1945: | | |
|
106 |
+
|
107 |
+
| | Diện thoát ly | 2.297.000 ...'
|
108 |
+
- 'passage: # 31_2011_QD_UBND_quy_dinh_chuong2_art3_5
|
109 |
+
|
110 |
+
|
111 |
+
Chương II
|
112 |
+
|
113 |
+
|
114 |
+
CHẾ ĐỘ MIỄN GIẢM CỤ THỂ
|
115 |
+
|
116 |
+
|
117 |
+
Điều 3. Phạm vi đối tượng
|
118 |
+
|
119 |
+
|
120 |
+
Đối tượng áp dụng chế độ miễn, giảm là người có công với cách mạng hiện đang gặp
|
121 |
+
hoàn cảnh thật sự khó khăn về nhà ở, đất ở theo quy định tại Khoản 1, Điều 1,
|
122 |
+
Quyết định số 117/2007/QĐ-TTg ngày 25/7/2007 về việc sửa đổi, bổ sung một số điều
|
123 |
+
của Quyết định số 118/QĐ-TTg ngày 27/02/1996 của Thủ tướng Chính phủ về việc hỗ
|
124 |
+
trợ người có công với cách mạng cải thiện nhà ở.
|
125 |
+
|
126 |
+
|
127 |
+
Điều 4. Miễn tiền sử dụng đất
|
128 |
+
|
129 |
+
|
130 |
+
Người có công với cách mạng khi được giao đất ở, được phép chuyển mục đích sử
|
131 |
+
dụng,...'
|
132 |
+
- 'passage: # 101_2018_TT_BTC_ch2_art15
|
133 |
+
|
134 |
+
Điều 15. Chi trả chế độ cho người thụ hưởng thông qua tổ chức dịch vụ chi trả
|
135 |
+
|
136 |
+
|
137 |
+
1. Việc lựa chọn tổ chức dịch vụ chi trả có kinh nghiệm, có mạng lưới điểm giao
|
138 |
+
dịch tại xã, phường, thị trấn, có thể đảm nhiệm việc chi trả tại nhà cho một số
|
139 |
+
đối tượng đặc thù, bảo đảm kịp thời và an toàn trong việc chi trả theo quy định
|
140 |
+
của Bộ trưởng Bộ LĐTBXH.
|
141 |
+
|
142 |
+
|
143 |
+
2. Việc chi trả thông qua tổ chức dịch vụ chi trả được lập thành hợp đồng giữa
|
144 |
+
cơ quan LĐTBXH (Sở LĐTBXH hoặc Phòng LĐTBXH tùy theo phân cấp của từng địa phương)
|
145 |
+
và tổ chức dịch vụ chi trả, trong đó phải ghi rõ phạm vi...'
|
146 |
+
- source_sentence: 'query: Quyền lợi người được hưởng chế độ bảo hiểm y tế thực hiện
|
147 |
+
theo quy định nào?'
|
148 |
+
sentences:
|
149 |
+
- 'passage: # 12_2012_QĐ_UBND_quy_dinh_chuong2_art3
|
150 |
+
|
151 |
+
|
152 |
+
Chương II
|
153 |
+
|
154 |
+
|
155 |
+
CÁC QUY ĐỊNH CỤ THỂ
|
156 |
+
|
157 |
+
|
158 |
+
Điều 3. Đối tượng tặng quà, gồm:
|
159 |
+
|
160 |
+
|
161 |
+
1. Nhóm đối tượng số 1:
|
162 |
+
|
163 |
+
|
164 |
+
1.1. Bà mẹ Việt Nam anh hùng đang hưởng trợ cấp nuôi dưỡng và phụ cấp hằng tháng.
|
165 |
+
|
166 |
+
|
167 |
+
1.2. Thương binh, người hưởng chính sách như thương binh bị suy giảm khả năng
|
168 |
+
lao động do thương tật từ 81% trở lên (bao gồm cả những thương binh loại B được
|
169 |
+
công nhận từ trước ngày 31 tháng 12 năm 1993) đang hưởng trợ cấp ưu đãi hằng tháng.
|
170 |
+
|
171 |
+
|
172 |
+
1.3. Bệnh binh bị suy giảm khả năng lao động do bệnh tật từ 81% trở lên đang hưởng
|
173 |
+
trợ cấp ưu đãi hằng tháng.
|
174 |
+
|
175 |
+
|
176 |
+
1.4. Thân nhân hai liệ...'
|
177 |
+
- 'passage: # 836_2024_VBHN_BLDTBXH_art2
|
178 |
+
|
179 |
+
|
180 |
+
Điều 2. Chế độ
|
181 |
+
|
182 |
+
|
183 |
+
1. Chế độ bảo hiểm y tế
|
184 |
+
|
185 |
+
|
186 |
+
a) Thanh niên xung phong được Nhà nước mua bảo hiểm y tế như đối với thanh niên
|
187 |
+
xung phong chống Mỹ cứu nước theo Quyết định số 290/2005/QĐ- TTg ngày 08 tháng
|
188 |
+
11 năm 2005 của Thủ tướng Chính phủ.
|
189 |
+
|
190 |
+
|
191 |
+
b) Quyền lợi của người được hưởng chế độ bảo hiểm y tế thực hiện theo quy định
|
192 |
+
hiện hành.
|
193 |
+
|
194 |
+
|
195 |
+
2. Trợ cấp mai táng
|
196 |
+
|
197 |
+
|
198 |
+
a) Thanh niên xung phong chết, người hoặc tổ chức lo mai táng được nhận trợ cấp
|
199 |
+
mai táng như các đối tượng tham gia bảo hiểm xã hội bắt buộc do Luật Bảo hiểm
|
200 |
+
xã hội quy định.
|
201 |
+
|
202 |
+
|
203 |
+
b) Trường hợp đối tượng chế từ ngày...'
|
204 |
+
- 'passage: # 4804_2024_VBHN_BLĐTBXH_art13
|
205 |
+
|
206 |
+
|
207 |
+
Điều 13. Các chế độ ưu đãi khác
|
208 |
+
|
209 |
+
|
210 |
+
1. Trợ cấp mai táng: mức chi theo quy định của pháp luật bảo hiểm xã hội về trợ
|
211 |
+
cấp mai táng.
|
212 |
+
|
213 |
+
|
214 |
+
2. Trợ cấp thờ cúng liệt sĩ: 1.400.000 đồng/01 liệt sĩ/01 năm.
|
215 |
+
|
216 |
+
|
217 |
+
3. Chi tiền ăn thêm ngày lễ, tết đối với thương binh, bệnh binh, người hưởng chính
|
218 |
+
sách như thương binh, thương binh loại B có tỷ lệ tổn thương cơ thể từ 81% trở
|
219 |
+
lên: Mức chi 200.000 đồng/01 người/01 ngày; số ngày được chi ăn thêm là ngày nghỉ
|
220 |
+
lễ, tết theo quy định của Bộ luật Lao động, ngày 27 tháng 7 và ngày 22 tháng 12
|
221 |
+
hằng năm.
|
222 |
+
|
223 |
+
|
224 |
+
4. Người có công với cách mạng đ...'
|
225 |
+
- source_sentence: 'query: Hoạt động thể thao phục vụ điều dưỡng được chi bao nhiêu
|
226 |
+
tiền mỗi người?'
|
227 |
+
sentences:
|
228 |
+
- 'passage: # 835_2024_VBHN_BLDTBXH_form_8
|
229 |
+
|
230 |
+
|
231 |
+
Mẫu số 818
|
232 |
+
|
233 |
+
|
234 |
+
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự do - Hạnh phúc ---------------
|
235 |
+
|
236 |
+
|
237 |
+
BIÊN BẢN XÁC NHẬN VÀ ĐỀ NGHỊ GIẢI QUYẾT CHẾ ĐỘ ĐỐI VỚI THANH NIÊN XUNG PHONG
|
238 |
+
|
239 |
+
|
240 |
+
Hôm nay, ngày...... tháng .... năm ...........
|
241 |
+
|
242 |
+
|
243 |
+
Tại UBND xã .....................huyện...........................tỉnh ..................
|
244 |
+
|
245 |
+
|
246 |
+
Chúng tôi, gồm:
|
247 |
+
|
248 |
+
|
249 |
+
1. Đại diện Đảng ủy xã (phường): ......... ...........................................
|
250 |
+
|
251 |
+
|
252 |
+
2. Đại diện UBND xã (phường): ......... ..............................................
|
253 |
+
|
254 |
+
|
255 |
+
3. Đại diện Mặt trận tổ quốc:...... . . . . . . . ...........'
|
256 |
+
- 'passage: # 12_2012_QĐ_UBND_quy_dinh_chuong2_art3
|
257 |
+
|
258 |
+
|
259 |
+
Chương II
|
260 |
+
|
261 |
+
|
262 |
+
CÁC QUY ĐỊNH CỤ THỂ
|
263 |
+
|
264 |
+
|
265 |
+
Điều 3. Đối tượng tặng quà, gồm:
|
266 |
+
|
267 |
+
|
268 |
+
1. Nhóm đối tượng số 1:
|
269 |
+
|
270 |
+
|
271 |
+
1.1. Bà mẹ Việt Nam anh hùng đang hưởng trợ cấp nuôi dưỡng và phụ cấp hằng tháng.
|
272 |
+
|
273 |
+
|
274 |
+
1.2. Thương binh, người hưởng chính sách như thương binh bị suy giảm khả năng
|
275 |
+
lao động do thương tật từ 81% trở lên (bao gồm cả những thương binh loại B được
|
276 |
+
công nhận từ trước ngày 31 tháng 12 năm 1993) đang hưởng trợ cấp ưu đãi hằng tháng.
|
277 |
+
|
278 |
+
|
279 |
+
1.3. Bệnh binh bị suy giảm khả năng lao động do bệnh tật từ 81% trở lên đang hưởng
|
280 |
+
trợ cấp ưu đãi hằng tháng.
|
281 |
+
|
282 |
+
|
283 |
+
1.4. Thân nhân hai liệ...'
|
284 |
+
- 'passage: # 101_2018_TT_BTC_ch2_art6
|
285 |
+
|
286 |
+
Điều 6. Chi chế độ điều dưỡng phục hồi sức khoẻ
|
287 |
+
|
288 |
+
|
289 |
+
1. Điều dưỡng tại nhà
|
290 |
+
|
291 |
+
|
292 |
+
a) Mức chi thực hiện theo quy định tại điểm b khoản 3 Điều 53 Nghị định số 31/2013/NĐ-CP;
|
293 |
+
|
294 |
+
|
295 |
+
b) Phương thức: chi trực tiếp cho đối tượng được hưởng.
|
296 |
+
|
297 |
+
|
298 |
+
2. Điều dưỡng tập trung
|
299 |
+
|
300 |
+
|
301 |
+
a) Mức chi thực hiện theo quy định tại điểm a khoản 3 Điều 53 Nghị định số 31/2013/NĐ-CP,
|
302 |
+
bao gồm:
|
303 |
+
|
304 |
+
|
305 |
+
- Tiền ăn trong thời gian điều dưỡng, gồm: ăn sáng, ăn 2 bữa chính (trưa và chiều)
|
306 |
+
và ăn bồi dưỡng thêm (nếu có);
|
307 |
+
|
308 |
+
|
309 |
+
- Thuốc bổ và thuốc chữa bệnh thông thường;
|
310 |
+
|
311 |
+
|
312 |
+
- Quà tặng cho đối tượng (bằng tiền hoặc hiện vật);
|
313 |
+
|
314 |
+
|
315 |
+
- Các ...'
|
316 |
+
- source_sentence: 'query: Giám đốc Sở Lao động - Thương binh và Xã hội TP HCM có
|
317 |
+
quyền gì về dự toán ngân sách?'
|
318 |
+
sentences:
|
319 |
+
- 'passage: # 55_2023_NĐ_CP_preamble
|
320 |
+
|
321 |
+
|
322 |
+
| CHÍNH PHỦ -------- | CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự do - Hạnh
|
323 |
+
phúc --------------- |
|
324 |
+
|
325 |
+
|---|---|
|
326 |
+
|
327 |
+
| Số: 55/2023/NĐ-CP | Hà Nội, ngày 21 tháng 7 năm 2023 |
|
328 |
+
|
329 |
+
|
330 |
+
NGHỊ ĐỊNH
|
331 |
+
|
332 |
+
|
333 |
+
SỬA ĐỔI, BỔ SUNG MỘT SỐ ĐIỀU CỦA NGHỊ ĐỊNH SỐ 75/2021/NĐ-CP NGÀY 24 THÁNG 7 NĂM
|
334 |
+
2021 CỦA CHÍNH PHỦ QUY ĐỊNH MỨC HƯỞNG TRỢ CẤP, PHỤ CẤP VÀ CÁC CHẾ ĐỘ ƯU ĐÃI NGƯỜI
|
335 |
+
CÓ CÔNG VỚI CÁCH MẠNG
|
336 |
+
|
337 |
+
|
338 |
+
Căn cứ Luật Tổ chức Chính phủ ngày 19 tháng 6 năm 2015; Luật sửa đổi, bổ sung
|
339 |
+
một số điều của Luật Tổ chức Chính phủ và Luật Tổ chức chính quyền địa phương
|
340 |
+
ngày 22 tháng 11 năm 2019;
|
341 |
+
|
342 |
+
|
343 |
+
Căn cứ Pháp l...'
|
344 |
+
- 'passage: # 49_2012_QĐ_UBND_regulation_ch2_art4_5
|
345 |
+
|
346 |
+
Chương II
|
347 |
+
|
348 |
+
|
349 |
+
QUYỀN HẠN, TRÁCH NHIỆM CỦA CÁC NGÀNH VÀ CÁC CẤP NGÂN SÁCH
|
350 |
+
|
351 |
+
|
352 |
+
Điều 4. Sở Lao động - Thương binh và Xã hội có nhiệm vụ
|
353 |
+
|
354 |
+
|
355 |
+
1. Thẩm tra dự toán kinh phí hàng năm thực hiện chính sách ưu đãi người có công
|
356 |
+
với cách mạng và người trực tiếp tham gia kháng chiến của Phòng Lao động - Thương
|
357 |
+
binh và Xã hội các quận - huyện, các đơn vị thuộc Sở Lao động - Thương binh và
|
358 |
+
Xã hội có sử dụng kinh phí thực hiện chính sách ưu đãi người có công với cách
|
359 |
+
mạng và người trực tiếp tham gia kháng chiến gồm: Ban Quản trang thành phố, Sở
|
360 |
+
Lao động - Thương binh và ...'
|
361 |
+
- 'passage: # 4804_2024_VBHN_BLĐTBXH_art1_2
|
362 |
+
|
363 |
+
|
364 |
+
Chương I
|
365 |
+
|
366 |
+
|
367 |
+
QUY ĐỊNH CHUNG
|
368 |
+
|
369 |
+
|
370 |
+
Điều 1. Phạm vi điều chỉnh[2]
|
371 |
+
|
372 |
+
|
373 |
+
Nghị định này quy định về mức hưởng trợ cấp, phụ cấp ưu đãi người có công với
|
374 |
+
cách mạng, thân nhân của người có công với cách mạng và các chế độ ưu đãi đối
|
375 |
+
với người có công với cách mạng từ nguồn ngân sách trung ương thực hiện Pháp lệnh
|
376 |
+
Ưu đãi người có công với cách mạng được bố trí trong dự toán ngân sách nhà nước
|
377 |
+
chi thường xuyên hằng năm của Bộ Lao động - Thương binh và Xã hội, Bộ Quốc phòng,
|
378 |
+
Bộ Công an.
|
379 |
+
|
380 |
+
|
381 |
+
Điều 2. Đối tượng áp dụng
|
382 |
+
|
383 |
+
|
384 |
+
Đối tượng áp dụng theo quy định tại Điều 2 Pháp lệnh số 02/20...'
|
385 |
+
pipeline_tag: sentence-similarity
|
386 |
+
library_name: sentence-transformers
|
387 |
+
metrics:
|
388 |
+
- cosine_accuracy@1
|
389 |
+
- cosine_accuracy@3
|
390 |
+
- cosine_accuracy@5
|
391 |
+
- cosine_accuracy@10
|
392 |
+
- cosine_precision@1
|
393 |
+
- cosine_precision@3
|
394 |
+
- cosine_precision@5
|
395 |
+
- cosine_precision@10
|
396 |
+
- cosine_recall@1
|
397 |
+
- cosine_recall@3
|
398 |
+
- cosine_recall@5
|
399 |
+
- cosine_recall@10
|
400 |
+
- cosine_ndcg@10
|
401 |
+
- cosine_mrr@10
|
402 |
+
- cosine_map@100
|
403 |
+
model-index:
|
404 |
+
- name: SentenceTransformer based on intfloat/multilingual-e5-base
|
405 |
+
results:
|
406 |
+
- task:
|
407 |
+
type: information-retrieval
|
408 |
+
name: Information Retrieval
|
409 |
+
dataset:
|
410 |
+
name: vietnamese eval
|
411 |
+
type: vietnamese-eval
|
412 |
+
metrics:
|
413 |
+
- type: cosine_accuracy@1
|
414 |
+
value: 0.24
|
415 |
+
name: Cosine Accuracy@1
|
416 |
+
- type: cosine_accuracy@3
|
417 |
+
value: 0.64
|
418 |
+
name: Cosine Accuracy@3
|
419 |
+
- type: cosine_accuracy@5
|
420 |
+
value: 0.82
|
421 |
+
name: Cosine Accuracy@5
|
422 |
+
- type: cosine_accuracy@10
|
423 |
+
value: 0.88
|
424 |
+
name: Cosine Accuracy@10
|
425 |
+
- type: cosine_precision@1
|
426 |
+
value: 0.24
|
427 |
+
name: Cosine Precision@1
|
428 |
+
- type: cosine_precision@3
|
429 |
+
value: 0.21333333333333332
|
430 |
+
name: Cosine Precision@3
|
431 |
+
- type: cosine_precision@5
|
432 |
+
value: 0.16399999999999998
|
433 |
+
name: Cosine Precision@5
|
434 |
+
- type: cosine_precision@10
|
435 |
+
value: 0.088
|
436 |
+
name: Cosine Precision@10
|
437 |
+
- type: cosine_recall@1
|
438 |
+
value: 0.24
|
439 |
+
name: Cosine Recall@1
|
440 |
+
- type: cosine_recall@3
|
441 |
+
value: 0.64
|
442 |
+
name: Cosine Recall@3
|
443 |
+
- type: cosine_recall@5
|
444 |
+
value: 0.82
|
445 |
+
name: Cosine Recall@5
|
446 |
+
- type: cosine_recall@10
|
447 |
+
value: 0.88
|
448 |
+
name: Cosine Recall@10
|
449 |
+
- type: cosine_ndcg@10
|
450 |
+
value: 0.5690341992760003
|
451 |
+
name: Cosine Ndcg@10
|
452 |
+
- type: cosine_mrr@10
|
453 |
+
value: 0.4673571428571428
|
454 |
+
name: Cosine Mrr@10
|
455 |
+
- type: cosine_map@100
|
456 |
+
value: 0.47461305536568693
|
457 |
+
name: Cosine Map@100
|
458 |
+
---
|
459 |
+
|
460 |
+
# SentenceTransformer based on intfloat/multilingual-e5-base
|
461 |
+
|
462 |
+
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [intfloat/multilingual-e5-base](https://huggingface.co/intfloat/multilingual-e5-base). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
|
463 |
+
|
464 |
+
## Model Details
|
465 |
+
|
466 |
+
### Model Description
|
467 |
+
- **Model Type:** Sentence Transformer
|
468 |
+
- **Base model:** [intfloat/multilingual-e5-base](https://huggingface.co/intfloat/multilingual-e5-base) <!-- at revision 835193815a3936a24a0ee7dc9e3d48c1fbb19c55 -->
|
469 |
+
- **Maximum Sequence Length:** 512 tokens
|
470 |
+
- **Output Dimensionality:** 768 dimensions
|
471 |
+
- **Similarity Function:** Cosine Similarity
|
472 |
+
<!-- - **Training Dataset:** Unknown -->
|
473 |
+
<!-- - **Language:** Unknown -->
|
474 |
+
<!-- - **License:** Unknown -->
|
475 |
+
|
476 |
+
### Model Sources
|
477 |
+
|
478 |
+
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
|
479 |
+
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
|
480 |
+
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
|
481 |
+
|
482 |
+
### Full Model Architecture
|
483 |
+
|
484 |
+
```
|
485 |
+
SentenceTransformer(
|
486 |
+
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
|
487 |
+
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
|
488 |
+
(2): Normalize()
|
489 |
+
)
|
490 |
+
```
|
491 |
+
|
492 |
+
## Usage
|
493 |
+
|
494 |
+
### Direct Usage (Sentence Transformers)
|
495 |
+
|
496 |
+
First install the Sentence Transformers library:
|
497 |
+
|
498 |
+
```bash
|
499 |
+
pip install -U sentence-transformers
|
500 |
+
```
|
501 |
+
|
502 |
+
Then you can load this model and run inference.
|
503 |
+
```python
|
504 |
+
from sentence_transformers import SentenceTransformer
|
505 |
+
|
506 |
+
# Download from the 🤗 Hub
|
507 |
+
model = SentenceTransformer("ng3owb/congbot-e5")
|
508 |
+
# Run inference
|
509 |
+
sentences = [
|
510 |
+
'query: Giám đốc Sở Lao động - Thương binh và Xã hội TP HCM có quyền gì về dự toán ngân sách?',
|
511 |
+
'passage: # 49_2012_QĐ_UBND_regulation_ch2_art4_5\nChương II\n\nQUYỀN HẠN, TRÁCH NHIỆM CỦA CÁC NGÀNH VÀ CÁC CẤP NGÂN SÁCH\n\nĐiều 4. Sở Lao động - Thương binh và Xã hội có nhiệm vụ\n\n1. Thẩm tra dự toán kinh phí hàng năm thực hiện chính sách ưu đãi người có công với cách mạng và người trực tiếp tham gia kháng chiến của Phòng Lao động - Thương binh và Xã hội các quận - huyện, các đơn vị thuộc Sở Lao động - Thương binh và Xã hội có sử dụng kinh phí thực hiện chính sách ưu đãi người có công với cách mạng và người trực tiếp tham gia kháng chiến gồm: Ban Quản trang thành phố, Sở Lao động - Thương binh và ...',
|
512 |
+
'passage: # 55_2023_NĐ_CP_preamble\n\n| CHÍNH PHỦ -------- | CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự do - Hạnh phúc --------------- |\n|---|---|\n| Số: 55/2023/NĐ-CP | Hà Nội, ngày 21 tháng 7 năm 2023 |\n\nNGHỊ ĐỊNH\n\nSỬA ĐỔI, BỔ SUNG MỘT SỐ ĐIỀU CỦA NGHỊ ĐỊNH SỐ 75/2021/NĐ-CP NGÀY 24 THÁNG 7 NĂM 2021 CỦA CHÍNH PHỦ QUY ĐỊNH MỨC HƯỞNG TRỢ CẤP, PHỤ CẤP VÀ CÁC CHẾ ĐỘ ƯU ĐÃI NGƯỜI CÓ CÔNG VỚI CÁCH MẠNG\n\nCăn cứ Luật Tổ chức Chính phủ ngày 19 tháng 6 năm 2015; Luật sửa đổi, bổ sung một số điều của Luật Tổ chức Chính phủ và Luật Tổ chức chính quyền địa phương ngày 22 tháng 11 năm 2019;\n\nCăn cứ Pháp l...',
|
513 |
+
]
|
514 |
+
embeddings = model.encode(sentences)
|
515 |
+
print(embeddings.shape)
|
516 |
+
# [3, 768]
|
517 |
+
|
518 |
+
# Get the similarity scores for the embeddings
|
519 |
+
similarities = model.similarity(embeddings, embeddings)
|
520 |
+
print(similarities.shape)
|
521 |
+
# [3, 3]
|
522 |
+
```
|
523 |
+
|
524 |
+
<!--
|
525 |
+
### Direct Usage (Transformers)
|
526 |
+
|
527 |
+
<details><summary>Click to see the direct usage in Transformers</summary>
|
528 |
+
|
529 |
+
</details>
|
530 |
+
-->
|
531 |
+
|
532 |
+
<!--
|
533 |
+
### Downstream Usage (Sentence Transformers)
|
534 |
+
|
535 |
+
You can finetune this model on your own dataset.
|
536 |
+
|
537 |
+
<details><summary>Click to expand</summary>
|
538 |
+
|
539 |
+
</details>
|
540 |
+
-->
|
541 |
+
|
542 |
+
<!--
|
543 |
+
### Out-of-Scope Use
|
544 |
+
|
545 |
+
*List how the model may foreseeably be misused and address what users ought not to do with the model.*
|
546 |
+
-->
|
547 |
+
|
548 |
+
## Evaluation
|
549 |
+
|
550 |
+
### Metrics
|
551 |
+
|
552 |
+
#### Information Retrieval
|
553 |
+
|
554 |
+
* Dataset: `vietnamese-eval`
|
555 |
+
* Evaluated with [<code>InformationRetrievalEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.InformationRetrievalEvaluator)
|
556 |
+
|
557 |
+
| Metric | Value |
|
558 |
+
|:--------------------|:----------|
|
559 |
+
| cosine_accuracy@1 | 0.24 |
|
560 |
+
| cosine_accuracy@3 | 0.64 |
|
561 |
+
| cosine_accuracy@5 | 0.82 |
|
562 |
+
| cosine_accuracy@10 | 0.88 |
|
563 |
+
| cosine_precision@1 | 0.24 |
|
564 |
+
| cosine_precision@3 | 0.2133 |
|
565 |
+
| cosine_precision@5 | 0.164 |
|
566 |
+
| cosine_precision@10 | 0.088 |
|
567 |
+
| cosine_recall@1 | 0.24 |
|
568 |
+
| cosine_recall@3 | 0.64 |
|
569 |
+
| cosine_recall@5 | 0.82 |
|
570 |
+
| cosine_recall@10 | 0.88 |
|
571 |
+
| **cosine_ndcg@10** | **0.569** |
|
572 |
+
| cosine_mrr@10 | 0.4674 |
|
573 |
+
| cosine_map@100 | 0.4746 |
|
574 |
+
|
575 |
+
<!--
|
576 |
+
## Bias, Risks and Limitations
|
577 |
+
|
578 |
+
*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
|
579 |
+
-->
|
580 |
+
|
581 |
+
<!--
|
582 |
+
### Recommendations
|
583 |
+
|
584 |
+
*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
|
585 |
+
-->
|
586 |
+
|
587 |
+
## Training Details
|
588 |
+
|
589 |
+
### Training Dataset
|
590 |
+
|
591 |
+
#### Unnamed Dataset
|
592 |
+
|
593 |
+
* Size: 2,954 training samples
|
594 |
+
* Columns: <code>sentence_0</code> and <code>sentence_1</code>
|
595 |
+
* Approximate statistics based on the first 1000 samples:
|
596 |
+
| | sentence_0 | sentence_1 |
|
597 |
+
|:--------|:----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|
|
598 |
+
| type | string | string |
|
599 |
+
| details | <ul><li>min: 14 tokens</li><li>mean: 21.9 tokens</li><li>max: 38 tokens</li></ul> | <ul><li>min: 93 tokens</li><li>mean: 189.96 tokens</li><li>max: 304 tokens</li></ul> |
|
600 |
+
* Samples:
|
601 |
+
| sentence_0 | sentence_1 |
|
602 |
+
|:----------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
|
603 |
+
| <code>query: Căn cứ pháp lý nào quy định về thủ tục hành nghề luật sư?</code> | <code>passage: # 1766_2020_QĐ_UBND_annex_luat_su_1<br>| III | LĨNH VỰC LUẬT SƯ (14 TTHC) | | | | | | | | |<br>| III.1 | Thủ tục hành chính cấp tỉnh (14 TTHC) | | | | | | | | |<br>| 1 | 1.002010 | Đăng ký hoạt động của tổ chức hành nghề luật sư | 09 ngày | 3 | Có | - Tiếp nhận và trả kết quả tại Trung tâm HCC tỉnh (Quầy Sở Tư pháp) - Cơ quan giải quyết: Sở Tư pháp | 50.000 đồng/hồ sơ | - Luật Luật sư năm 2006 - Nghị định số 123/2013/NĐ-CP ngày 14/10/2013 của Chính phủ - Thông tư số 02/2015/TT-BTP ngày 16/01/2015 của Bộ Tư pháp - Thông tư số 47/2019/TT-BTC ngày 05/8/2019 của Bộ Tài chính | |<br>|...</code> |
|
604 |
+
| <code>query: Mức hưởng trợ cấp 3.953.000 đồng dành cho thương binh có điều kiện gì?</code> | <code>passage: # 55_2023_NĐ_CP_appendix2<br><br>PHỤ LỤC II<br><br>MỨC HƯỞNG TRỢ CẤP ƯU ĐÃI HẰNG THÁNG ĐỐI VỚI THƯƠNG BINH, NGƯỜI HƯỞNG CHÍNH SÁCH NHƯ THƯƠNG BINH (Kèm theo Nghị định số 55/2023/NĐ-CP ngày 21 tháng 7 năm 2023 của Chính phủ)<br><br>Đơn vị tính: đồng<br><br>| STT | Tỷ lệ tổn thương cơ thể | Mức hưởng trợ cấp | STT | Tỷ lệ tổn thương cơ thể | Mức hưởng trợ cấp |<br>|---|---|---|---|---|---|<br>| 1 | 21% | 1.384.000 | 21 | 41% | 2.702.000 |<br>| 2 | 22% | 1.451.000 | 22 | 42% | 2.766.000 |<br>| 3 | 23% | 1.513.000 | 23 | 43% | 2.829.000 |<br>| 4 | 24% | 1.580.000 | 24 | 44% | 2.899.000 |<br>| 5 | 25% | 1.648.000 | 25 | 45% | 2.96...</code> |
|
605 |
+
| <code>query: Làm nhiệm vụ quốc tế ở Căm-pu-chi-a, giúp bạn Lào được hưởng chế độ trợ cấp gì?</code> | <code>passage: # 101_2018_TT_BTC_ch2_art4<br>Chương II<br><br>CHI THỰC HIỆN CHẾ ĐỘ ƯU ĐÃI NGƯỜI CÓ CÔNG VỚI CÁCH MẠNG VÀ NGƯỜI TRỰC TIẾP THAM GIA KHÁNG CHIẾN<br><br>Điều 4. Chi chế độ trợ cấp, phụ cấp<br><br>1. Chi chế độ trợ cấp hàng tháng, phụ cấp hàng tháng, trợ cấp một lần đối với các đối tượng theo quy định tại Điều 1 Pháp lệnh sửa đổi, bổ sung một số điều của Pháp lệnh ưu đãi người có công với cách mạng ngày 16 tháng 7 năm 2012.<br><br>2. Chi chế độ trợ cấp hàng tháng, trợ cấp một lần đối với người trực tiếp tham gia kháng chiến do ngành LĐTBXH quản lý, gồm:<br><br>a) Trợ cấp hàng tháng đối với:<br><br>- Cán bộ, chiến sĩ Công an nh...</code> |
|
606 |
+
* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
|
607 |
+
```json
|
608 |
+
{
|
609 |
+
"scale": 20.0,
|
610 |
+
"similarity_fct": "cos_sim"
|
611 |
+
}
|
612 |
+
```
|
613 |
+
|
614 |
+
### Training Hyperparameters
|
615 |
+
#### Non-Default Hyperparameters
|
616 |
+
|
617 |
+
- `eval_strategy`: steps
|
618 |
+
- `per_device_train_batch_size`: 16
|
619 |
+
- `per_device_eval_batch_size`: 16
|
620 |
+
- `multi_dataset_batch_sampler`: round_robin
|
621 |
+
|
622 |
+
#### All Hyperparameters
|
623 |
+
<details><summary>Click to expand</summary>
|
624 |
+
|
625 |
+
- `overwrite_output_dir`: False
|
626 |
+
- `do_predict`: False
|
627 |
+
- `eval_strategy`: steps
|
628 |
+
- `prediction_loss_only`: True
|
629 |
+
- `per_device_train_batch_size`: 16
|
630 |
+
- `per_device_eval_batch_size`: 16
|
631 |
+
- `per_gpu_train_batch_size`: None
|
632 |
+
- `per_gpu_eval_batch_size`: None
|
633 |
+
- `gradient_accumulation_steps`: 1
|
634 |
+
- `eval_accumulation_steps`: None
|
635 |
+
- `torch_empty_cache_steps`: None
|
636 |
+
- `learning_rate`: 5e-05
|
637 |
+
- `weight_decay`: 0.0
|
638 |
+
- `adam_beta1`: 0.9
|
639 |
+
- `adam_beta2`: 0.999
|
640 |
+
- `adam_epsilon`: 1e-08
|
641 |
+
- `max_grad_norm`: 1
|
642 |
+
- `num_train_epochs`: 3
|
643 |
+
- `max_steps`: -1
|
644 |
+
- `lr_scheduler_type`: linear
|
645 |
+
- `lr_scheduler_kwargs`: {}
|
646 |
+
- `warmup_ratio`: 0.0
|
647 |
+
- `warmup_steps`: 0
|
648 |
+
- `log_level`: passive
|
649 |
+
- `log_level_replica`: warning
|
650 |
+
- `log_on_each_node`: True
|
651 |
+
- `logging_nan_inf_filter`: True
|
652 |
+
- `save_safetensors`: True
|
653 |
+
- `save_on_each_node`: False
|
654 |
+
- `save_only_model`: False
|
655 |
+
- `restore_callback_states_from_checkpoint`: False
|
656 |
+
- `no_cuda`: False
|
657 |
+
- `use_cpu`: False
|
658 |
+
- `use_mps_device`: False
|
659 |
+
- `seed`: 42
|
660 |
+
- `data_seed`: None
|
661 |
+
- `jit_mode_eval`: False
|
662 |
+
- `use_ipex`: False
|
663 |
+
- `bf16`: False
|
664 |
+
- `fp16`: False
|
665 |
+
- `fp16_opt_level`: O1
|
666 |
+
- `half_precision_backend`: auto
|
667 |
+
- `bf16_full_eval`: False
|
668 |
+
- `fp16_full_eval`: False
|
669 |
+
- `tf32`: None
|
670 |
+
- `local_rank`: 0
|
671 |
+
- `ddp_backend`: None
|
672 |
+
- `tpu_num_cores`: None
|
673 |
+
- `tpu_metrics_debug`: False
|
674 |
+
- `debug`: []
|
675 |
+
- `dataloader_drop_last`: False
|
676 |
+
- `dataloader_num_workers`: 0
|
677 |
+
- `dataloader_prefetch_factor`: None
|
678 |
+
- `past_index`: -1
|
679 |
+
- `disable_tqdm`: False
|
680 |
+
- `remove_unused_columns`: True
|
681 |
+
- `label_names`: None
|
682 |
+
- `load_best_model_at_end`: False
|
683 |
+
- `ignore_data_skip`: False
|
684 |
+
- `fsdp`: []
|
685 |
+
- `fsdp_min_num_params`: 0
|
686 |
+
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
|
687 |
+
- `tp_size`: 0
|
688 |
+
- `fsdp_transformer_layer_cls_to_wrap`: None
|
689 |
+
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
|
690 |
+
- `deepspeed`: None
|
691 |
+
- `label_smoothing_factor`: 0.0
|
692 |
+
- `optim`: adamw_torch
|
693 |
+
- `optim_args`: None
|
694 |
+
- `adafactor`: False
|
695 |
+
- `group_by_length`: False
|
696 |
+
- `length_column_name`: length
|
697 |
+
- `ddp_find_unused_parameters`: None
|
698 |
+
- `ddp_bucket_cap_mb`: None
|
699 |
+
- `ddp_broadcast_buffers`: False
|
700 |
+
- `dataloader_pin_memory`: True
|
701 |
+
- `dataloader_persistent_workers`: False
|
702 |
+
- `skip_memory_metrics`: True
|
703 |
+
- `use_legacy_prediction_loop`: False
|
704 |
+
- `push_to_hub`: False
|
705 |
+
- `resume_from_checkpoint`: None
|
706 |
+
- `hub_model_id`: None
|
707 |
+
- `hub_strategy`: every_save
|
708 |
+
- `hub_private_repo`: None
|
709 |
+
- `hub_always_push`: False
|
710 |
+
- `gradient_checkpointing`: False
|
711 |
+
- `gradient_checkpointing_kwargs`: None
|
712 |
+
- `include_inputs_for_metrics`: False
|
713 |
+
- `include_for_metrics`: []
|
714 |
+
- `eval_do_concat_batches`: True
|
715 |
+
- `fp16_backend`: auto
|
716 |
+
- `push_to_hub_model_id`: None
|
717 |
+
- `push_to_hub_organization`: None
|
718 |
+
- `mp_parameters`:
|
719 |
+
- `auto_find_batch_size`: False
|
720 |
+
- `full_determinism`: False
|
721 |
+
- `torchdynamo`: None
|
722 |
+
- `ray_scope`: last
|
723 |
+
- `ddp_timeout`: 1800
|
724 |
+
- `torch_compile`: False
|
725 |
+
- `torch_compile_backend`: None
|
726 |
+
- `torch_compile_mode`: None
|
727 |
+
- `include_tokens_per_second`: False
|
728 |
+
- `include_num_input_tokens_seen`: False
|
729 |
+
- `neftune_noise_alpha`: None
|
730 |
+
- `optim_target_modules`: None
|
731 |
+
- `batch_eval_metrics`: False
|
732 |
+
- `eval_on_start`: False
|
733 |
+
- `use_liger_kernel`: False
|
734 |
+
- `eval_use_gather_object`: False
|
735 |
+
- `average_tokens_across_devices`: False
|
736 |
+
- `prompts`: None
|
737 |
+
- `batch_sampler`: batch_sampler
|
738 |
+
- `multi_dataset_batch_sampler`: round_robin
|
739 |
+
|
740 |
+
</details>
|
741 |
+
|
742 |
+
### Training Logs
|
743 |
+
| Epoch | Step | vietnamese-eval_cosine_ndcg@10 |
|
744 |
+
|:-----:|:----:|:------------------------------:|
|
745 |
+
| 1.0 | 93 | 0.5690 |
|
746 |
+
|
747 |
+
|
748 |
+
### Framework Versions
|
749 |
+
- Python: 3.11.11
|
750 |
+
- Sentence Transformers: 3.4.1
|
751 |
+
- Transformers: 4.51.3
|
752 |
+
- PyTorch: 2.6.0+cu124
|
753 |
+
- Accelerate: 1.5.2
|
754 |
+
- Datasets: 3.6.0
|
755 |
+
- Tokenizers: 0.21.1
|
756 |
+
|
757 |
+
## Citation
|
758 |
+
|
759 |
+
### BibTeX
|
760 |
+
|
761 |
+
#### Sentence Transformers
|
762 |
+
```bibtex
|
763 |
+
@inproceedings{reimers-2019-sentence-bert,
|
764 |
+
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
|
765 |
+
author = "Reimers, Nils and Gurevych, Iryna",
|
766 |
+
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
|
767 |
+
month = "11",
|
768 |
+
year = "2019",
|
769 |
+
publisher = "Association for Computational Linguistics",
|
770 |
+
url = "https://arxiv.org/abs/1908.10084",
|
771 |
+
}
|
772 |
+
```
|
773 |
+
|
774 |
+
#### MultipleNegativesRankingLoss
|
775 |
+
```bibtex
|
776 |
+
@misc{henderson2017efficient,
|
777 |
+
title={Efficient Natural Language Response Suggestion for Smart Reply},
|
778 |
+
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
|
779 |
+
year={2017},
|
780 |
+
eprint={1705.00652},
|
781 |
+
archivePrefix={arXiv},
|
782 |
+
primaryClass={cs.CL}
|
783 |
+
}
|
784 |
+
```
|
785 |
+
|
786 |
+
<!--
|
787 |
+
## Glossary
|
788 |
+
|
789 |
+
*Clearly define terms in order to be accessible across audiences.*
|
790 |
+
-->
|
791 |
+
|
792 |
+
<!--
|
793 |
+
## Model Card Authors
|
794 |
+
|
795 |
+
*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
|
796 |
+
-->
|
797 |
+
|
798 |
+
<!--
|
799 |
+
## Model Card Contact
|
800 |
+
|
801 |
+
*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
|
802 |
+
-->
|
config.json
ADDED
@@ -0,0 +1,27 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"architectures": [
|
3 |
+
"XLMRobertaModel"
|
4 |
+
],
|
5 |
+
"attention_probs_dropout_prob": 0.1,
|
6 |
+
"bos_token_id": 0,
|
7 |
+
"classifier_dropout": null,
|
8 |
+
"eos_token_id": 2,
|
9 |
+
"hidden_act": "gelu",
|
10 |
+
"hidden_dropout_prob": 0.1,
|
11 |
+
"hidden_size": 768,
|
12 |
+
"initializer_range": 0.02,
|
13 |
+
"intermediate_size": 3072,
|
14 |
+
"layer_norm_eps": 1e-05,
|
15 |
+
"max_position_embeddings": 514,
|
16 |
+
"model_type": "xlm-roberta",
|
17 |
+
"num_attention_heads": 12,
|
18 |
+
"num_hidden_layers": 12,
|
19 |
+
"output_past": true,
|
20 |
+
"pad_token_id": 1,
|
21 |
+
"position_embedding_type": "absolute",
|
22 |
+
"torch_dtype": "float32",
|
23 |
+
"transformers_version": "4.51.3",
|
24 |
+
"type_vocab_size": 1,
|
25 |
+
"use_cache": true,
|
26 |
+
"vocab_size": 250002
|
27 |
+
}
|
config_sentence_transformers.json
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"__version__": {
|
3 |
+
"sentence_transformers": "3.4.1",
|
4 |
+
"transformers": "4.51.3",
|
5 |
+
"pytorch": "2.6.0+cu124"
|
6 |
+
},
|
7 |
+
"prompts": {},
|
8 |
+
"default_prompt_name": null,
|
9 |
+
"similarity_fn_name": "cosine"
|
10 |
+
}
|
model.safetensors
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:4dfcc849cf84d05f1547fdae50723e7fcd3e1ed8be35d8ac2dfc7384df43dd0f
|
3 |
+
size 1112197096
|
modules.json
ADDED
@@ -0,0 +1,20 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
[
|
2 |
+
{
|
3 |
+
"idx": 0,
|
4 |
+
"name": "0",
|
5 |
+
"path": "",
|
6 |
+
"type": "sentence_transformers.models.Transformer"
|
7 |
+
},
|
8 |
+
{
|
9 |
+
"idx": 1,
|
10 |
+
"name": "1",
|
11 |
+
"path": "1_Pooling",
|
12 |
+
"type": "sentence_transformers.models.Pooling"
|
13 |
+
},
|
14 |
+
{
|
15 |
+
"idx": 2,
|
16 |
+
"name": "2",
|
17 |
+
"path": "2_Normalize",
|
18 |
+
"type": "sentence_transformers.models.Normalize"
|
19 |
+
}
|
20 |
+
]
|
sentence_bert_config.json
ADDED
@@ -0,0 +1,4 @@
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"max_seq_length": 512,
|
3 |
+
"do_lower_case": false
|
4 |
+
}
|
sentencepiece.bpe.model
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
|
3 |
+
size 5069051
|
special_tokens_map.json
ADDED
@@ -0,0 +1,51 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"bos_token": {
|
3 |
+
"content": "<s>",
|
4 |
+
"lstrip": false,
|
5 |
+
"normalized": false,
|
6 |
+
"rstrip": false,
|
7 |
+
"single_word": false
|
8 |
+
},
|
9 |
+
"cls_token": {
|
10 |
+
"content": "<s>",
|
11 |
+
"lstrip": false,
|
12 |
+
"normalized": false,
|
13 |
+
"rstrip": false,
|
14 |
+
"single_word": false
|
15 |
+
},
|
16 |
+
"eos_token": {
|
17 |
+
"content": "</s>",
|
18 |
+
"lstrip": false,
|
19 |
+
"normalized": false,
|
20 |
+
"rstrip": false,
|
21 |
+
"single_word": false
|
22 |
+
},
|
23 |
+
"mask_token": {
|
24 |
+
"content": "<mask>",
|
25 |
+
"lstrip": true,
|
26 |
+
"normalized": false,
|
27 |
+
"rstrip": false,
|
28 |
+
"single_word": false
|
29 |
+
},
|
30 |
+
"pad_token": {
|
31 |
+
"content": "<pad>",
|
32 |
+
"lstrip": false,
|
33 |
+
"normalized": false,
|
34 |
+
"rstrip": false,
|
35 |
+
"single_word": false
|
36 |
+
},
|
37 |
+
"sep_token": {
|
38 |
+
"content": "</s>",
|
39 |
+
"lstrip": false,
|
40 |
+
"normalized": false,
|
41 |
+
"rstrip": false,
|
42 |
+
"single_word": false
|
43 |
+
},
|
44 |
+
"unk_token": {
|
45 |
+
"content": "<unk>",
|
46 |
+
"lstrip": false,
|
47 |
+
"normalized": false,
|
48 |
+
"rstrip": false,
|
49 |
+
"single_word": false
|
50 |
+
}
|
51 |
+
}
|
tokenizer.json
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:883b037111086fd4dfebbbc9b7cee11e1517b5e0c0514879478661440f137085
|
3 |
+
size 17082987
|
tokenizer_config.json
ADDED
@@ -0,0 +1,62 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"added_tokens_decoder": {
|
3 |
+
"0": {
|
4 |
+
"content": "<s>",
|
5 |
+
"lstrip": false,
|
6 |
+
"normalized": false,
|
7 |
+
"rstrip": false,
|
8 |
+
"single_word": false,
|
9 |
+
"special": true
|
10 |
+
},
|
11 |
+
"1": {
|
12 |
+
"content": "<pad>",
|
13 |
+
"lstrip": false,
|
14 |
+
"normalized": false,
|
15 |
+
"rstrip": false,
|
16 |
+
"single_word": false,
|
17 |
+
"special": true
|
18 |
+
},
|
19 |
+
"2": {
|
20 |
+
"content": "</s>",
|
21 |
+
"lstrip": false,
|
22 |
+
"normalized": false,
|
23 |
+
"rstrip": false,
|
24 |
+
"single_word": false,
|
25 |
+
"special": true
|
26 |
+
},
|
27 |
+
"3": {
|
28 |
+
"content": "<unk>",
|
29 |
+
"lstrip": false,
|
30 |
+
"normalized": false,
|
31 |
+
"rstrip": false,
|
32 |
+
"single_word": false,
|
33 |
+
"special": true
|
34 |
+
},
|
35 |
+
"250001": {
|
36 |
+
"content": "<mask>",
|
37 |
+
"lstrip": true,
|
38 |
+
"normalized": false,
|
39 |
+
"rstrip": false,
|
40 |
+
"single_word": false,
|
41 |
+
"special": true
|
42 |
+
}
|
43 |
+
},
|
44 |
+
"bos_token": "<s>",
|
45 |
+
"clean_up_tokenization_spaces": true,
|
46 |
+
"cls_token": "<s>",
|
47 |
+
"eos_token": "</s>",
|
48 |
+
"extra_special_tokens": {},
|
49 |
+
"mask_token": "<mask>",
|
50 |
+
"max_length": 512,
|
51 |
+
"model_max_length": 512,
|
52 |
+
"pad_to_multiple_of": null,
|
53 |
+
"pad_token": "<pad>",
|
54 |
+
"pad_token_type_id": 0,
|
55 |
+
"padding_side": "right",
|
56 |
+
"sep_token": "</s>",
|
57 |
+
"stride": 0,
|
58 |
+
"tokenizer_class": "XLMRobertaTokenizer",
|
59 |
+
"truncation_side": "right",
|
60 |
+
"truncation_strategy": "longest_first",
|
61 |
+
"unk_token": "<unk>"
|
62 |
+
}
|