SentenceTransformer
This is a sentence-transformers model trained. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Maximum Sequence Length: 256 tokens
- Output Dimensionality: 1024 dimensions
- Similarity Function: Cosine Similarity
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 256, 'do_lower_case': False}) with Transformer model: RobertaModel
(1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
'Nguồn tài chính và quản lý, sử dụng nguồn tài chính cho quản lý, bảo trì đường bộ được quy định như thế nào?',
'Điều 7. Quyết toán thu, chi Quỹ bảo trì đường bộ 1. Lập, xét duyệt báo cáo quyết toán thu, chi của Quỹ trung ương.\na) Quyết toán thu: Các đơn vị thu phí sử dụng đường bộ lập quyết toán thu gửi Hội đồng quản lý Quỹ trung ương và các khoản thu khác theo quy định hiện hành.\nb) Quyết toán chi: Các đơn vị được giao quản lý, sử dụng kinh phí của Quỹ trung ương lập báo cáo quyết toán việc sử dụng kinh phí theo mẫu biểu và yêu cầu của quyết toán chi ngân sách nhà nước theo quy định hiện hành.\nBáo cáo quyết toán kèm theo báo cáo danh mục công trình đã được giao kế hoạch trong năm đề nghị quyết toán, chi tiết theo nội dung chi quy định tại Điều 2 của Thông tư này.\nc) Nội dung, quy trình xét duyệt, thẩm định, thông báo quyết toán năm: Thực hiện theo hướng dẫn của Bộ Tài chính về xét duyệt, thẩm định và thông báo quyết toán năm đối với cơ quan hành chính, đơn vị sự nghiệp, tổ chức được nhà nước hỗ trợ và ngân sách các cấp và các quy định tại Thông tư này, trong đó:\n- Tổng cục Đường bộ Việt Nam có trách nhiệm xét duyệt quyết toán năm của các Cục quản lý đường bộ, các Sở Giao thông vận tải (đối với quốc lộ được uỷ quyền quản lý), các đơn vị khác; tổng hợp gửi Hội đồng quản lý Quỹ trung ương.\n- Hội đồng quản lý Quỹ trung ương có trách nhiệm phê duyệt quyết toán chi hoạt động của Văn phòng Quỹ trung ương.\n- Hội đồng quản lý Quỹ trung ương phê duyệt quyết toán thu, chi của Quỹ trung ương, gửi Bộ Giao thông vận tải. Bộ Giao thông vận tải có trách nhiệm thẩm định quyết toán năm của Quỹ trung ương và tổng hợp vào quyết toán của Bộ, gửi Bộ Tài chính.\n- Bộ Tài chính có trách nhiệm thẩm định quyết toán năm của Bộ Giao thông vận tải bao gồm quyết toán năm của Quỹ trung ương và tổng hợp vào báo cáo quyết toán ngân sách nhà nước theo quy định.\nd) Cuối năm, nguồn kinh phí của Quỹ trung ương còn dư, việc chuyển kinh phí sang năm sau thực hiện theo quy định của Luật Ngân sách nhà nước và các văn bản hướng dẫn.\n2. Lập, xét duyệt báo cáo quyết toán thu, chi của Quỹ địa phương.\na) Sở Tài chính chủ trì thống nhất với Sở Giao thông vận tải trình Uỷ ban nhân dân cấp tỉnh quy định về lập, xét duyệt, thẩm định, thông báo quyết toán năm đối với Quỹ địa phương cho phù hợp\n(bao gồm cả phần ngân sách trung ương bổ sung có mục tiêu cho ngân sách địa phương để cấp cho Quỹ địa phương) và tổng hợp chung vào báo cáo quyết toán ngân sách địa phương theo quy định của Luật Ngân sách nhà nước và các văn bản hướng dẫn.\nb) Cuối năm, nguồn kinh phí của Quỹ địa phương còn dư, việc chuyển kinh phí sang năm sau thực hiện theo quy định của Luật Ngân sách nhà nước và các văn bản hướng dẫn.\n3. Đối với nhiệm vụ chi có tính chất đầu tư phải thực hiện quyết toán theo quy định của Bộ Tài chính đối với việc quyết toán kinh phí sửa chữa, bảo trì, cải tạo, nâng cấp, mở rộng cơ sở vật chất từ nguồn chi thường xuyên theo quy định của Luật Ngân sách nhà nước và các văn bản hướng dẫn.',
'Điều 54. Trách nhiệm của Ủy ban thường vụ Quốc hội đối với hoạt động của đại biểu Quốc hội, Đoàn đại biểu Quốc hội 1. Hướng dẫn hoạt động của đại biểu Quốc hội, Đoàn đại biểu Quốc hội; xem xét báo cáo về tình hình hoạt động của Đoàn đại biểu Quốc hội và đại biểu Quốc hội.\n2. Tiếp nhận chất vấn của đại biểu Quốc hội để chuyển đến người bị chất vấn và quyết định thời hạn, hình thức trả lời chất vấn; tiếp nhận, tổng hợp kiến nghị của đại biểu Quốc hội; trình Quốc hội xem xét kiến nghị của đại biểu Quốc hội quy định tại khoản 3 Điều 33 của Luật này; xem xét, trả lời kiến nghị khác của đại biểu Quốc hội; khi cần thiết, cử đoàn giám sát, đoàn công tác về địa phương xem xét các vấn đề mà đại biểu Quốc hội, Đoàn đại biểu Quốc hội kiến nghị.\n3. Quy định hoạt động phí, các khoản phụ cấp, các chế độ khác và điều kiện bảo đảm hoạt động của đại biểu Quốc hội; quyết định phân bổ kinh phí hoạt động cho các Đoàn đại biểu Quốc hội.\n4. Xem xét đề nghị của Viện trưởng Viện kiểm sát nhân dân tối cao về việc bắt, giam, giữ, khởi tố đại biểu Quốc hội, người trúng cử đại biểu Quốc hội, khám xét nơi ở, nơi làm việc của đại biểu Quốc hội trong thời gian Quốc hội không họp; quyết định tạm đình chỉ việc thực hiện nhiệm vụ, quyền hạn của đại biểu Quốc hội trong trường hợp đại biểu Quốc hội bị khởi tố bị can; báo cáo với Quốc hội về việc đại biểu Quốc hội mất quyền đại biểu.\n5. Xem xét, quyết định việc chuyển đại biểu Quốc hội đến sinh hoạt tại Đoàn đại biểu Quốc hội khác trong trường hợp đại biểu chuyển công tác đến tỉnh, thành phố khác trực thuộc trung ương. Xem xét đề nghị của cơ quan, tổ chức, đơn vị nơi đại biểu Quốc hội công tác về việc bãi nhiệm, cách chức, buộc thôi việc, sa thải đại biểu Quốc hội.\n6. Quyết định việc đưa ra để Quốc hội bãi nhiệm hoặc cử tri nơi bầu ra đại biểu bãi nhiệm đại biểu Quốc hội theo đề nghị của Ủy ban trung ương Mặt trận Tổ quốc Việt Nam, Ủy ban Mặt trận Tổ quốc tỉnh, thành phố trực thuộc trung ương; quyết định việc chấp nhận đại biểu Quốc hội thôi làm nhiệm vụ đại biểu trong thời gian Quốc hội không họp và báo cáo với Quốc hội tại kỳ họp gần nhất.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Evaluation
Metrics
Binary Classification
- Evaluated with
BinaryClassificationEvaluator
Metric | Value |
---|---|
cosine_accuracy | 0.962 |
cosine_accuracy_threshold | 0.8041 |
cosine_f1 | 0.5773 |
cosine_f1_threshold | 0.7052 |
cosine_precision | 0.5833 |
cosine_recall | 0.5714 |
cosine_ap | 0.5963 |
cosine_mcc | 0.5558 |
Training Details
Training Dataset
Unnamed Dataset
- Size: 50,857 training samples
- Columns:
sentence_0
,sentence_1
, andlabel
- Approximate statistics based on the first 1000 samples:
sentence_0 sentence_1 label type string string float details - min: 8 tokens
- mean: 24.03 tokens
- max: 46 tokens
- min: 32 tokens
- mean: 236.63 tokens
- max: 256 tokens
- min: 0.0
- mean: 0.05
- max: 1.0
- Samples:
sentence_0 sentence_1 label Thủ tục ấn định thuế theo Nghị định 126 năm 2020 quy định như thế nào?
Điều 11. Xử lý hồ sơ thay đổi thông tin đăng ký thuế và trả kết quả Hồ sơ thay đổi thông tin đăng ký thuế được xử lý theo quy định tại Điều 41 Luật Quản lý thuế và các quy định sau:
1. Người nộp thuế thay đổi các thông tin đăng ký thuế theo quy định tại Khoản 1, Khoản 3 Điều 10 Thông tư này
a) Trường hợp thay đổi thông tin không có trên Giấy chứng nhận đăng ký thuế hoặc Thông báo mã số thuế:
Trong thời hạn 02 (hai) ngày làm việc kể từ ngày nhận đủ hồ sơ của người nộp thuế, cơ quan thuế quản lý trực tiếp người nộp thuế có trách nhiệm cập nhật các thông tin thay đổi vào Hệ thống ứng dụng đăng ký thuế.
b) Trường hợp thay đổi thông tin trên Giấy chứng nhận đăng ký thuế hoặc Thông báo mã số thuế:
Trong thời hạn 03 (ba) ngày làm việc kể từ ngày nhận đủ hồ sơ của người nộp thuế, cơ quan thuế quản lý trực tiếp có trách nhiệm cập nhật các thông tin thay đổi vào Hệ thống ứng dụng đăng ký thuế; đồng thời, ban hành Giấy chứng nhận đăng ký thuế hoặc Thông báo mã số thuế đã cập nhật thông tin thay đ...0.0
Công trình đường ngang gồm các hạng mục công trình nào?
Điều 29. Hồ sơ quản lý đường ngang Hồ sơ quản lý đường ngang bao gồm:
1. Hồ sơ quản lý đối với từng đường ngang:
a) Hồ sơ hoàn công công trình đường ngang và các công trình khác đã được cấp phép xây dựng trong khu vực đường ngang theo quy định của pháp luật về xây dựng.
Trường hợp hồ sơ hoàn công bị thất lạc hoặc thiếu, các chủ thể quy định tại Điều 59, Điều 60, Điều 61 của Thông tư này có trách nhiệm lập hồ sơ quản lý hiện trạng công trình đường ngang;
b) Giấy phép xây dựng đường ngang, quyết định đưa công trình đường ngang vào khai thác, sử dụng;
c) Biểu thống kê trạng thái kỹ thuật và lý lịch đường ngang;
d) Hồ sơ hành lang an toàn giao thông tại đường ngang theo quy định của pháp luật về quản lý, bảo vệ kết cấu hạ tầng đường sắt, có thể hiện các công trình kiến trúc, vật che khuất tầm nhìn trong phạm vi này; hồ sơ bảo vệ môi trường theo quy định của pháp luật về bảo vệ môi trường (nếu có);
đ) Sổ nhật ký theo dõi hoạt động của đường ngang đối với: Công trình đường ngang, thiết bị đư...0.0
Hợp đồng chỉ có dấu giáp lai thì có hiệu lực không?
Điều 4. Hồ sơ xin cấp giấy thông hành biên giới Hồ sơ gồm:
- 01 Tờ khai đề nghị cấp giấy thông hành biên giới theo mẫu TK6 ban hành theo Thông tư này, có xác nhận và dấu giáp lai ảnh của cơ quan quản lý trực tiếp;
- 02 ảnh 4x6cm, mặt nhìn thẳng, đầu để trần, phông nền màu trắng, trong đó 01 ảnh dán vào tờ khai.
Trường hợp cấp lại giấy thông hành biên giới thì phải nộp lại giấy thông hành đã được cấp, nếu giấy thông hành biên giới đó còn giá trị sử dụng.0.0
- Loss:
ContrastiveLoss
with these parameters:{ "distance_metric": "SiameseDistanceMetric.COSINE_DISTANCE", "margin": 0.5, "size_average": true }
Training Hyperparameters
Non-Default Hyperparameters
eval_strategy
: stepsnum_train_epochs
: 5fp16
: Truemulti_dataset_batch_sampler
: round_robin
All Hyperparameters
Click to expand
overwrite_output_dir
: Falsedo_predict
: Falseeval_strategy
: stepsprediction_loss_only
: Trueper_device_train_batch_size
: 8per_device_eval_batch_size
: 8per_gpu_train_batch_size
: Noneper_gpu_eval_batch_size
: Nonegradient_accumulation_steps
: 1eval_accumulation_steps
: Nonetorch_empty_cache_steps
: Nonelearning_rate
: 5e-05weight_decay
: 0.0adam_beta1
: 0.9adam_beta2
: 0.999adam_epsilon
: 1e-08max_grad_norm
: 1num_train_epochs
: 5max_steps
: -1lr_scheduler_type
: linearlr_scheduler_kwargs
: {}warmup_ratio
: 0.0warmup_steps
: 0log_level
: passivelog_level_replica
: warninglog_on_each_node
: Truelogging_nan_inf_filter
: Truesave_safetensors
: Truesave_on_each_node
: Falsesave_only_model
: Falserestore_callback_states_from_checkpoint
: Falseno_cuda
: Falseuse_cpu
: Falseuse_mps_device
: Falseseed
: 42data_seed
: Nonejit_mode_eval
: Falseuse_ipex
: Falsebf16
: Falsefp16
: Truefp16_opt_level
: O1half_precision_backend
: autobf16_full_eval
: Falsefp16_full_eval
: Falsetf32
: Nonelocal_rank
: 0ddp_backend
: Nonetpu_num_cores
: Nonetpu_metrics_debug
: Falsedebug
: []dataloader_drop_last
: Falsedataloader_num_workers
: 0dataloader_prefetch_factor
: Nonepast_index
: -1disable_tqdm
: Falseremove_unused_columns
: Truelabel_names
: Noneload_best_model_at_end
: Falseignore_data_skip
: Falsefsdp
: []fsdp_min_num_params
: 0fsdp_config
: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}tp_size
: 0fsdp_transformer_layer_cls_to_wrap
: Noneaccelerator_config
: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed
: Nonelabel_smoothing_factor
: 0.0optim
: adamw_torchoptim_args
: Noneadafactor
: Falsegroup_by_length
: Falselength_column_name
: lengthddp_find_unused_parameters
: Noneddp_bucket_cap_mb
: Noneddp_broadcast_buffers
: Falsedataloader_pin_memory
: Truedataloader_persistent_workers
: Falseskip_memory_metrics
: Trueuse_legacy_prediction_loop
: Falsepush_to_hub
: Falseresume_from_checkpoint
: Nonehub_model_id
: Nonehub_strategy
: every_savehub_private_repo
: Nonehub_always_push
: Falsegradient_checkpointing
: Falsegradient_checkpointing_kwargs
: Noneinclude_inputs_for_metrics
: Falseinclude_for_metrics
: []eval_do_concat_batches
: Truefp16_backend
: autopush_to_hub_model_id
: Nonepush_to_hub_organization
: Nonemp_parameters
:auto_find_batch_size
: Falsefull_determinism
: Falsetorchdynamo
: Noneray_scope
: lastddp_timeout
: 1800torch_compile
: Falsetorch_compile_backend
: Nonetorch_compile_mode
: Nonedispatch_batches
: Nonesplit_batches
: Noneinclude_tokens_per_second
: Falseinclude_num_input_tokens_seen
: Falseneftune_noise_alpha
: Noneoptim_target_modules
: Nonebatch_eval_metrics
: Falseeval_on_start
: Falseuse_liger_kernel
: Falseeval_use_gather_object
: Falseaverage_tokens_across_devices
: Falseprompts
: Nonebatch_sampler
: batch_samplermulti_dataset_batch_sampler
: round_robin
Training Logs
Epoch | Step | Training Loss | cosine_ap |
---|---|---|---|
0.0786 | 500 | 0.016 | - |
0.1573 | 1000 | 0.0063 | 0.1251 |
0.2359 | 1500 | 0.0056 | - |
0.3146 | 2000 | 0.0068 | 0.2134 |
0.3932 | 2500 | 0.007 | - |
0.4718 | 3000 | 0.0054 | 0.3513 |
0.5505 | 3500 | 0.0056 | - |
0.6291 | 4000 | 0.0054 | 0.3717 |
0.7078 | 4500 | 0.0051 | - |
0.7864 | 5000 | 0.0051 | 0.4103 |
0.8651 | 5500 | 0.005 | - |
0.9437 | 6000 | 0.0052 | 0.4910 |
1.0 | 6358 | - | 0.4739 |
1.0223 | 6500 | 0.005 | - |
1.1010 | 7000 | 0.0042 | 0.5013 |
1.1796 | 7500 | 0.004 | - |
1.2583 | 8000 | 0.0038 | 0.4422 |
1.3369 | 8500 | 0.0045 | - |
1.4155 | 9000 | 0.0044 | 0.5128 |
1.4942 | 9500 | 0.0037 | - |
1.5728 | 10000 | 0.0035 | 0.5781 |
1.6515 | 10500 | 0.0032 | - |
1.7301 | 11000 | 0.0034 | 0.5638 |
1.8087 | 11500 | 0.0031 | - |
1.8874 | 12000 | 0.0033 | 0.5309 |
1.9660 | 12500 | 0.003 | - |
2.0 | 12716 | - | 0.5928 |
2.0447 | 13000 | 0.0026 | 0.5505 |
2.1233 | 13500 | 0.0024 | - |
2.2020 | 14000 | 0.0026 | 0.5240 |
2.2806 | 14500 | 0.0021 | - |
2.3592 | 15000 | 0.0027 | 0.5481 |
2.4379 | 15500 | 0.0023 | - |
2.5165 | 16000 | 0.0025 | 0.5341 |
2.5952 | 16500 | 0.0022 | - |
2.6738 | 17000 | 0.0021 | 0.5832 |
2.7524 | 17500 | 0.002 | - |
2.8311 | 18000 | 0.0018 | 0.5651 |
2.9097 | 18500 | 0.0022 | - |
2.9884 | 19000 | 0.0017 | 0.5963 |
Framework Versions
- Python: 3.10.16
- Sentence Transformers: 3.4.1
- Transformers: 4.50.0.dev0
- PyTorch: 2.6.0+cu124
- Accelerate: 0.26.0
- Datasets: 3.3.2
- Tokenizers: 0.21.0
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
ContrastiveLoss
@inproceedings{hadsell2006dimensionality,
author={Hadsell, R. and Chopra, S. and LeCun, Y.},
booktitle={2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'06)},
title={Dimensionality Reduction by Learning an Invariant Mapping},
year={2006},
volume={2},
number={},
pages={1735-1742},
doi={10.1109/CVPR.2006.100}
}
- Downloads last month
- 2
Evaluation results
- Cosine Accuracy on Unknownself-reported0.962
- Cosine Accuracy Threshold on Unknownself-reported0.804
- Cosine F1 on Unknownself-reported0.577
- Cosine F1 Threshold on Unknownself-reported0.705
- Cosine Precision on Unknownself-reported0.583
- Cosine Recall on Unknownself-reported0.571
- Cosine Ap on Unknownself-reported0.596
- Cosine Mcc on Unknownself-reported0.556