SentenceTransformer based on AITeamVN/Vietnamese_Embedding_v2

This is a sentence-transformers model finetuned from AITeamVN/Vietnamese_Embedding_v2. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: AITeamVN/Vietnamese_Embedding_v2
  • Maximum Sequence Length: 2048 tokens
  • Output Dimensionality: 1024 dimensions
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 2048, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("phonghoccode/VSLP2025_Embedding_bm25_v1")
# Run inference
sentences = [
    'Biển báo phía trên báo hiệu rằng người tham gia giao thông có thể tiếp tục đi thẳng hoặc rẽ trái tại vị trí này.\nĐúng hay sai?',
    '56.1. Quy định chung đối với tiêu phản quang\n56.1.1. Tiêu phản quang là thiết bị dẫn hướng được gắn các công cụ phản quang để dẫn hướng xe chạy vào ban đêm hoặc trong điều kiện sương mù, điều kiện hạn chế tầm nhìn. Tiêu phản quang được bố trí tại các nơi mà tuyến đường có thể gây hiểu lầm hoặc chưa rõ về hướng đường. Chiều cao đặt tiêu phản quang phù hợp với địa hình, quy mô tuyến đường, bảo đảm tiêu phản quang phát huy tác dụng dẫn hướng.\n56.1.2. Tiêu phản quang phải gắn công cụ phản quang cho phép nhìn rõ vào buổi tối dưới ánh đèn pha ô tô đạt tiêu chuẩn trong điều kiện thời tiết bình thường ở cự ly 300 m.\n56.1.3. Công cụ phản quang có thể là các tấm nhựa phản quang, các khối kim loại gắn phản quang, màng phản quang dán trên các miếng kim loại v.v... Công cụ phản quang có thể có dạng hình tròn, hình chữ nhật, hình tam giác hoặc hình đa giác được gắn lên các lan can phòng hộ, tường bảo vệ hoặc gắn xuống mặt đường. Công cụ phản quang cũng bao gồm các vật liệu phản quang dạng dải quấn quanh các cọc tiêu phản quang.\n56.1.4. Tiêu phản quang màu vàng được sử dụng ở các dải phân cách giữa, tại bên đường các đường một chiều hay bên phải của đường hai chiều. Tiêu phản quang màu đỏ được sử dụng cho hướng ngược chiều (bên trái) theo chiều đi của đường hai chiều (để cảnh báo người lái đi nhầm đường) và sử dụng cho các đường lánh nạn.\n56.1.5. Tiêu phản quang bao gồm: tiêu phản quang bố trí bên đường hoặc trên dải phân cách, tiêu phản quang dạng mũi tên và đinh phản quang (còn gọi là cóc phản quang) bố trí trên mặt đường.\n56.2. Tiêu phản quang bố trí bên đường hoặc trên dải phân cách\n56.2.1. Phạm vi áp dụng tiêu phản quang bố trí bên đường hoặc trên dải phân cách:\na) Trên các đường cao tốc:\n+ Bố trí dọc hai bên đường. Khi đó, nếu lan can phòng hộ cách mép phần đường xe chạy dưới 2,4 m, gắn tiêu phản quang lên lan can phòng hộ. Các trường hợp khác có thể bố trí tiêu phản quang dạng cột đặt bên đường;\n+ Bố trí ít nhất một bên trên các nhánh nối của các nút giao khác mức liên thông.\nb) Trên các đường khác: nên sử dụng tiêu phản quang tại vị trí các đoạn đường bị thu hẹp phần đường xe chạy mà không có lan can phòng hộ, các đoạn đường đèo dốc quanh co hạn chế tầm nhìn, trong phạm vi đường lánh nạn, nơi đường bộ giao nhau với đường sắt. Nơi đường thường xuyên có sương mù cần bố trí tiêu phản quang trên các vật thể cứng liền kề phần xe chạy như các đầu đảo giao thông, bó vỉa v.v... khi khó nhận biết các vật thể này về ban đêm.\n56.2.2. Không cần sử dụng tiêu phản quang bố trí bên đường và trên dải phân cách trong các trường hợp sau:\na) Trên mặt đường đã được gắn đinh phản quang liên tục;\nb) Đã sử dụng tiêu phản quang dạng mũi tên trong các đường cong;\nc) Tại những nơi có đèn đường chiếu sáng liên tục về ban đêm;\nd) Làn đường mở rộng dần theo chiều xe chạy.\n56.2.3. Vị trí và khoảng cách tiêu phản quang bố trí bên đường và trên dải phân cách như sau:\na) Tiêu phản quang đặt cách mép phần xe chạy phía ngoài cùng từ 0,6 m - 2,4 m và cách đều mép mặt đường, lượn cong đều theo mép phần đường xe chạy;\nb) Trên đường thẳng, khoảng cách giữa tiêu phản quang không nhỏ hơn 10 m và không quá 100 m;\nc) Trong phạm vi đường cong nằm, khoảng cách nhỏ nhất giữa các tiêu phản quang là 6 m và tối đa là 100 m phụ thuộc vào bán kính đường cong;\nd) Phần đường thẳng tiếp giáp với điểm bắt đầu hoặc kết thúc của đường cong bố trí 3 tiêu. Tiêu đầu tiên cách điểm bắt đầu hoặc kết thúc của đường cong là 1S; tiêu thứ hai cách tiêu thứ nhất là 3S, và tiêu thứ 3 cách tiêu thứ 2 là 6S nhưng cũng không cách xa quá 100 m (S là khoảng cách giữa các tiêu bố trí trong đường cong).\n56.3. Tiêu phản quang dạng mũi tên\n56.3.1. Tiêu phản quang dạng mũi tên bao gồm một biển vẽ dạng mũi tên chỉ hướng màu đen trên nền vàng gắn trên đỉnh các cột (xem Hình 34a). Tiêu phản quang dạng mũi tên chỉ hướng ngược chiều (bên trái) màu trắng trên nền đỏ thường sử dụng cho đường 2 chiều không có dải phân cách giữa (Hình 34b)\n\nHình 34a - Tiêu phản quang dạng mũi tên\n\xa0\n\nHình 34b - Tiêu phản quang dạng mũi tên (bên trái) cho đường 2 chiều\n56.3.2. Kích thước tiêu phản quang dạng mũi tên được quy định như sau:\n\n\xa0\n\n* Ở các đoạn đường đèo dốc, sương mù có thể tăng kích thước lên 1 cấp nâng cao an toàn giao thông.\n56.3.3. Tiêu phản quang dạng mũi tên được sử dụng trong phạm vi đường cong nằm trong các trường hợp sau:\na) Trên các đường cao tốc tại các đường cong có bán kính bằng bán kính tối thiểu nhỏ nhất theo cấp đường;\nb) Trên các nhánh rẽ trái gián tiếp của các nút giao khác mức liên thông;\nc) Trên các đoạn đường cong hạn chế tầm nhìn hoặc các đường cong được đánh giá là điểm đen, điểm tiềm ẩn về tai nạn giao thông; các đường cong được gắn biển số W.201 “Chỗ ngoặt nguy hiểm” có lưng hướng ra phía vực sâu mà không có tường bảo vệ hoặc lan can phòng hộ; các đường cong dạng con rắn.\n56.3.4. Tiêu phản quang dạng mũi tên được bố trí ở phía lưng của đường cong nằm, bắt đầu từ điểm bắt đầu cho đến điểm kết thúc đoạn cong. Khoảng cách giữa các tiêu phản quang dạng mũi tên không nhỏ hơn 12 m và không lớn hơn 60 m.\n56.4. Đinh phản quang\n56.4.1. Đinh phản quang theo phương dọc đường được bố trí như sau:\na) Trên các đường cao tốc:\n+ Bố trí trên các vạch sơn kênh hóa dòng xe tại đầu các mũi đảo tách dòng và nhập dòng. Trong trường hợp này, cần sử dụng đinh phản quang trong phạm vi từ mũi đảo thực (đảo cứng) cho đến mũi hết mũi đảo bằng vạch sơn với cự ly giữa các đinh phản quang tối đa là 6 m.\n+ Có thể bố trí đinh phản quang trên các vạch sơn phân chia giữa phần xe chạy chính và làn dừng xe khẩn cấp.\nb) Với đường nhiều hơn 2 làn xe mỗi hướng không có dải phân cách cố định, có thể bố trí một hàng đinh phản quang tại tim đường nằm giữa vạch sơn phân chia hai chiều xe chạy hoặc phân làn đường, mép đường.\nc) Đối với đường có 2 làn xe, cần xem xét bố trí đinh phản quang tại tim đường kết hợp với vạch sơn phân chia chiều đường xe chạy, đặc biệt đối với tuyến đường tại khu vực miền núi, đường đèo dốc quanh co, nhiều sương mù, tầm nhìn hạn chế. Trong trường hợp cần thiết, có thế gắn đinh phản quang tại dọc theo mép đường xe chạy.\nd) Chiều rộng đinh phản quang tối thiểu 10cm và không vượt quá chiều rộng vạch sơn bố trí đinh.\n56.4.2. Có thể sử dụng đinh phản quang màu vàng gắn theo phương ngang đường tại vị trí mặt đường bị thấp xuống hoặc vồng lên đột ngột theo phương ngang đường và trên vạch dừng xe nơi phần đường người đi bộ cắt qua không có tín hiệu đèn điều khiển.\n56.4.3. Đinh phản quang không được nhô cao khỏi mặt đường quá 2,5 cm.',
    'a) Đến hết đoạn đường mà nhiều biển báo cấm cùng hết hiệu lực, đặt biển số DP.135 \'\'Hết tất cả các lệnh cấm".\nb) Biển có giá trị báo cho người tham gia giao thông biết hiệu lực của biển số P.121 và nhiều biển cấm khác từ biển số P.125 đến biển số P.131 (a,b,c) được đặt trước đó cùng hết tác dụng.\n\nHình B.35 - Biển số DP.135',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Dataset

Unnamed Dataset

  • Size: 11,823 training samples
  • Columns: sentence1, sentence2, and label
  • Approximate statistics based on the first 1000 samples:
    sentence1 sentence2 label
    type string string int
    details
    • min: 18 tokens
    • mean: 32.54 tokens
    • max: 70 tokens
    • min: 39 tokens
    • mean: 566.03 tokens
    • max: 2048 tokens
    • 0: ~94.00%
    • 1: ~6.00%
  • Samples:
    sentence1 sentence2 label
    Biển báo cấm xe khách trên 29 chỗ được áp dụng trong các khoảng thời gian nào? Quy chuẩn này quy định về báo hiệu đường bộ bao gồm: đèn tín hiệu giao thông; biển báo hiệu đường bộ; vạch kẻ đường và các dấu hiệu khác trên mặt đường; cọc tiêu, tường bảo vệ, rào chắn, đinh phản quang, tiêu phản quang, cột Km, cọc H; thiết bị âm thanh báo hiệu đường bộ.
    Quy chuẩn này quy định về báo hiệu đường bộ áp dụng cho tất cả các tuyến đường bộ trong mạng lưới đường bộ Việt Nam, các đường nằm trong hệ thống đường bộ tham gia Điều ước quốc tế mà Việt Nam là thành viên (Hiệp định GMS-CBTA, các thỏa thuận trong ASEAN và các thỏa thuận quốc tế khác) - sau đây gọi là các tuyến đường đối ngoại.
    1
    Biển báo cấm xe khách trên 29 chỗ được áp dụng trong các khoảng thời gian nào? Để báo đường cấm xe ô tô chở khách và các loại xe ô tô tải kể cả các loại máy kéo và xe máy chuyên dùng đi qua trừ các xe được ưu tiên theo quy định, đặt biển số P.107 "Cấm xe ô tô khách và xe ô tô tải".

    Hình B.7 - Biển số P.107
    0
    Biển báo cấm xe khách trên 29 chỗ được áp dụng trong các khoảng thời gian nào? 18.1. Biển báo được đặt chắc chắn cố định trên cột như quy định ở Điều 20 của Quy chuẩn này. Trong một số trường hợp có thể cho phép kết hợp đặt biển trên cột điện, cây cối hoặc những vật kiến trúc nhưng phải dễ quan sát và đảm bảo thẩm mỹ.
    18.2. Trường hợp biển báo đặt trên cột: độ cao đặt biển tính từ mép dưới của biển đến mặt đường là 1,8 m đối với đường ngoài khu đông dân cư và 2,0 m đối với đường trong khu đông dân cư, theo phương thẳng đứng. Biển số S.507 “Hướng rẽ” đặt cao từ 1,2 m đến 1,5 m. Loại biển áp dụng riêng cho xe thô sơ và người đi bộ đặt cao hơn mặt, lề đường hoặc hè đường là 1,8 m. Trường hợp đặc biệt có thể thay đổi cho phù hợp nhưng không nhỏ hơn 1,2 m, không quá 5,0 m.
    18.3. Nếu có nhiều biển cần đặt cùng một vị trí, cho phép đặt kết hợp trên cùng một cột nhưng không quá 3 biển và theo thứ tự ưu tiên như sau: biển báo cấm, biển hiệu lệnh, biển báo nguy hiểm hoặc cảnh báo, biển chỉ dẫn (xem minh họa trên Hình 3).

    Ghi chú: con số ghi trên hình biểu thị thứ tự ưu ti...
    0
  • Loss: ContrastiveLoss with these parameters:
    {
        "distance_metric": "SiameseDistanceMetric.COSINE_DISTANCE",
        "margin": 0.5,
        "size_average": true
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 6
  • per_device_eval_batch_size: 12
  • gradient_accumulation_steps: 4
  • learning_rate: 2e-05
  • num_train_epochs: 1
  • warmup_ratio: 0.1
  • fp16: True
  • push_to_hub: True
  • hub_model_id: phonghoccode/VSLP2025_Embedding_bm25_v1
  • gradient_checkpointing: True

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: no
  • prediction_loss_only: True
  • per_device_train_batch_size: 6
  • per_device_eval_batch_size: 12
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 4
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 1
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: True
  • resume_from_checkpoint: None
  • hub_model_id: phonghoccode/VSLP2025_Embedding_bm25_v1
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: True
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss
0.2029 100 0.0148
0.4059 200 0.0003
0.6088 300 0.0001
0.8118 400 0.0001

Framework Versions

  • Python: 3.11.13
  • Sentence Transformers: 4.1.0
  • Transformers: 4.52.4
  • PyTorch: 2.6.0+cu124
  • Accelerate: 1.8.1
  • Datasets: 2.19.2
  • Tokenizers: 0.21.2

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

ContrastiveLoss

@inproceedings{hadsell2006dimensionality,
    author={Hadsell, R. and Chopra, S. and LeCun, Y.},
    booktitle={2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'06)},
    title={Dimensionality Reduction by Learning an Invariant Mapping},
    year={2006},
    volume={2},
    number={},
    pages={1735-1742},
    doi={10.1109/CVPR.2006.100}
}
Downloads last month
15
Safetensors
Model size
568M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for phonghoccode/VSLP2025_Embedding_bm25_v1

Base model

BAAI/bge-m3
Finetuned
(3)
this model