SentenceTransformer based on Alibaba-NLP/gte-multilingual-base

This is a sentence-transformers model finetuned from Alibaba-NLP/gte-multilingual-base. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: Alibaba-NLP/gte-multilingual-base
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False, 'architecture': 'NewModel'})
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
    'Tiêu chí lựa chọn di sản văn hóa phi vật thể để đưa vào danh mục di sản văn hóa phi vật thể quốc gia bao gồm những gì?',
    "['1. Có tính đại diện, thể hiện bản sắc của cộng đồng, địa phương.\\n\\n2. Phản ánh sự đa dạng văn hóa và sự sáng tạo của con người, được kế tục qua nhiều thế hệ.\\n\\n3. Có khả năng phục hồi và tồn tại lâu dài.\\n\\n4. Được cộng đồng đồng thuận, tự nguyện đề cử và cam kết bảo vệ.']",
    "['1. Khi Người điều hành đấu giá đã công bố người trúng đấu giá mà tại cuộc đấu giá người này từ chối kết quả trúng đấu giá thì người trả giá liền kề là người trúng đấu giá, nếu giá liền kề đó cộng với khoản tiền đặt trước ít nhất bằng giá đã trả của người từ chối kết quả trúng đấu giá và người trả giá liền kề chấp nhận mua tài sản đấu giá.\\n\\n2. Trường hợp giá liền kề cộng với khoản tiền đặt trước nhỏ hơn giá đã trả của người từ chối kết quả trúng đấu giá hoặc người trả giá liền kề không chấp nhận mua tài sản đấu giá thì cuộc đấu giá không thành.']",
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[1.0000, 0.8382, 0.1240],
#         [0.8382, 1.0000, 0.1366],
#         [0.1240, 0.1366, 1.0000]])

Training Details

Training Dataset

Unnamed Dataset

  • Size: 2,190 training samples
  • Columns: sentence_0, sentence_1, and label
  • Approximate statistics based on the first 1000 samples:
    sentence_0 sentence_1 label
    type string string float
    details
    • min: 14 tokens
    • mean: 23.76 tokens
    • max: 55 tokens
    • min: 48 tokens
    • mean: 353.9 tokens
    • max: 512 tokens
    • min: 1.0
    • mean: 1.0
    • max: 1.0
  • Samples:
    sentence_0 sentence_1 label
    Phương pháp đánh giá hồ sơ dự thầu đối với gói thầu của cá nhân tư vấn mua sắm theo Hiệp định CPTPP? ['1. Đối với nhà thầu tư vấn là tổ chức thì áp dụng một trong các phương pháp sau đây:\t\ta) Phương pháp giá thấp nhất được áp dụng đối với các gói thầu tư vấn đơn giản. Tiêu chuẩn đánh giá hồ sơ dự thầu là tiêu chuẩn đánh giá về kỹ thuật. Đối với các hồ sơ dự thầu đã vượt qua bước đánh giá về kỹ thuật thì căn cứ vào giá dự thầu sau sửa lỗi, hiệu chỉnh sai lệch, trừ đi giá trị giảm giá (nếu có). Nhà thầu có giá thấp nhất được xếp thứ nhất;\t\tb) Phương pháp giá cố định được áp dụng đối với các gói thầu tư vấn đơn giản, chi phí thực hiện gói thầu được xác định cụ thể và cố định trong hồ sơ mời thầu. Tiêu chuẩn đánh giá hồ sơ dự thầu là tiêu chuẩn đánh giá về kỹ thuật. Đối với các hồ sơ dự thầu đã vượt qua bước đánh giá về kỹ thuật, có giá dự thầu sau sửa lỗi, hiệu chỉnh sai lệch, trừ đi giá trị giảm giá (nếu có) không vượt chi phí thực hiện gói thầu thì căn cứ điểm kỹ thuật để so sánh, xếp hạng. Nhà thầu có điểm kỹ thuật cao nhất được xếp thứ nhất;\t\tc) Phương pháp kết hợp giữa kỹ thuậ... 1.0
    Ban tư vấn cho tôi hỏi mức phí đánh giá lần đầu để cấp giấy chứng nhận quốc tế về an ninh tàu biển là bao nhiêu? ['Biểu mức thu phí kiểm tra, đánh giá, cấp giấy chứng nhận quốc tế về an ninh tàu biển theo Bộ luật ISPS như sau:Đơn vị tính: Đồng/lần'] 1.0
    Thừa phát lại được cùng hành nghề tại nhiều Văn phòng Thừa phát lại hay không? ['1. Trung thực, khách quan khi thực hiện công việc.\n\n2. Nghiêm chỉnh chấp hành pháp luật và Quy tắc đạo đức nghề nghiệp Thừa phát lại.\n\n3. Chịu trách nhiệm trước người yêu cầu và trước pháp luật về việc thực hiện công việc của mình.\n\n4. Không đồng thời hành nghề tại 02 hoặc nhiều Văn phòng Thừa phát lại.\n\n5. Tham gia bồi dưỡng nghiệp vụ Thừa phát lại hàng năm theo quy định của Bộ trưởng Bộ Tư pháp.\n\n6. Mặc trang phục Thừa phát lại theo mẫu do Bộ trưởng Bộ Tư pháp quy định, đeo Thẻ Thừa phát lại khi hành nghề.\n\n7. Tham gia tổ chức xã hội - nghề nghiệp của Thừa phát lại (nếu có); chịu sự quản lý của cơ quan nhà nước có thẩm quyền, của Văn phòng Thừa phát lại nơi mình đang hành nghề và tổ chức xã hội - nghề nghiệp của Thừa phát lại mà mình là thành viên.\n\n8. Các quyền và nghĩa vụ khác theo quy định của Nghị định này và pháp luật có liên quan.'] 1.0
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 24
  • per_device_eval_batch_size: 24
  • num_train_epochs: 30
  • fp16: True
  • multi_dataset_batch_sampler: round_robin

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: no
  • prediction_loss_only: True
  • per_device_train_batch_size: 24
  • per_device_eval_batch_size: 24
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1
  • num_train_epochs: 30
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.0
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • hub_revision: None
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • liger_kernel_config: None
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: round_robin
  • router_mapping: {}
  • learning_rate_mapping: {}

Training Logs

Epoch Step Training Loss
10.8696 500 0.0444
21.7391 1000 0.0106

Framework Versions

  • Python: 3.10.12
  • Sentence Transformers: 5.0.0
  • Transformers: 4.54.1
  • PyTorch: 2.7.1+cu126
  • Accelerate: 1.9.0
  • Datasets: 4.0.0
  • Tokenizers: 0.21.2

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
11
Safetensors
Model size
305M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for xuandin/gte-450

Finetuned
(78)
this model