SentenceTransformer based on tomaarsen/Qwen3-Embedding-0.6B-18-layers

This is a sentence-transformers model finetuned from tomaarsen/Qwen3-Embedding-0.6B-18-layers. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: tomaarsen/Qwen3-Embedding-0.6B-18-layers
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 1024 dimensions
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: Qwen3Model 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': True, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("Abdelkareem/ara-qwen3-18")
# Run inference
sentences = [
    'إذا كنت تساوم على سجادة في البازار الكبير سوف تحصل على خلال اثنين أو ثلاثة أكواب من كاي قبل أن يتم الاتفاق على سعر.',
    'قبل الموافقة على السعر سوف تتناولين كوبين أو ثلاثة من الخمر',
    'لا يمكنك المساومة على سجادة في البازار الكبير',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Triplet

Metric all-nli-dev 1million-qwen-18
cosine_accuracy 0.92 0.9178

Training Details

Training Dataset

Unnamed Dataset

  • Size: 166,507 training samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    details
    • min: 4 tokens
    • mean: 24.05 tokens
    • max: 113 tokens
    • min: 4 tokens
    • mean: 52.3 tokens
    • max: 310 tokens
    • min: 5 tokens
    • mean: 49.75 tokens
    • max: 441 tokens
  • Samples:
    anchor positive negative
    الناس يقاتلون رجلين يضربان بعضهما في الوجه في مباراة ملاكمة رجلين يمشون على السقالة
    ما هو الحد الذي يصف المسافة من مركز الدائرة إلى أي نقطة على الدائرة؟ مثال على مركز الدائرة. 1 المسافة الثابتة من مركز الدائرة إلى أي نقطة على الدائرة تسمى نصف قطر الدائرة. 2 قطر الدائرة هو قطعة مستقيمة تربط نقطتين على دائرة ويمر بمركز الدائرة. قطر الدائرة هو المسافة من نقطة على الدائرة إلى نقطة راديان بعيدة ، وهو أقصى مسافة من نقطة على دائرة إلى أخرى.
    تم تحويل مخزن الحبوب في القرن الثالث عشر ، بجانب طاحونة دقيق أقدم ، إلى متحف رائع لرؤوس الأبراج المنحوتة المعروضة على أعمدة أعيد بناؤها. يمكن للزوار أن يروا العواصم المنحوتة في الدير في المتحف الذي كان يوما مخزن الحبوب. مخزن الحبوب من القرن الثالث عشر تم التخلي عنه ولم يعد أحد يستخدمه لأي شيء
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Evaluation Dataset

Unnamed Dataset

  • Size: 9,250 evaluation samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    details
    • min: 4 tokens
    • mean: 23.95 tokens
    • max: 113 tokens
    • min: 4 tokens
    • mean: 50.21 tokens
    • max: 321 tokens
    • min: 5 tokens
    • mean: 47.97 tokens
    • max: 353 tokens
  • Samples:
    anchor positive negative
    في تعريف السكان المعرضين للخطر في الطبيعة المحددة للسكان المعرضين للخطر ، يشير المصطلح إلى عملية أو سلسلة من الأحداث التي يمكن التنبؤ بها والتي تضع المجموعة المعلنة في مسار بعض الضرر المستقبلي. نظرًا لأن المصطلح قد تم استبعاده من السياق ، فليس لدينا أي طريقة للتعامل مع تفاصيل عملية أو حدث المخاطرة. المجموعات السكانية الخاصة) ، والتي لها عوامل فردية أو مركبة تجعلها عرضة لنتائج سيئة. من الواضح أن العوامل تختلف باختلاف فئة الخطر. تعتمد الممارسة الإحصائية الناجحة على تعريف المشكلة المركّز. في أخذ العينات ، يتضمن ذلك تحديد المجتمع الذي يتم أخذ العينة منه. يمكن تعريف المجتمع على أنه يشمل جميع الأشخاص أو العناصر التي لها الصفة المميزة التي يرغب المرء في فهمها.
    ومع ذلك، فإن العديد من الأنشطة باللغة العبرية فقط. الكثير من الأنشطة متاحة فقط باللغة العبرية. كل شيء كان باللغة الإنجليزية
    هل جاذبية المشتري أقوى من الأرض نتيجة لذلك ، تبلغ جاذبية سطح المشتري (التي تُعرَّف على أنها قوة الجاذبية عند قمم السحابة) 24.79 م / ث ، أو 2.528 جم. الجاذبية على زحل: مثل كوكب المشتري ، زحل هو عملاق غازي ضخم أكبر بكثير وأكثر كتلة من الأرض ، ولكنه أقل كثافة بكثير. باختصار ، متوسط ​​نصف قطرها هو 58232 ± 6 كم (9.13 من الأرض) ، وكتلتها 5.6846 × 1026 كجم (95.15 مرة من الكتلة) ، وبكثافة 0.687 جم / سم 3. على الأرض: تسارع الجاذبية. . . . . . . . . . . . 9.807 م / ث 2 تسارع مقارنة بكوكب الزهرة. . 111٪ تسارع مقارنة بالمريخ. . . 263.5٪ كتلة الرجل الذي يزن 100 رطل على وجه الأرض. . . . . 45.359 كجم وزن الرجل الذي يزن 100 رطل على كوكب الزهرة. . 110.7 رطل وزن الرجل الذي يزن 100 رطل على المريخ. . . 263.5 رطل على الزهرة: تسارع الجاذبية. . . . . . . . . . 8.858 م / ث 2 تسارع مقارنة بالأرض. . 90.3٪ تسارع مقارنة بـ ...
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • learning_rate: 2e-05
  • num_train_epochs: 1
  • warmup_ratio: 0.1
  • fp16: True
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 8
  • per_device_eval_batch_size: 8
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 1
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Click to expand
Epoch Step Training Loss Validation Loss all-nli-dev_cosine_accuracy 1million-qwen-18_cosine_accuracy
-1 -1 - - 0.8039 -
0.0096 100 0.7579 - - -
0.0192 200 0.6067 - - -
0.0288 300 0.5796 - - -
0.0384 400 0.53 - - -
0.0480 500 0.5191 - - -
0.0577 600 0.5275 - - -
0.0673 700 0.5512 - - -
0.0769 800 0.5102 - - -
0.0865 900 0.5531 - - -
0.0961 1000 0.5475 - - -
0.1057 1100 0.5257 - - -
0.1153 1200 0.5233 - - -
0.1249 1300 0.5011 - - -
0.1345 1400 0.5626 - - -
0.1441 1500 0.527 - - -
0.1537 1600 0.4856 - - -
0.1634 1700 0.5102 - - -
0.1730 1800 0.4915 - - -
0.1826 1900 0.4725 - - -
0.1922 2000 0.4936 - - -
0.2018 2100 0.4771 - - -
0.2114 2200 0.5027 - - -
0.2210 2300 0.4802 - - -
0.2306 2400 0.5123 - - -
0.2402 2500 0.4633 - - -
0.2498 2600 0.4413 - - -
0.2594 2700 0.4486 - - -
0.2690 2800 0.4743 - - -
0.2787 2900 0.4082 - - -
0.2883 3000 0.4879 - - -
0.2979 3100 0.4499 - - -
0.3075 3200 0.4273 - - -
0.3171 3300 0.4311 - - -
0.3267 3400 0.431 - - -
0.3363 3500 0.4339 - - -
0.3459 3600 0.4189 - - -
0.3555 3700 0.433 - - -
0.3651 3800 0.434 - - -
0.3747 3900 0.4416 - - -
0.3844 4000 0.4024 - - -
0.3940 4100 0.4052 - - -
0.4036 4200 0.4153 - - -
0.4132 4300 0.4024 - - -
0.4228 4400 0.4244 - - -
0.4324 4500 0.4543 - - -
0.4420 4600 0.4018 - - -
0.4516 4700 0.3622 - - -
0.4612 4800 0.3914 - - -
0.4708 4900 0.3855 - - -
0.4804 5000 0.3716 - - -
0.4901 5100 0.3798 - - -
0.4997 5200 0.3822 - - -
0.5093 5300 0.3467 - - -
0.5189 5400 0.3647 - - -
0.5285 5500 0.3563 - - -
0.5381 5600 0.3583 - - -
0.5477 5700 0.3159 - - -
0.5573 5800 0.3817 - - -
0.5669 5900 0.3892 - - -
0.5765 6000 0.351 - - -
0.5861 6100 0.3505 - - -
0.5958 6200 0.3735 - - -
0.6054 6300 0.3479 - - -
0.6150 6400 0.3608 - - -
0.6246 6500 0.3634 - - -
0.6342 6600 0.3787 - - -
0.6438 6700 0.3263 - - -
0.6534 6800 0.3181 - - -
0.6630 6900 0.3163 - - -
0.6726 7000 0.3141 - - -
0.6822 7100 0.3369 - - -
0.6918 7200 0.3503 - - -
0.7015 7300 0.3438 - - -
0.7111 7400 0.3219 - - -
0.7207 7500 0.3324 - - -
0.7303 7600 0.3313 - - -
0.7399 7700 0.3364 - - -
0.7495 7800 0.3103 - - -
0.7591 7900 0.278 - - -
0.7687 8000 0.2997 - - -
0.7783 8100 0.3233 - - -
0.7879 8200 0.3364 - - -
0.7975 8300 0.3326 - - -
0.8071 8400 0.3192 - - -
0.8168 8500 0.3483 - - -
0.8264 8600 0.2998 - - -
0.8360 8700 0.3139 - - -
0.8456 8800 0.2926 - - -
0.8552 8900 0.3425 - - -
0.8648 9000 0.2992 - - -
0.8744 9100 0.3056 - - -
0.8840 9200 0.3004 - - -
0.8936 9300 0.3005 - - -
0.9032 9400 0.3352 - - -
0.9128 9500 0.2853 - - -
0.9225 9600 0.3024 - - -
0.9321 9700 0.3329 - - -
0.9417 9800 0.2883 - - -
0.9513 9900 0.2739 - - -
0.9609 10000 0.3024 0.2919 0.9200 -
0.9705 10100 0.3177 - - -
0.9801 10200 0.3232 - - -
0.9897 10300 0.2829 - - -
0.9993 10400 0.3013 - - -
-1 -1 - - - 0.9178

Framework Versions

  • Python: 3.12.11
  • Sentence Transformers: 4.0.2
  • Transformers: 4.52.4
  • PyTorch: 2.7.1+cu126
  • Accelerate: 1.7.0
  • Datasets: 3.6.0
  • Tokenizers: 0.21.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
10
Safetensors
Model size
438M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for Abdelkareem/Abjd

Finetuned
(1)
this model

Evaluation results