mnaguib's picture
remove clister
2f69ecb verified
metadata
language:
  - de
  - en
  - es
  - fr
  - it
  - nl
  - pl
  - pt
  - ru
  - zh
tags:
  - sentence-transformers
  - sentence-similarity
  - feature-extraction
  - generated_from_trainer
  - dataset_size:5749
  - loss:CosineSimilarityLoss
base_model: almanach/camembert-bio-base
widget:
  - source_sentence: >-
      Nous nous déplaçons "... par rapport au cadre de repos cosmique en
      mouvement ... à environ 371 km/s vers la constellation du Lion".
    sentences:
      - La dame a fait frire la viande panée dans de l'huile chaude.
      - Il n'y a pas d'alambic qui ne soit pas relatif à un autre objet.
      - >-
        Le joueur de basket-ball est sur le point de marquer des points pour son
        équipe.
  - source_sentence: >-
      Le professeur Burkhauser a effectué des recherches approfondies sur les
      personnes qui sont pénalisées par l'augmentation du salaire minimum.
    sentences:
      - Un adolescent parle à une fille par le biais d'une webcam.
      - Une femme est en train de couper des oignons verts.
      - >-
        Les lois sur le salaire minimum nuisent le plus aux personnes les moins
        qualifiées et les moins productives.
  - source_sentence: >-
      Bien que le terme "reine" puisse faire référence à la fois à la reine
      régente (souveraine) ou à la reine consort, le roi a toujours été le
      souverain.
    sentences:
      - Des moutons paissent dans le champ devant une rangée d'arbres.
      - >-
        Il y a une très bonne raison de ne pas appeler le conjoint de la Reine
        "Roi" - parce qu'il n'est pas le Roi.
      - Un groupe de personnes âgées pose autour d'une table à manger.
  - source_sentence: Deux pygargues à tête blanche perchés sur une branche.
    sentences:
      - Un groupe de militaires joue dans un quintette de cuivres.
      - Deux aigles sont perchés sur une branche.
      - Un homme qui joue de la guitare sous la pluie.
  - source_sentence: Un homme joue de la guitare.
    sentences:
      - >-
        Il est possible qu'un système solaire comme le nôtre existe en dehors
        d'une galaxie.
      - Un homme joue de la flûte.
      - Un homme est en train de manger une banane.
datasets:
  - PhilipMay/stsb_multi_mt
pipeline_tag: sentence-similarity
library_name: sentence-transformers
metrics:
  - pearson_cosine
  - spearman_cosine
model-index:
  - name: SentenceTransformer based on almanach/camembert-bio-base
    results:
      - task:
          type: semantic-similarity
          name: Semantic Similarity
        dataset:
          name: sts dev
          type: sts-dev
        metrics:
          - type: pearson_cosine
            value: 0.8542312221536079
            name: Pearson Cosine
          - type: spearman_cosine
            value: 0.8527667445679299
            name: Spearman Cosine

SentenceTransformer based on almanach/camembert-bio-base

This is a sentence-transformers model finetuned from almanach/camembert-bio-base on the stsb_multi_mt dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: almanach/camembert-bio-base
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity
  • Training Dataset:
  • Languages: de, en, es, fr, it, nl, pl, pt, ru, zh

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: CamembertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
    'Un homme joue de la guitare.',
    'Un homme est en train de manger une banane.',
    'Un homme joue de la flûte.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Semantic Similarity

Metric Value
pearson_cosine 0.8542
spearman_cosine 0.8528

Training Details

Training Dataset

stsb_multi_mt

  • Dataset: stsb_multi_mt at 3acaa3d
  • Size: 5,749 training samples
  • Columns: sentence1, sentence2, and score
  • Approximate statistics based on the first 1000 samples:
    sentence1 sentence2 score
    type string string float
    details
    • min: 7 tokens
    • mean: 17.84 tokens
    • max: 67 tokens
    • min: 6 tokens
    • mean: 17.75 tokens
    • max: 58 tokens
    • min: 0.0
    • mean: 0.54
    • max: 1.0
  • Samples:
    sentence1 sentence2 score
    Cinq morts dans l'effondrement d'un immeuble en Chine Au moins 20 personnes tuées en Syrie samedi 0.03999999910593033
    Les usines qui fonctionnaient grâce à la coopération coréenne se taisent La Corée du Nord et la Corée du Sud rompent leur silence par des pourparlers 0.20000000298023224
    Seamus Heaney, poète irlandais de la terre et des conflits, meurt à 74 ans Seamus Heaney, poète irlandais et prix Nobel, meurt à 74 ans 0.9600000381469727
  • Loss: CosineSimilarityLoss with these parameters:
    {
        "loss_fct": "torch.nn.modules.loss.MSELoss"
    }
    

Evaluation Dataset

stsb_multi_mt

  • Dataset: stsb_multi_mt at 3acaa3d
  • Size: 1,500 evaluation samples
  • Columns: sentence1, sentence2, and score
  • Approximate statistics based on the first 1000 samples:
    sentence1 sentence2 score
    type string string float
    details
    • min: 6 tokens
    • mean: 17.45 tokens
    • max: 52 tokens
    • min: 6 tokens
    • mean: 17.35 tokens
    • max: 48 tokens
    • min: 0.0
    • mean: 0.42
    • max: 1.0
  • Samples:
    sentence1 sentence2 score
    Un homme avec un casque de sécurité est en train de danser. Un homme portant un casque de sécurité est en train de danser. 1.0
    Un jeune enfant monte à cheval. Un enfant monte à cheval. 0.949999988079071
    Un homme donne une souris à un serpent. L'homme donne une souris au serpent. 1.0
  • Loss: CosineSimilarityLoss with these parameters:
    {
        "loss_fct": "torch.nn.modules.loss.MSELoss"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 128
  • per_device_eval_batch_size: 16
  • learning_rate: 3e-05
  • num_train_epochs: 15
  • warmup_ratio: 0.1
  • fp16: True
  • load_best_model_at_end: True

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 128
  • per_device_eval_batch_size: 16
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 3e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 15
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss Validation Loss sts-dev_spearman_cosine
4.3478 100 0.0587 0.0292 0.8422
8.6957 200 0.0121 0.0277 0.8519
13.0435 300 0.0073 0.0276 0.8528
  • The bold row denotes the saved checkpoint.

Framework Versions

  • Python: 3.12.8
  • Sentence Transformers: 3.4.1
  • Transformers: 4.47.1
  • PyTorch: 2.5.1+cu124
  • Accelerate: 1.4.0
  • Datasets: 3.2.0
  • Tokenizers: 0.21.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}