SentenceTransformer based on nomic-ai/nomic-embed-text-v1.5

This is a sentence-transformers model finetuned from nomic-ai/nomic-embed-text-v1.5 on the invoices_embedding_2 dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: NomicBertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("Noureddinesa/Invoices_NomicV1.5_1")
# Run inference
sentences = [
    "L'entreprise a acheté des tables de réunion pour créer un espace collaboratif dans un open space.",
    "Le mobilier de bureau désigne l'ensemble des meubles utilisés dans un espace de travail, tels que les bureaux, chaises, tables et rangements, qui contribuent à l'organisation et au confort des employés.\n\n1. Un bureau en bois massif dans un cabinet d'architecte. 2. Des chaises ergonomiques dans une salle de réunion. 3. Un espace de travail avec des tables modulables dans une start-up. 4. Des étagères pour ranger des dossiers dans un bureau administratif. 5. Un comptoir d'accueil dans une entreprise. 6. Des fauteuils confortables dans une salle d'attente. 7. Un bureau debout pour favoriser une meilleure posture. 8. Des meubles de rangement pour les fournitures de bureau. 9. Une table de conférence pour les réunions d'équipe. 10. Un bureau partagé dans un espace de coworking. 11. Des casiers pour les effets personnels des employés. 12. Un meuble TV dans une salle de pause. 13. Des panneaux de séparation pour créer des espaces privés. 14. Des meubles de rangement pour l'équipement informatique. 15. Une table ronde pour favoriser la collaboration.",
    "Les autres frais préliminaires sont des dépenses nécessaires pour établir ou développer une entreprise, engagées lors de sa création ou par la suite.\n\n1. Frais de notaire pour la création de l'entreprise. 2. Coût des études de marché avant le lancement d'un produit. 3. Honoraires d'un consultant pour un plan d'affaires. 4. Dépenses liées à la recherche de locaux commerciaux. 5. Frais pour l'enregistrement d'une marque. 6. Coût de la publicité avant l'ouverture d'un magasin. 7. Dépenses pour des formations initiales des employés. 8. Frais de création de site internet. 9. Coût des licences nécessaires pour exercer une activité. 10. Dépenses pour l'achat de matériel de bureau avant le démarrage. 11. Frais de rédaction des statuts juridiques de l'entreprise. 12. Dépenses de voyage pour rencontrer des partenaires commerciaux potentiels. 13. Coût des services d'un comptable pour préparer les documents fiscaux. 14. Frais de participation à des salons professionnels pour se faire connaître. 15. Coût de l'assurance entreprise pour démarrer en toute sécurité.",
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Triplet

Metric Value
cosine_accuracy 1.0

Training Details

Training Dataset

invoices_embedding_2

  • Dataset: invoices_embedding_2 at af1df68
  • Size: 387 training samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 387 samples:
    anchor positive negative
    type string string string
    details
    • min: 12 tokens
    • mean: 37.6 tokens
    • max: 140 tokens
    • min: 274 tokens
    • mean: 377.78 tokens
    • max: 507 tokens
    • min: 217 tokens
    • mean: 424.29 tokens
    • max: 655 tokens
  • Samples:
    anchor positive negative
    Un expert juridique est rémunéré pour une expertise dans le cadre d'une enquête. Ce compte enregistre les paiements effectués pour des services d'intermédiaires et d'honoraires. Cela inclut les commissions versées à des agents commerciaux, les honoraires d'avocats ou d'experts-comptables, ainsi que les frais liés aux actes juridiques et aux contentieux.

    1. Une entreprise paie une commission de 5% à un agent immobilier pour la vente d'un bien. 2. Un avocat reçoit un honoraire de 150 euros pour une consultation juridique. 3. Un expert-comptable facture 1 000 euros pour la préparation des états financiers d'une entreprise. 4. Un notaire est rémunéré pour 300 euros pour la rédaction d'un acte de vente. 5. Une société paie des frais de 200 euros à un huissier pour l'exécution d'un jugement. 6. Un consultant reçoit 800 euros pour un audit de l'entreprise. 7. Une agence de publicité perçoit une commission de 10% sur les ventes générées par une campagne. 8. Un courtier en assurance est rémunéré pour une prime de 2 500 euros. 9. Un architecte facture 5 000 euros pour la co...
    Ce compte enregistre des dépenses d'exploitation des années précédentes qui n'ont pas encore été enregistrées dans la comptabilité.

    1. Une facture d'électricité de l'année précédente non payée. 2. Des frais de réparation d'équipement non comptabilisés l'année passée. 3. Un loyer impayé d'un mois de l'année précédente. 4. Des coûts de maintenance de machines non enregistrés. 5. Des primes non versées aux employés pour l'année précédente. 6. Des frais juridiques liés à une affaire de l'année dernière. 7. Un abonnement à un service non facturé l'année passée. 8. Des charges sociales d'un employé pour un trimestre antérieur. 9. Une dépense de publicité non comptabilisée pour l'année précédente. 10. Des frais de déplacement d'un employé non remboursés de l'année passée. 11. Des achats de fournitures de bureau non enregistrés. 12. Des frais de formation pour des employés non comptabilisés. 13. Des taxes payées en retard pour l'exercice précédent. 14. Des dépenses liées à des événements d'en...
    L'entreprise PRO NUMERIQUE a reçu une facture du fournisseur CARROT pour un montant total de 1300,00 DH TTC. La facture comprend l'impression d'un écran Backlight pour un prix unitaire de 1083,33 DH HT, avec une TVA de 16,67%. Les informations de contact du fournisseur sont indiquées en bas de la page.
    215 - Matériel informatique
    Matériel informatique
    Le compte des achats de travaux, études et prestations de services enregistre les dépenses liées à des services ou travaux réalisés par des tiers pour l'entreprise.

    1. Une entreprise de construction engage un architecte pour concevoir un nouveau bâtiment.
    2. Un restaurant paie un service de nettoyage professionnel pour entretenir ses locaux.
    3. Une société de marketing externalise la création de son site web à une agence spécialisée.
    4. Un cabinet médical fait appel à un service de comptabilité pour gérer ses finances.
    5. Une entreprise de transport utilise une société externe pour des études de marché.
    6. Une école embauche une agence pour organiser des événements scolaires.
    7. Une société de sécurité paie une entreprise de gardiennage pour protéger ses locaux.
    8. Un club sportif engage un entraîneur externe pour ses équipes.
    9. Une société de production audiovisuelle sous-traite la post-production d'un film.
    10. Une entreprise de logiciels recrute des développeurs freelance pour un ...
    Les achats de marchandises « groupe A » représentent les achats effectués par une entreprise pour des biens classés dans une catégorie spécifique, durant une période donnée. Ce compte permet de suivre les dépenses liées aux marchandises de ce groupe et de gérer la TVA associée.

    1. Une épicerie achète des fruits et légumes pour reconstituer son stock. 2. Un magasin de vêtements acquiert des nouvelles collections pour la saison. 3. Un restaurant achète des ingrédients pour préparer ses plats. 4. Une librairie se procure des livres d'un nouvel auteur. 5. Un fournisseur de matériel informatique achète des ordinateurs pour les revendre. 6. Une boutique de cosmétiques fait un achat de produits de beauté en gros. 7. Une entreprise de construction achète des matériaux de construction comme du ciment et des briques. 8. Une société d'événementiel acquiert des décorations pour un mariage. 9. Un café achète du café et du thé pour ses clients. 10. Un fleuriste commande des fleurs pour ses arrangem...
    L'entreprise a organisé un événement de lancement avec des frais répartis sur plusieurs mois afin de toucher un large public. Les frais de publicité sont des dépenses engagées pour promouvoir un produit ou un service, souvent réparties sur plusieurs années, comme les frais de participation à des foires ou l'impression de grandes quantités de catalogues.

    1. Participer à un salon professionnel pour présenter une nouvelle gamme de produits. 2. Imprimer 10 000 brochures pour une campagne marketing. 3. Louer un espace publicitaire dans un magazine pendant plusieurs mois. 4. Développer une campagne publicitaire à la télévision sur plusieurs semaines. 5. Créer et diffuser une série de publicités sur les réseaux sociaux pendant un an. 6. Concevoir un site web pour promouvoir un événement sur plusieurs années. 7. Organiser un événement de lancement avec des frais répartis sur plusieurs mois. 8. Distribuer des échantillons gratuits dans les supermarchés sur une période prolongée. 9. Produire des vidéos promotionnelles qui seront utilisées pendant plusieurs saisons. 10. Acheter des panneaux d'affichage pour une campagn...
    Le compte des frais postaux et de télécommunication enregistre les dépenses liées à l'envoi de courrier et aux communications électroniques. Cela inclut l'achat de timbres, d'enveloppes préaffranchies, les frais de téléphone, les télégrammes et les envois de fax.

    1. Achat de timbres pour envoyer des lettres. 2. Paiement d'une facture de téléphone fixe. 3. Achat d'enveloppes préaffranchies pour des envois rapides. 4. Envoi d'un télégramme pour une annonce urgente. 5. Utilisation d'un service de fax pour transmettre un document officiel. 6. Abonnement à un service de messagerie instantanée pour communiquer avec des clients. 7. Réception d'une facture de téléphone mobile. 8. Envoi d'une carte postale pendant les vacances. 9. Paiement pour un service de téléconférence. 10. Envoi de messages via un service de télex. 11. Achat de cartes de téléphone prépayées. 12. Frais d'un service d'envoi express pour des documents importants. 13. Utilisation d'un service de messagerie pour livrer des col...
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Evaluation Dataset

invoices_embedding_2

  • Dataset: invoices_embedding_2 at af1df68
  • Size: 49 evaluation samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 49 samples:
    anchor positive negative
    type string string string
    details
    • min: 17 tokens
    • mean: 38.29 tokens
    • max: 126 tokens
    • min: 274 tokens
    • mean: 376.78 tokens
    • max: 507 tokens
    • min: 319 tokens
    • mean: 432.14 tokens
    • max: 655 tokens
  • Samples:
    anchor positive negative
    L'achat concerne des emballages en plastique pour protéger des produits fragiles lors de leur transport dans l'industrie. Les achats d'emballages concernent l'acquisition de matériaux utilisés pour conditionner des produits, incluant les emballages perdus, récupérables et à usage mixte.

    1. Achat de cartons pour expédier des marchandises. 2. Acquisition de bouteilles en plastique pour une boisson. 3. Commande de tonneaux en métal pour le stockage. 4. Récupération de caisses en bois d'un fournisseur. 5. Achat de sacs en papier pour des produits alimentaires. 6. Commande d'emballages en polystyrène pour protéger des objets fragiles. 7. Utilisation de bouteilles en verre pour des jus de fruits. 8. Acquisition d'emballages biodégradables pour des produits cosmétiques. 9. Achat de film plastique pour envelopper des palettes. 10. Commande de boîtes en métal pour des conserves. 11. Récupération d'emballages à usage mixte pour un événement. 12. Achat de barquettes en plastique pour des plats à emporter. 13. Commande de pots en verre pour des confitures. 14. Utilisation de caisses en carton pour le transport de vê...
    Les autres charges à répartir sont des frais significatifs qui ne peuvent pas être entièrement couverts dans une seule période comptable et doivent donc être étalés sur plusieurs exercices. Cela inclut, par exemple, les coûts liés à des projets de recherche ou d'autres investissements à long terme.

    1. Coûts de lancement d'un produit étalés sur plusieurs années. 2. Frais de formation des employés répartis sur plusieurs exercices. 3. Dépenses de publicité pour une campagne qui dure plusieurs mois ou années. 4. Coûts de rénovation d'un bâtiment amortis sur plusieurs années. 5. Investissements en technologie étalés sur la durée de vie de l'équipement. 6. Charges liées à un contrat de service de plusieurs années. 7. Dépenses pour un événement annuel réparties sur plusieurs exercices. 8. Coûts de développement d'un logiciel amortis sur sa durée d'utilisation. 9. Frais juridiques pour un procès étalés sur les années de litige. 10. Dépenses d'acquisition d'une licence réparties sur sa durée d...
    L'achat porte sur des meubles de rangement pour organiser les fournitures de bureau dans un environnement de travail. Le mobilier de bureau désigne l'ensemble des meubles utilisés dans un espace de travail, tels que les bureaux, chaises, tables et rangements, qui contribuent à l'organisation et au confort des employés.

    1. Un bureau en bois massif dans un cabinet d'architecte. 2. Des chaises ergonomiques dans une salle de réunion. 3. Un espace de travail avec des tables modulables dans une start-up. 4. Des étagères pour ranger des dossiers dans un bureau administratif. 5. Un comptoir d'accueil dans une entreprise. 6. Des fauteuils confortables dans une salle d'attente. 7. Un bureau debout pour favoriser une meilleure posture. 8. Des meubles de rangement pour les fournitures de bureau. 9. Une table de conférence pour les réunions d'équipe. 10. Un bureau partagé dans un espace de coworking. 11. Des casiers pour les effets personnels des employés. 12. Un meuble TV dans une salle de pause. 13. Des panneaux de séparation pour créer des espaces privés. 14. Des meubles de rangement pour l'équipement informat...
    Les impôts, taxes et droits assimilés sont des prélèvements obligatoires que les citoyens et entreprises doivent payer à l'État ou à des collectivités. Cela inclut des frais comme les droits d'enregistrement, les taxes sur les véhicules et d'autres impôts non spécifiquement classés ailleurs.

    1. La taxe d'habitation que vous payez chaque année. 2. La vignette automobile pour pouvoir circuler avec votre véhicule. 3. Les droits d'enregistrement lors de l'achat d'un bien immobilier. 4. La taxe sur les produits pétroliers lorsque vous faites le plein. 5. Les frais de timbre pour légaliser un document. 6. La taxe sur les spectacles pour assister à un concert. 7. Les impôts sur les sociétés que les entreprises doivent payer sur leurs bénéfices. 8. La taxe sur la valeur ajoutée (TVA) incluse dans vos achats. 9. Les droits d'accise sur les boissons alcoolisées. 10. La taxe foncière sur les propriétés immobilières. 11. Les frais pour le renouvellement de votre carte grise. 12. La contribution à...
    Un terminal portuaire équipé de systèmes automatisés pour gérer le chargement et le déchargement de marchandises. Les installations techniques sont des ensembles de biens, matériels et constructions, qui fonctionnent ensemble. La séparation de l'un d'eux compromet l'utilité des autres. Par exemple, une salle de serveurs est une installation technique si elle est spécialement conçue pour accueillir des équipements informatiques, et retirer ces équipements rend la salle inutile.

    1. Une salle de serveurs dédiée à des ordinateurs.
    2. Un système de climatisation installé pour maintenir la température dans une usine.
    3. Un ascenseur conçu uniquement pour desservir un bâtiment commercial.
    4. Un réseau de plomberie dans un immeuble résidentiel.
    5. Un système électrique spécifique à une chaîne de production.
    6. Un laboratoire équipé de matériels scientifiques spécialisés.
    7. Une cuisine professionnelle intégrée dans un restaurant.
    8. Un parc de stationnement construit uniquement pour les véhicules d'une entreprise.
    9. Un système de sécurité installé pour protéger un site industriel.
    10. Une ligne de produ...
    Les impôts et taxes indirects sont des prélèvements que l'on paie lors de l'achat de biens ou de services, sans qu'ils soient directement inclus dans le prix. Ils peuvent inclure des droits de douane, des taxes sur la valeur ajoutée (TVA) ou d'autres charges qui s'ajoutent au coût initial.

    1. Lors de l'importation d'un produit, le droit de douane appliqué en plus du prix d'achat. 2. La TVA ajoutée à l'achat d'un vêtement dans un magasin. 3. Les taxes sur les carburants lors du remplissage d'un réservoir de voiture. 4. Les droits d'accise sur l'achat d'alcool ou de tabac dans un commerce. 5. Les frais de transport international qui incluent des taxes de passage. 6. Les tarifs d'importation sur des produits électroniques. 7. Les taxes sur les services de télécommunication comme la téléphonie mobile. 8. Les droits sur les produits alimentaires importés. 9. Les taxes environnementales sur les emballages de produits. 10. Les frais de douane pour l'importation de meubles. 11. Les taxes sur ...
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • num_train_epochs: 1
  • warmup_ratio: 0.1
  • fp16: True
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 1
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step all-nli-test_cosine_accuracy
1.0 25 1.0

Framework Versions

  • Python: 3.10.12
  • Sentence Transformers: 3.3.1
  • Transformers: 4.46.3
  • PyTorch: 2.5.1+cu121
  • Accelerate: 1.1.1
  • Datasets: 3.2.0
  • Tokenizers: 0.20.3

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
36
Safetensors
Model size
137M params
Tensor type
F32
·
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Model tree for Noureddinesa/Invoices_NomicV1.5_1

Finetuned
(18)
this model

Dataset used to train Noureddinesa/Invoices_NomicV1.5_1

Evaluation results