tomaarsen's picture
tomaarsen HF Staff
Update README.md
11b6664 verified
metadata
language:
  - nl
license: apache-2.0
tags:
  - sentence-transformers
  - sparse-encoder
  - sparse
  - splade
  - generated_from_trainer
  - dataset_size:483497
  - loss:SpladeLoss
  - loss:SparseMarginMSELoss
  - loss:FlopsLoss
base_model: DTAI-KULeuven/robbert-2023-dutch-base
widget:
  - text: Welke van de buikspieren is het meest oppervlakkig?
  - text: Hebben kassasystemen internet nodig
  - text: >-
      Hagel is neerslag in de vorm van grote ballen of klompen ijs. Begin vorige
      week was er een storm die hagel produceerde. Hagel begint als kleine
      ijsdeeltjes die voornamelijk groeien door accretie; om groot te worden,
      hebben ze overvloedige waterdruppels nodig. Terwijl de hagelsteen naar
      boven en naar beneden beweegt door de storm, botst hij tegen
      waterdruppels, waardoor hij met elke botsing groter wordt. Hagelstenen
      kunnen zo groot worden als sinaasappels en grapefruits. Hagelstenen
      beginnen als kleine ijsdeeltjes die voornamelijk groeien door accretie; om
      groot te worden, hebben ze overvloedige waterdruppels nodig. Terwijl de
      hagelsteen naar boven en naar beneden beweegt door een storm, botst hij
      tegen waterdruppels, waardoor hij met elke botsing groter wordt.
      Hagelstenen kunnen zo groot worden als sinaasappels en grapefruits.
  - text: wat is WIST
  - text: >-
      Bij het bouwen met gietwanden wordt de vloeren van de kelder voorbereid
      alsof het een plaatvloer is, vaak met de betonnen vloer die wordt gestort
      nadat de bovenste verdiepingen zijn geplaatst en het dak, de ramen en de
      deuren zijn geïnstalleerd. De leidingen voor vloerdrainage en piping
      moeten worden aangelegd vóór het storten.
datasets:
  - tomaarsen/msmarco-Qwen3-Reranker-0.6B-dutch
pipeline_tag: feature-extraction
library_name: sentence-transformers
metrics:
  - dot_accuracy@1
  - dot_accuracy@3
  - dot_accuracy@5
  - dot_accuracy@10
  - dot_precision@1
  - dot_precision@3
  - dot_precision@5
  - dot_precision@10
  - dot_recall@1
  - dot_recall@3
  - dot_recall@5
  - dot_recall@10
  - dot_ndcg@10
  - dot_mrr@10
  - dot_map@100
  - query_active_dims
  - query_sparsity_ratio
  - corpus_active_dims
  - corpus_sparsity_ratio
co2_eq_emissions:
  emissions: 527.1889196785908
  energy_consumed: 1.4281761636263346
  source: codecarbon
  training_type: fine-tuning
  on_cloud: false
  cpu_model: AMD EPYC 7R13 Processor
  ram_total_size: 1999.9855346679688
  hours_used: 0.399
  hardware_used: 8 x NVIDIA H100 80GB HBM3
model-index:
  - name: Splade robbert-2023-dutch-base finetuned on MSMARCO
    results:
      - task:
          type: sparse-information-retrieval
          name: Sparse Information Retrieval
        dataset:
          name: msmarco eval 1k
          type: msmarco-eval-1k
        metrics:
          - type: dot_accuracy@1
            value: 0.796
            name: Dot Accuracy@1
          - type: dot_accuracy@3
            value: 0.907
            name: Dot Accuracy@3
          - type: dot_accuracy@5
            value: 0.932
            name: Dot Accuracy@5
          - type: dot_accuracy@10
            value: 0.958
            name: Dot Accuracy@10
          - type: dot_precision@1
            value: 0.796
            name: Dot Precision@1
          - type: dot_precision@3
            value: 0.3023333333333333
            name: Dot Precision@3
          - type: dot_precision@5
            value: 0.18640000000000004
            name: Dot Precision@5
          - type: dot_precision@10
            value: 0.09580000000000001
            name: Dot Precision@10
          - type: dot_recall@1
            value: 0.796
            name: Dot Recall@1
          - type: dot_recall@3
            value: 0.907
            name: Dot Recall@3
          - type: dot_recall@5
            value: 0.932
            name: Dot Recall@5
          - type: dot_recall@10
            value: 0.958
            name: Dot Recall@10
          - type: dot_ndcg@10
            value: 0.8808059179687359
            name: Dot Ndcg@10
          - type: dot_mrr@10
            value: 0.8556781746031749
            name: Dot Mrr@10
          - type: dot_map@100
            value: 0.8569044018336731
            name: Dot Map@100
          - type: query_active_dims
            value: 62.608001708984375
            name: Query Active Dims
          - type: query_sparsity_ratio
            value: 0.9987478399658203
            name: Query Sparsity Ratio
          - type: corpus_active_dims
            value: 255.89559936523438
            name: Corpus Active Dims
          - type: corpus_sparsity_ratio
            value: 0.9948820880126952
            name: Corpus Sparsity Ratio

Splade robbert-2023-dutch-base finetuned on MSMARCO

This is a SPLADE Sparse Encoder model finetuned from DTAI-KULeuven/robbert-2023-dutch-base on the msmarco-qwen3-reranker-0.6_b-dutch dataset using the sentence-transformers library. It maps sentences & paragraphs to a 50000-dimensional sparse vector space and can be used for semantic search and sparse retrieval.

Model Details

Model Description

Model Sources

Full Model Architecture

SparseEncoder(
  (0): MLMTransformer({'max_seq_length': 512, 'do_lower_case': False, 'architecture': 'RobertaForMaskedLM'})
  (1): SpladePooling({'pooling_strategy': 'max', 'activation_function': 'relu', 'word_embedding_dimension': 50000})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SparseEncoder

# Download from the 🤗 Hub
model = SparseEncoder("sparse-encoder/splade-robbert-dutch-base-v1")
# Run inference
queries = [
    "hoe maak je een keldervloer glad",
]
documents = [
    'V: Ik wil een keldervloer schilderen, maar het beton is te ruw. Is er een gemakkelijke manier om het glad te maken? A: Je kunt het voorafgaand aan het schilderen voorzien van een nieuwe laag. Een overlay compound - ook wel zelfnivellerende compound genoemd - is een op gips gebaseerd product dat zichzelf nivelleert wanneer het over de vloer wordt gegoten. Het kan tot een dikte van 1,25 cm of meer worden gegoten, afhankelijk van het product. Je verspreidt het product met een trekker. Zodra het is uitgehard, zal de vloer glad en gelijkmatig zijn.',
    'Deel 1: Vocht in de kelder elimineren. Een van de belangrijkste aspecten van het renoveren van een kelder is ervoor zorgen dat deze droog en warm is. Bob praat met Larry Janesky van Basement Systems over de stappen die zijn genomen om de kelder in Melrose droog te houden. Een vergrendelbare kunststof ondervloer fungeert als een ondervloer voor de keldervloer.',
    'Plaats een 1,2 meter lange waterpas op de vloer naast de muur om te controleren of de vloer vlak is. Zo niet, schuif de waterpas over de vloer om het laagste punt te vinden. Op dat punt, bevestig een reststukje plint met een spijker aan de muur.',
]
query_embeddings = model.encode_query(queries)
document_embeddings = model.encode_document(documents)
print(query_embeddings.shape, document_embeddings.shape)
# [1, 50000] [3, 50000]

# Get the similarity scores for the embeddings
similarities = model.similarity(query_embeddings, document_embeddings)
print(similarities)
# tensor([[16.1220, 10.5006,  8.6634]])

Evaluation

Metrics

MTEB

To evaluate this model, we've evaluated it on BelebeleRetrieval (nld-nld) and WikipediaRetrievalMultilingual (nld): the two Dutch Retrieval tasks recommended by MMTEB.

image/png

As shown in this figure, splade-robbert-dutch-base-v1 heavily outperforms the only other Dutch-capable Sparse embedding model, and outperforms all equally sized dense embedding models, despite only using an average of ~250 active (non-zero) dimensions for documents (during training).

Click to see the full table
Model Number of Parameters BelebeleRetrieval WikipediaRetrievalMultilingual
multilingual-e5-large-instruct 560M 94.725 92.342
multilingual-e5-large 560M 94.607 -
Solon-embeddings-large-0.1 559M 93.651 91.239
snowflake-arctic-embed-l-v2.0 568M 93.318 90.902
bge-m3 568M 93.859 90.106
multilingual-e5-base 278M 93.731 89.905
jina-embeddings-v3 572M 93.105 90.296
splade-robbert-dutch-base-v1 124M 93.389 88.937
multilingual-e5-small 118M 92.859 88.662
KaLM-embedding-multilingual-mini-v1 494M 91.453 88.413
Qwen3-Embedding-0.6B 595M 91.686 88.121
snowflake-arctic-embed-m-v2.0 305M 88.358 88.898
granite-embedding-278m-multilingual 278M 87.039 86.324
gte-multilingual-base 305M 89.204 83.976
KaLM-embedding-multilingual-mini-instruct-v1 494M 85.648 85.877
granite-embedding-107m-multilingual 107M 85.068 85.097
robbert-2022-dutch-sentence-transformers 124M 86.146 82.553
opensearch-neural-sparse-encoding-multilingual-v1 167M 80.101 85.529
paraphrase-multilingual-mpnet-base-v2 278M 83.910 76.676
e5-large-v2 335M 76.433 79.711
STS-multilingual-mpnet-base-v2 278M 80.625 73.803
paraphrase-multilingual-MiniLM-L12-v2 118M 81.021 71.091
snowflake-arctic-embed-m 109M 65.511 74.801
potion-multilingual-128M 128M 72.454 65.559
static-similarity-mrl-multilingual-v1 108M 67.375 69.050
snowflake-arctic-embed-m-long 137M 67.947 65.988
snowflake-arctic-embed-m-v1.5 109M 65.511 67.920
bge-base-en-v1.5 109M 61.073 72.093
snowflake-arctic-embed-s 32M 58.683 70.887
potion-base-8M 7M 22.563 40.107

Sparse Information Retrieval

Metric Value
dot_accuracy@1 0.796
dot_accuracy@3 0.907
dot_accuracy@5 0.932
dot_accuracy@10 0.958
dot_precision@1 0.796
dot_precision@3 0.3023
dot_precision@5 0.1864
dot_precision@10 0.0958
dot_recall@1 0.796
dot_recall@3 0.907
dot_recall@5 0.932
dot_recall@10 0.958
dot_ndcg@10 0.8808
dot_mrr@10 0.8557
dot_map@100 0.8569
query_active_dims 62.608
query_sparsity_ratio 0.9987
corpus_active_dims 255.8956
corpus_sparsity_ratio 0.9949

Training Details

Training Dataset

msmarco-qwen3-reranker-0.6_b-dutch

  • Dataset: msmarco-qwen3-reranker-0.6_b-dutch at 134d739
  • Size: 483,497 training samples
  • Columns: query, positive, negative_1, negative_2, negative_3, negative_4, negative_5, negative_6, negative_7, negative_8, and score
  • Approximate statistics based on the first 1000 samples:
    query positive negative_1 negative_2 negative_3 negative_4 negative_5 negative_6 negative_7 negative_8 score
    type string string string string string string string string string string list
    details
    • min: 4 tokens
    • mean: 10.0 tokens
    • max: 42 tokens
    • min: 19 tokens
    • mean: 92.8 tokens
    • max: 512 tokens
    • min: 18 tokens
    • mean: 79.04 tokens
    • max: 251 tokens
    • min: 15 tokens
    • mean: 81.89 tokens
    • max: 267 tokens
    • min: 13 tokens
    • mean: 80.76 tokens
    • max: 260 tokens
    • min: 20 tokens
    • mean: 82.41 tokens
    • max: 303 tokens
    • min: 13 tokens
    • mean: 82.67 tokens
    • max: 244 tokens
    • min: 13 tokens
    • mean: 82.92 tokens
    • max: 221 tokens
    • min: 13 tokens
    • mean: 84.15 tokens
    • max: 255 tokens
    • min: 16 tokens
    • mean: 82.19 tokens
    • max: 237 tokens
    • size: 9 elements
  • Samples:
    query positive negative_1 negative_2 negative_3 negative_4 negative_5 negative_6 negative_7 negative_8 score
    wat is clomifeen Indicaties van dit medicijn. Clomifeen wordt gebruikt als vruchtbaarheidsmedicijn bij sommige vrouwen die niet in staat zijn om zwanger te raken. Clomifeen werkt waarschijnlijk door de hormonale balans in het lichaam te veranderen. Bij vrouwen zorgt dit ervoor dat ovulatie plaatsvindt en bereidt het lichaam voor op een zwangerschap. Clomifeen-citraat, een synthetisch hormoon dat vaak wordt gebruikt om ovulatie op te wekken of te reguleren, is de meest voorgeschreven vruchtbaarheidspil. Merknamen voor clomifeen-citraat zijn Clomid en Serophene. Clomifeen werkt indirect om de ovulatie te stimuleren. Af en toe kan clomifeen de eierstokken te veel stimuleren, waardoor er meerdere eieren worden vrijgegeven, wat kan leiden tot meerlingen, zoals tweelingen of drieling (zie Clomid en Tweelingen). Clomifeen is een van de goedkoopste en makkelijkste vruchtbaarheidsmedicijnen. Het werkt echter niet voor alle soorten onvruchtbaarheid. Uw zorgverlener moet eerst de oorzaak van uw onvruchtbaarheid proberen te achterhalen voordat u clomifeen gaat gebruiken. Clomifeencitraat biedt twee voordelen voor de prestatieverhogende atleet, waarvan er één primair is. Meest voorkomende is dat deze SERM wordt gebruikt voor herstel na een cyclus; specifiek om de natuurlijke testosteronproductie te stimuleren die onderdrukt is door het gebruik van anabole steroïden. PCOS en ovulatieproblemen en Clomid-behandeling. Clomid (clomifeencitraat of Serophene) is een orale medicatie die vaak wordt gebruikt voor de behandeling van onvruchtbaarheid. Het wordt vaak gegeven om de ovulatie te stimuleren bij vrouwen die zelf geen eicel ontwikkelen en loslaten (ovuleren). Indicatie: Clomid (clomifeencitraat) is vaak de eerste keuze voor het behandelen van onvruchtbaarheid, omdat het effectief is en al meer dan 40 jaar gebruikt wordt. Clomid Beschrijving. Clomid (clomifeen citrate tabletten USP) is een oraal toegediend, niet-steroïdaal ovulatie-stimulerend middel, chemisch aangeduid als 2-[p-(2-chloore-1,2-dfenylvinyl)fenoxy] triëthylamine citrate (1:1). Het heeft de moleculaire formule C26H28ClNO • C6H8O7 en een moleculair gewicht van 598,09. PCOS en ovulatieproblemen en Clomid-behandeling. Clomid (clomifeencitraat of Serophene) is een orale medicatie die veelvuldig wordt gebruikt voor de behandeling van onvruchtbaarheid. Het wordt vaak gegeven om de ovulatie te stimuleren bij vrouwen die geen eicel ontwikkelen en vrijgeven (ovuleren) op eigen kracht. Clomid wordt vroeg in de menstruatiecyclus gestart en gedurende vijf dagen ingenomen, ofwel van cyclusdag 3 tot en met 7, of van dag 5 tot en met 9. Clomid wordt meestal gestart met een dosis van één tablet (50 mg) dagelijks, op een moment van de dag naar keuze. Clomid wordt in de vorm van een pil ingenomen. Dit is anders dan de sterkere vruchtbaarheidsmedicatie, die geïnjecteerd moet worden. Clomid is ook zeer effectief en stimuleert de ovulatie in 80 procent van de gevallen. Clomid kan ook op de markt worden gebracht onder de naam Serophene, of je kunt het onder de generieke naam clomifeencitraat tegenkomen. Opmerking: Clomid kan ook worden gebruikt als behandeling voor mannelijke onvruchtbaarheid. Dit artikel richt zich op de behandeling met Clomid bij vrouwen. [4.75390625, 6.9375, 3.92578125, 1.0400390625, 5.61328125, ...]
    typische accountant kosten voor IT aannemer In de huidige markt hebben we tarieven gezien van zo laag als €60 +BTW, en zo hoog als €216 +BTW voor gespecialiseerde accountants voor aannemers. Interessant is dat de gemiddelde kosten voor aannemeraccounting de afgelopen tien jaar niet in lijn zijn gestegen met de inflatie. Dus, hoeveel kost een aannemer? Dit ligt tussen de 5% en 25% van de totale projectkosten, met een gemiddelde van 10-15%. Typisch bestaat de ploeg van de aannemer uit algemene timmerlieden, sommigen met meer gespecialiseerde vaardigheden. Hoe een aannemer precies in rekening brengt voor een project hangt af van het type contract waarop je je akkoord hebt gegeven. Er zijn drie veelvoorkomende soorten kostencorrespondenties: vaste prijs, tijd & materialen en kosten plus een vergoeding. 1 Accountants vragen tussen de €140 en €360 of meer per uur, afhankelijk van de soort werkzaamheden, de grootte van het kantoor en de locatie. 2 Voor routinematige werkzaamheden door een minder ervaren medewerker of minder goed opgeleide werknemer betaal je lager tarief, bijvoorbeeld tussen de €25 en €45 voor boekhoudkundige diensten. 3 Het totale honorarium van een accountant hangt af van het project. Voor een simpele oprichting, reken op minimaal 0,5-1,5 uur consult (€70-€520) om je bedrijfsstructuur en basis belastingvraagstukken door te nemen. Dus, hoeveel kost een aannemer? Dit varieert van 5% tot 25% van de totale projectkosten, met gemiddeld tussen de 10-15%. Hoe een aannemer precies rekent voor een project hangt af van het type contract waar je mee akkoord gaat. Er zijn drie veelvoorkomende types kostencontracten: vaste prijs, tijd en materialen, en kostprijs plus een vergoeding. Elk type contract heeft voor- en nadelen voor zowel de consument als de aannemer. 1 Accountants vragen €140 - €370 of meer per uur, afhankelijk van het type werk, de grootte van het bureau en de locatie. 2 Je betaalt lagere tarieven voor routinematig werk dat wordt gedaan door een minder ervaren medewerker of minder goed opgeleide werknemer, zoals €28 - €46 voor boekhoudkundige diensten. 3 De totale kosten van een accountant hangen af van het project. gemiddelde toetsaanslagen per uur salarissen het gemiddelde salaris voor toetsaanslagen per uur in dataverwerking is € 18.500 Boekhoudkundige diensten kosten doorgaans tussen de €225 en €360 per maand, of tussen de €315 en €450 per kwartaal. Inclusief btw en bankafschriften. Wij verzorgen alle verwerking, indiening en belastingdeposities. 5 werknemers, tweewekelijks salaris, automatische incasso, €125 per maand. Hoe minder uitbesteed wordt, hoe goedkoper het voor je zal zijn. Een boekhouder zou tussen de €13 en €16 per uur betaald moeten worden. Een accountant met een bachelor (4 jaar) zou ergens rond de €18 per uur betaald moeten worden, maar dat hangt nog steeds af van wat je ze laat doen. Een accountant met een mastergraad zou tussen de €23 en €27 per uur betaald moeten worden. Salaris op basis van ervaringsniveau voor Inlichtingenanalisten. Mediaan van alle compensatie (inclusief fooi, bonus en overuren) op basis van jaren ervaring. Inlichtingenanalisten met veel ervaring hebben doorgaans hogere inkomsten. [7.44921875, 3.271484375, 5.859375, 3.234375, 5.421875, ...]
    wat is mch op een bloedtest Wat hoge niveaus betekenen. MCH-niveaus in bloedtesten worden als hoog beschouwd als ze 35 of hoger zijn. Een normaal hemoglobine-niveau wordt als zijnde in het bereik van 26 tot 33 picogram per rode bloedcel beschouwd. Hoge MCH-niveaus kunnen wijzen op macrocytaire anemie, wat kan worden veroorzaakt door een tekort aan vitamine B12. Macrocytaire RBC's zijn groot, waardoor ze doorgaans een hoger MCH hebben, terwijl microcytaire rode cellen een lagere waarde zouden hebben. MCH is een van de drie indices van rode bloedcellen (MCHC en MCV zijn de andere twee). De metingen worden uitgevoerd door een machine en kunnen helpen bij de diagnose van medische problemen. MCH staat voor gemiddelde corpusculaire hemoglobine. Het schat de gemiddelde hoeveelheid hemoglobine in elk rode bloedcel, gemeten in picogrammen (een biljoenste van een gram). Geautomatiseerde cel telmachines berekenen de MCH, die gerapporteerd wordt als onderdeel van een volledig bloedonderzoek (CBC). MCH kan laag zijn bij ijzertekortanemie en kan hoog zijn bij anemie door een tekort aan vitamine B12 of foliumzuur. Andere vormen van anemie kunnen ook leiden tot een abnormale MCH. Dokters gebruiken de MCH alleen als ondersteunende informatie, niet om een diagnose te stellen. A. MCH staat voor gemiddelde corpusculaire hemoglobine. Het schat de gemiddelde hoeveelheid hemoglobine in elke rode bloedcel, gemeten in picogram (een biljoenste van een gram). Geautomatiseerde cel telmachines berekenen de MCH, die wordt gerapporteerd als onderdeel van een compleet bloedbeeld (CBC) test. MCH kan laag zijn bij ijzertekortanemie en kan hoog zijn bij anemie door vitamine B12- of foliumzuurtekort. Andere vormen van anemie kunnen ook leiden tot een abnormale MCH. De test die wordt gebruikt om de hoeveelheid hemoglobine in het bloed te bepalen, staat bekend als de MCH-bloedtest. De volle betekenis van MCH is Gemiddelde Corpusculaire Hemoglobine. Deze test wordt daarom gebruikt om de gemiddelde hoeveelheid hemoglobine per rode bloedcel in het lichaam te bepalen. De resultaten van de MCH-bloedtest worden gerapporteerd in picogram, een erg kleine maat voor gewicht. Een hoge MCH-bloedtest geeft aan dat er een slechte zuurstoftoevoer naar het bloed is, terwijl een lage MCH-bloedtest betekent dat er te weinig hemoglobine in de cellen is, wat wijst op een tekort aan ijzer. Het is belangrijk dat het ijzer op een bepaald niveau wordt gehouden, aangezien te veel of te weinig ijzer gevaarlijk kan zijn voor je lichaam. dia 1 van 7. Wat is MCH? MCH is de afkorting voor Gemiddelde Corpusculaire Hemoglobine. Afkomstig uit het Latijn verwijst de term naar de gemiddelde hoeveelheid hemoglobine die in rode bloedcellen wordt aangetroffen. Een CBC (volledig bloedbeeld) bloedtest kan worden gebruikt om de MCH-niveaus in het bloed te volgen. Lab Tests Online legt uit dat het MCH-aspect van een CBC-test een maat is voor de gemiddelde hoeveelheid zuurstofdragende hemoglobine in een rode bloedcel. Macrocytische RBC's zijn groot en hebben dus een hogere MCH, terwijl microcytische rode cellen een lagere waarde zouden hebben. De test die gebruikt wordt om de hoeveelheid hemoglobine in het bloed te bepalen, staat bekend als de MCH bloedtest. De volledige naam van MCH is Gemiddelde Corpusculaire Hemoglobine. Deze test wordt dus gebruikt om de gemiddelde hoeveelheid hemoglobine per rode bloedcel in het lichaam te bepalen. De resultaten van de MCH bloedtest worden gerapporteerd in picogrammen, een kleine maat voor gewicht. De normale waarde van de MCH bloedtest ligt tussen 26 en 33 pg per cel. Een MCHC-test is een test die wordt uitgevoerd om een persoon op bloedarmoede te testen. MCHC in een MCHC-test staat voor Gemiddelde Corpusculaire Hemoglobine Concentratie. MCHC is de berekening van de gemiddelde hemoglobine binnen een rode bloedcel. Een MCHC-test kan worden uitgevoerd samen met een MCV-test (Gemiddeld Corpusculair Volume). Beide niveaus worden gebruikt om mensen op bloedarmoede te testen. De MCHC-test staat ook bekend als de MCH-bloedtest, die de niveaus van hemoglobine in het bloed test. De MCHC-test kan worden aangevraagd als onderdeel van een compleet bloedbeeld (CBC) test. CHC wordt gemeten in grammen per deciliter. Normale waarden voor MCHC liggen tussen de 31 gram per deciliter en 35 gram per deciliter. Een MCHC-bloedtest kan worden aangevraagd wanneer een persoon tekenen van vermoeidheid of zwakte vertoont, wanneer er een infectie is, wanneer iemand gemakkelijk bloed of blauwe plekken krijgt, of wanneer er een ontsteking is. De test kijkt naar de gemiddelde hoeveelheid hemoglobine per rode bloedcel. MCHC = de hoeveelheid hemoglobine die aanwezig is in elke rode bloedcel. Een MCHC-bloedtest kan worden aangevraagd voor iemand die tekenen vertoont van vermoeidheid of zwakte, wanneer er een infectie is, wanneer iemand gemakkelijk bloedt of blauwe plekken krijgt, of wanneer er duidelijke ontstekingen zichtbaar zijn. [6.44921875, 7.05078125, 7.2109375, 8.40625, 6.53515625, ...]
  • Loss: SpladeLoss with these parameters:
    {
        "loss": "SparseMarginMSELoss",
        "document_regularizer_weight": 0.08,
        "query_regularizer_weight": 0.1
    }
    

Evaluation Dataset

msmarco-qwen3-reranker-0.6_b-dutch

  • Dataset: msmarco-qwen3-reranker-0.6_b-dutch at 134d739
  • Size: 10,000 evaluation samples
  • Columns: query, positive, negative_1, negative_2, negative_3, negative_4, negative_5, negative_6, negative_7, negative_8, and score
  • Approximate statistics based on the first 1000 samples:
    query positive negative_1 negative_2 negative_3 negative_4 negative_5 negative_6 negative_7 negative_8 score
    type string string string string string string string string string string list
    details
    • min: 4 tokens
    • mean: 9.93 tokens
    • max: 30 tokens
    • min: 7 tokens
    • mean: 92.85 tokens
    • max: 257 tokens
    • min: 15 tokens
    • mean: 80.39 tokens
    • max: 215 tokens
    • min: 15 tokens
    • mean: 79.84 tokens
    • max: 222 tokens
    • min: 16 tokens
    • mean: 81.66 tokens
    • max: 272 tokens
    • min: 16 tokens
    • mean: 81.78 tokens
    • max: 319 tokens
    • min: 16 tokens
    • mean: 83.81 tokens
    • max: 340 tokens
    • min: 12 tokens
    • mean: 79.79 tokens
    • max: 255 tokens
    • min: 13 tokens
    • mean: 82.62 tokens
    • max: 264 tokens
    • min: 15 tokens
    • mean: 80.73 tokens
    • max: 262 tokens
    • size: 9 elements
  • Samples:
    query positive negative_1 negative_2 negative_3 negative_4 negative_5 negative_6 negative_7 negative_8 score
    hoeveel mensen zijn er in dienst bij Shell Shell wereldwijd. Koninklijke Dutch Shell werd opgericht in 1907, hoewel onze geschiedenis teruggaat tot het begin van de 19e eeuw, naar een kleine winkel in Londen waar de familie Samuel schelpen verkocht. Tegenwoordig is Shell een van de grootste energiebedrijven ter wereld, met gemiddeld 93.000 medewerkers en actief in meer dan 70 landen. Ons hoofdkantoor bevindt zich in Den Haag, Nederland, en onze Chief Executive Officer is Ben van Beurden. Toon informatie uit bronnen. Deze statistiek toont het aantal medewerkers bij SeaWorld Entertainment, Inc. in de Verenigde Staten, verdeeld naar type. In december 2016 had SeaWorld 5.000 fulltime medewerkers in dienst en telde ongeveer 13.000 seizoensmedewerkers tijdens hun drukste operationele seizoen. Banen, bedrijven, mensen en artikelen voor leden van LinkedIn's Payroll Specialist - Addus Thuiszorg, Inc. Inzichten over Payroll Specialist - Addus Thuiszorg, Inc. leden op LinkedIn. Mediaan salaris €28.000. Vanaf juli 2014 zijn er 139 miljoen mensen aan het werk in Nederland. Dit aantal is gestegen met 209.000 werknemers ten opzichte van juni en met 1,47 miljoen ten opzichte van het begin van 2014. gemiddelde toetsaanslagen per uur salarissen het gemiddelde salaris voor toetsaanslagen per uur in dataverwerking is € 18.500 Onderzoek en bekijk banen bij Plano Synergy. Leer meer over een carrière bij Plano Synergy, inclusief alle recente vacatures, wervingstrends, salarissen, werkomgeving en meer. Vind vacatures Bedrijfsreviews Vind salarissen Vind cv's Werkgevers / Plaats vacature Upload je cv Inloggen Van miljoenen echte salarisgegevens. 13 salarisgegevens van klantenservice specialisten. Het gemiddelde salaris van een klantenservice specialist is €59.032. Gedetailleerd salarisrapport van klantenservice specialisten, starters salaris, mediaansalaris, loonstructuur, bonusgegevens. Meld je aan en ontdek hoeveel € je kunt verdienen Inloggen Op basis van miljoenen echte salarisgegevens. 1 salarisgegeven van een CEO van Ally. Gemiddeld salaris van een CEO van Ally is €50.000 Gedetailleerd salaris van een startende CEO van Ally, median salaris, loonstructuur, bonusgegevens rapport De voordelen en extraatjes van HelpSystems, waaronder verzekeringen, pensioenregelingen en vakantietijd. Anoniem gerapporteerd door medewerkers van HelpSystems. Glassdoor gebruikt cookies om je gebruikerservaring op de site te verbeteren. [6.265625, -1.3671875, -6.91796875, 1.111328125, -7.96875, ...]
    wat is een lcsw LCSW is een afkorting voor geregistreerd klinisch sociaal werker, en mensen met deze titel zijn geschoolde professionals die aan bepaalde vereisten voldoen en in verschillende gebieden werken. De term sociaal werker is niet altijd synoniem met geregistreerd klinisch sociaal werker. LISW betekent dat de persoon een Geregistreerd Onafhankelijk Maatschappelijk Werker is. LCSW betekent dat de persoon een Geregistreerd Klinisch Maatschappelijk Werker is. Bron(nen): Inleiding tot Maatschappelijk Werk 101 aan de Universiteit van Nevada, Las Vegas (UNLV) Dorothy K. · 10 jaar geleden. Een LCSW is een geregistreerde klinische sociaal werker. Een LMHC is de nieuwste toevoeging aan het veld van geestelijke gezondheidszorg. Ze zijn sterk vergelijkbaar en kunnen de meeste van dezelfde taken uitvoeren met enkele uitzonderingen. Een belangrijk punt om rekening mee te houden is dat, omdat de LMHC-licentie zo nieuw is, er minder van zijn in het vakgebied. De Licensed Clinical Social Worker of LCSW is een subsectie binnen het vakgebied van de Maatschappelijk Werk. Zij werken met cliënten om hen te helpen omgaan met problemen die verband houden met hun mentale en emotionele gezondheid. Dit kan gerelateerd zijn aan middelenmisbruik, traumatische ervaringen uit het verleden of psychische aandoeningen. Gecertificeerd Klinisch Maatschappelijk Werker LCSW. De Gecertificeerd Klinisch Maatschappelijk Werker of LCSW is een subsectie binnen het vakgebied van Maatschappelijk Werk. LCSW's werken met cliënten om hen te helpen omgaan met kwesties die verband houden met mentale en emotionele gezondheid. Er zijn veel verschillende specialisaties waarop de Gecertificeerd Klinisch Maatschappelijk Werker zich kan richten. Het LMSW-examen is een computergebaseerde test met 170 meerkeuzevragen die zijn ontworpen om minimale competenties te meten in vier categorieën van sociaal werkpraktijk: Menselijke ontwikkeling, diversiteit en gedrag in de omgeving. Beoordeling en interventieplanning. De Geregistreerde Gezondheidspsycholoog, ook wel GZ-psycholoog genoemd, is een tak van de sociale wetenschappen die zich specialiseert in geestelijke gezondheidszorg in een counselingformaat. Het worden van een GZ-psycholoog vereist een aanzienlijke mate van opleiding, waaronder het hebben behaald van een Master Sociale Wetenschappen (MSW) diploma van een geaccrediteerd programma. a. De examenvereisten voor licentiëring als een LCSW omvatten het slagen voor het Klinisch Examen van de ASWB of het Klinisch Sociaal Werkers Examen van de Staat Californië. Toepassingsgebied - Beperkingen. a. Voor zover zij zijn voorbereid door opleiding en training, kan een LCSW zich bezighouden met alle handelingen en praktijken die zijn gedefinieerd als de praktijk van klinisch sociaal werk. G gecertificeerd Sociaal Werk (CSW): CSW betekent een gecertificeerde sociaal werker met vergunning. Een CSW moet een masterdiploma hebben. De LTCM-client is een manier voor bedrijven om in contact te blijven met u, hun klanten, op een manier die niet opdringerig is en volledig onder controle van de gebruiker staat. Het is een applicatie die stilletjes op de computer draait. Gebruikers kunnen en moeten de client aanpassen aan hun gewenste voorkeuren. [7.34375, 6.046875, 7.09765625, 6.46484375, 7.28515625, ...]
    bevat oolong thee veel cafeïne? Bij een bepaald gewicht bevat thee meer cafeïne dan koffie, maar dit betekent niet dat een gebruikelijke portie thee meer cafeïne bevat dan koffie, omdat thee meestal zwak wordt gezet. Sommige soorten thee, zoals oolong en zwarte thee, bevatten een hoger niveau van cafeïne dan de meeste andere theeën. Onder de zes basis theeën (groen, zwart, geel, wit, oolong, donker), bevat groene thee minder cafeïne dan zwarte thee en witte thee bevat minder dan groene thee. Maar veel studies hebben aangetoond dat het cafeïnegehalte meer varieert tussen individuele theeën dan tussen brede categorieën. Eigenlijk heeft oolongthee minder cafeïne dan koffie en zwakte thee. Een kopje oolongthee heeft slechts ongeveer 1/3 van de cafeïne van een kopje koffie. Volgens een onderzoek uitgevoerd door HICKS M.B, neemt de cafeïne af telkens wanneer de theebladeren het brouwproces ondergaan. Oolongthee bevat cafeïne. Cafeïne werkt door het centrale zenuwstelsel (CZS), het hart en de spieren te stimuleren. Oolongthee bevat ook theofylline en theobromine, die chemische stoffen zijn die lijken op cafeïne. Te veel oolongthee, meer dan vijf kopjes per dag, kan bijwerkingen veroorzaken vanwege de cafeïne. Oolongthee, gemaakt van rijpere bladeren, bevat meestal minder cafeïne dan groene thee. Aan de andere kant bevatten rijpere bladeren minder theanine, een natuurlijke, zoetige ontspanner die een thee veel minder cafeïnehoudend maakt dan het eigenlijk is. Dat is in ieder geval de theorie. Oolong thee is een product dat gemaakt is van de bladeren, knoppen en stelen van de Camellia sinensis plant. Dit is dezelfde plant die ook gebruikt wordt om zwarte thee en groene thee te maken. Het verschil zit in de verwerking. Oolong thee is gedeeltelijk gefermenteerd, zwarte thee is volledig gefermenteerd en groene thee is ongefermenteerd. Oolong thee wordt gebruikt om het denkvermogen te verbeteren en de mentale alertheid te verhogen. Het wordt ook gebruikt ter preventie van kanker, tandbederf, osteoporose en hartziekten. Drink echter niet meer dan 2 kopjes oolong thee per dag. Die hoeveelheid thee bevat ongeveer 200 mg cafeïne. Te veel cafeïne tijdens de zwangerschap kan vroeggeboorte, een laag geboortegewicht en schade aan de baby veroorzaken. Een rapport van de Afdeling Voedingsdiensten biedt de volgende hoeveelheden cafeïne voor een kopje thee gemaakt van losse bladeren: 1 Zwarte Thee: 23 - 110 mg. 2 Oolong Thee: 12 - 55 mg. Groene Thee: 8 - 36 mg. Oolongthee is een product gemaakt van de bladeren, knoppen en stelen van de Camellia sinensis plant. Dit is dezelfde plant die ook gebruikt wordt om zwarte thee en groene thee te maken. Het verschil zit in de verwerking. Oolongthee is gedeeltelijk gefermenteerd, zwarte thee is volledig gefermenteerd, en groene thee is ongefermenteerd. Oolongthee wordt gebruikt om het denkvermogen te verbeteren en de mentale alertheid te verhogen. Het wordt ook gebruikt ter preventie van kanker, tandbederf, osteoporose en hartaandoeningen. Gezondheidseffecten van Thee – Cafeïne. In droge vorm bevat een kilogram zwarte thee twee keer zoveel cafeïne als een kilogram koffie... Maar een kilogram zwarte thee levert ongeveer 450 kopjes thee, terwijl een kilogram koffie ongeveer 100 kopjes koffie oplevert, dus... Er zit minder cafeïne in een kop thee dan in een kop koffie. Groene thee bevat minder cafeïne dan zwarte thee, en witte thee bevat nog minder cafeïne dan groene thee. Oolong thee zit tussen zwarte en groene thee in. Kruidenthee is, omdat het niet van dezelfde theeplant is gemaakt, van nature cafeïnevrij. Hier is een grafische weergave van hun respectievelijke cafeïne-inhoud. Een gemiddelde portie van 240 milliliter (één kopje) zwarte thee bevat 14 tot 70 mg cafeïne. Ter vergelijking, groene thee bevat 24 tot 45 mg cafeïne. Een glas van 240 milliliter instant ijsthee bereidt met water bevat 11 tot 47 mg cafeïne. De meeste kant-en-klare flessen thee bevatten 5 tot 40 mg cafeïne. Net als bij koffie bevat cafeïnevrije thee nog steeds 5 tot 10 mg cafeïne per kopje. [7.60546875, 8.78125, 9.109375, 8.609375, 7.984375, ...]
  • Loss: SpladeLoss with these parameters:
    {
        "loss": "SparseMarginMSELoss",
        "document_regularizer_weight": 0.08,
        "query_regularizer_weight": 0.1
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 32
  • learning_rate: 4e-05
  • num_train_epochs: 1
  • warmup_ratio: 0.1
  • save_safetensors: False
  • bf16: True
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 32
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 4e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 1
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: False
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: True
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: True
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional
  • router_mapping: {}
  • learning_rate_mapping: {}

Training Logs

Epoch Step Training Loss Validation Loss msmarco-eval-1k_dot_ndcg@10
0.0265 50 17855626.24 - -
0.0530 100 406.6904 36.3480 0.0004
0.0794 150 34.2936 - -
0.1059 200 25.5018 21.9683 0.3545
0.1324 250 21.4734 - -
0.1589 300 19.2557 17.3934 0.7213
0.1854 350 17.9381 - -
0.2119 400 17.1922 15.8020 0.8082
0.2383 450 16.1657 - -
0.2648 500 16.0839 15.7477 0.8227
0.2913 550 15.5281 - -
0.3178 600 15.6006 15.5931 0.8503
0.3443 650 14.9879 - -
0.3708 700 15.0034 14.8002 0.8413
0.3972 750 14.3613 - -
0.4237 800 14.5447 14.3864 0.8568
0.4502 850 14.7759 - -
0.4767 900 14.4492 13.9736 0.8545
0.5032 950 13.9609 - -
0.5297 1000 13.7077 13.4069 0.8541
0.5561 1050 13.5824 - -
0.5826 1100 13.3919 13.3237 0.8693
0.6091 1150 13.3396 - -
0.6356 1200 13.4408 13.0114 0.8684
0.6621 1250 13.0334 - -
0.6886 1300 13.1371 13.3878 0.8734
0.7150 1350 12.8606 - -
0.7415 1400 12.7314 13.7145 0.8770
0.7680 1450 12.6479 - -
0.7945 1500 12.7351 12.2741 0.8770
0.8210 1550 12.7105 - -
0.8475 1600 12.3664 12.8370 0.8826
0.8739 1650 12.21 - -
0.9004 1700 12.3901 12.6336 0.8833
0.9269 1750 12.0885 - -
0.9534 1800 12.0867 12.3237 0.8847
0.9799 1850 12.0913 - -
-1 -1 - - 0.8808

Environmental Impact

Carbon emissions were measured using CodeCarbon.

  • Energy Consumed: 1.428 kWh
  • Carbon Emitted: 0.527 kg of CO2
  • Hours Used: 0.399 hours

Training Hardware

  • On Cloud: No
  • GPU Model: 8 x NVIDIA H100 80GB HBM3
  • CPU Model: AMD EPYC 7R13 Processor
  • RAM Size: 1999.99 GB

Framework Versions

  • Python: 3.10.14
  • Sentence Transformers: 5.0.0
  • Transformers: 4.52.4
  • PyTorch: 2.1.2+cu121
  • Accelerate: 1.7.0
  • Datasets: 3.6.0
  • Tokenizers: 0.21.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

SpladeLoss

@misc{formal2022distillationhardnegativesampling,
      title={From Distillation to Hard Negative Sampling: Making Sparse Neural IR Models More Effective},
      author={Thibault Formal and Carlos Lassance and Benjamin Piwowarski and Stéphane Clinchant},
      year={2022},
      eprint={2205.04733},
      archivePrefix={arXiv},
      primaryClass={cs.IR},
      url={https://arxiv.org/abs/2205.04733},
}

SparseMarginMSELoss

@misc{hofstätter2021improving,
    title={Improving Efficient Neural Ranking Models with Cross-Architecture Knowledge Distillation},
    author={Sebastian Hofstätter and Sophia Althammer and Michael Schröder and Mete Sertkan and Allan Hanbury},
    year={2021},
    eprint={2010.02666},
    archivePrefix={arXiv},
    primaryClass={cs.IR}
}

FlopsLoss

@article{paria2020minimizing,
    title={Minimizing flops to learn efficient sparse representations},
    author={Paria, Biswajit and Yeh, Chih-Kuan and Yen, Ian EH and Xu, Ning and Ravikumar, Pradeep and P{'o}czos, Barnab{'a}s},
    journal={arXiv preprint arXiv:2004.05665},
    year={2020}
}