SentenceTransformer

This is a sentence-transformers model trained. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Maximum Sequence Length: 256 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity

Fine-tuned Models

This model is part of a progressive series of sentence embedding models based on intfloat/multilingual-e5-base, fine-tuned specifically for Dhivehi language understanding.

Each stage leverages a targeted dataset to specialize the model for semantic similarity, question answering, and summarization tasks — improving performance for real-world Dhivehi NLP applications.

Stage Task Model Dataset Objective
0 Base Multilingual Base intfloat/multilingual-e5-base
1 Paraphrase Identification (MNR) alakxender/e5-dhivehi-paws-mnr alakxender/dhivehi-paws-labeled > label=1 Only MultipleNegativesRankingLoss
2 Paraphrase Identification (Cosine) alakxender/e5-dhivehi-paws-cos alakxender/dhivehi-paws-labeled CosineSimilarityLoss
3 Question → Passage Matching alakxender/e5-dhivehi-qa-mnr alakxender/dhivehi-qa-dataset MultipleNegativesRankingLoss
4 News Title → Content alakxender/e5-dhivehi-articles-mnr alakxender/dhivehi-news-corpus MultipleNegativesRankingLoss
5 Summary → Content alakxender/e5-dhivehi-summaries-mnr alakxender/dv-en-parallel-corpus-clean, alakxender/dv-summary-translation-corpus MultipleNegativesRankingLoss

Each model builds upon the previous checkpoint, incrementally enhancing the semantic capabilities of the model for Dhivehi. The goal is to support high-quality sentence embeddings for a wide range of Dhivehi information retrieval and understanding tasks.

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 256, 'do_lower_case': False, 'architecture': 'XLMRobertaModel'})
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("alakxender/e5-dhivehi-articles-mnr")
# Run inference
sentences = [
    'query: 16 އަހަރަށް ފަހު އަލީ އުމަރު ފުޓްބޯޅަ ކުޅުން ހުއްޓާލައިފި',
    'passage: ރާއްޖޭގެ ފުޓްބޯޅައިގެ ތާރީހު ދުށް އެންމެ މޮޅު އެއް ފޯވާޑް އަލީ އުމަރު 16 އަހަރަށް ފަހު ފުޓްބޯޅަ ކުޅުން ހުއްޓާލައިފި އެވެ. މިދިޔަ ސީޒަނުގެ ހުރިހާ މުބާރާތެއް ނިއު ރޭޑިއަންޓަށް ކާމިޔާބުކޮށްދީ އޭއެފްސީ ކަޕުގެ ކުއާޓާ ފައިނަލުން ޖާގަ ހޯދައިދިނުމުގައި މުހިއްމު ދައުރެއް އަދާކުރި އުމުރުން 32 އަހަރުގެ ކުޅުންތެރިޔާ ކުޅުން ހުއްޓާލިކަން އިއުލާންކުރީ މިރޭ އެ ކްލަބުން ބޭއްވި \'ނިއު ރޭޑިއަންޓް ނައިޓް\' ގަ އެވެ. މިރޭގެ ހަފުލާގައި އަލީ އުމަރުގެ ޖާޒީ ވަނީ ކްލަބުގެ ޗެއާމަން އަލީ ވަހީދު (ބަލަކް) އާ ހަވާލުކޮށްފަ އެވެ. އަލީ އުމަރު 2012 ވަނަ އަހަރު އަލުން ނިއު އަށް ބަދަލުވީ ވެސް "ސަޕޯޓްކުރާ ޓީމުގައި ހުރެގެން ކުޅުން ހުއްޓާލަން ބޭނުންވާތީ" ކަމަށް ބުނެ އެވެ. ޔޫތު ސްޕޯޓްސް ކްލަބުން 1997 ވަނަ އަހަރު ކެރިއަރު ފަށައި އައްޔަ ވަނީ 1998 އިން 2003 އަށް ވެލެންސިއާ އަށް ކުޅެފަ އެވެ. އޭނާ އެންމެ ބޮޑަށް ވިދާލީ ވެލެންސިއާގެ ރީނދޫ ޖާޒީގައި ކުޅުނު ދުވަސްވަރެވެ. ހަވީރު ރަންބޫޓު 2000 ވަނަ އަހަރު ހޯދި އައްޔަ ވަނީ ވެލެންސިއާ ދޫކޮށް އައިލެންޑް ފުޓްބޯލް ކްލަބް (އައިއެފްސީ) އަށް 2004 ވަނަ އަހަރު ކުޅެފަ އެވެ. އެކަމަކު ހަމަ އެ އަހަރުގެ ގައުމީ ފުޓްބޯޅަ މުބާރާތަށް އައިއެފްސީ ކޮލިފައިނުވުމުން އައްޔަ ވަނީ އެނބުރި ވެލެންސިއާ އަށް ބަދަލުވެ އެ މުބާރާތުގައި ކުޅެފަ އެވެ. އަދި 2005 ވަނަ އަހަރު ވެސް އައްޔަ ކުޅުނީ ވެލެންސިއާ އަށެވެ. އައްޔަ އެންމެ ކުޅޭ ކްލަބު ކަމަށްވާ ނިއު އަށް އޭނާ ބަދަލުވީ 2006 ވަނަ އަހަރު އެވެ. އަދި އޭނާގެ ކެރިއަރުގައި އެންމެ ކާމިޔާބު އެއް އަހަރަށްވީ އައްޔަ ނިއު އަށް ކުޅުނު އަހަރެވެ. އައްޔަގެ ކެޕްޓަންކަމުގެ ދަށުން ނިއު އިން ދިވެހި ލީގުގެ އައްޑަނަ ފުރަތަމަ ފަހަރަށް އުފުލާލިއިރު، ހަވީރުން ހޮވި އަހަރު އެންމެ މޮޅު ފުޓްބޯޅަ ކުޅުންތެރިއާގެ މަގާމު ވެސް އެ އަހަރު އައްޔަ ވަނީ ހޯދައިފަ އެވެ. ނިއު އަށް އެއް އަހަރު ކުޅުމަށް ފަހު 2007 ވަނަ އަހަރު ބަދަލުވީ އޭނާގެ ގާތް އެކުވެރިންތަކެއް އިސްވެތިބެ އުފެއްދި ވީބީ ސްޕޯޓްސް އަށެވެ. އެ ކްލަބަށް ފަސް އަހަރު ކުޅުމަށް ފަހު 2012 ވަނަ އަހަރު އަލުން ނިއު އަށް ބަދަލުވި އިރު އައްޔަގެ ތަރި ވަނީ އޮއްސިފަ އެވެ. އެކަމަކު ނިއުގައި އަލުން ކުރީގެ ކުޅުން ދައްކައި މިދިޔަ އަހަރުގެ ސާފް ޗެމްޕިއަންޝިޕުގައި ގައުމީ ޓީމަށް ވެސް ކުޅުނެވެ. ގައުމީ ޓީމުގައި 1998 ވަނަ އަހަރުން ފެށިގެން ހިމެނެމުން އައި އައްޔަ ވަނީ ގައުމީ ޓީމަށް ސާޅީހަކަށް މެޗު ކުޅެދީ 12 ގޯލް ޖަހައިދީފަ އެވެ. ގައުމީ ޖާޒީގައި ސާފް ޗެމްޕިއަންޝިޕުގެ ހަ މުބާރާތެއްގައި ކުޅުނުއިރު އޭނާ އަކީ 2008 ގެ ސާފް ޗެމްޕިއަންޝިޕް ކާމިޔާބުކުރި ގައުމީ ޓީމުގެ ވެސް މުހިއްމު ކުޅުންތެރިއެކެވެ. މީގެ އިތުރުން ވޯލްޑް ކަޕް ކޮލިފައިންގައި 2004 ވަނަ އަހަރު ދެކުނު ކޮރެއާއާ ލަނޑެއް ނުޖެހި ރާއްޖެ އެއްވަރުކުރި އިރު ވެސް އޭނާ ޓީމުގައި ހިމެނުނެވެ.',
    'passage: ރައްޔިތުންގެ މަޖިލީހުގެ އިންތިޚާބުގައި ފޭދޫ ދާއިރާ އަށް ކުރިމަތިލުމަށް އެމްޑީޕީގެ ޓިކެޓް ލިބުނު މުހައްމަދު ނިހާދުގެ ކެންޑިޑެސީ ބާތިލްކުރަން، އެ ޕްރައިމަރީގައި ނާކާމިޔާބުވި ފޭދޫ ދާއިރާގެ މެމްބަރު އަލްހާން ފަހުމީގެ ފަރާތުން ހައި ކޯޓަށް ހުށަހެޅި މައްސަލަ ބަލައިނުގަތުމުން އެ މައްސަލަ ދަށު ކޯޓަށް ހުށަހަޅަން ނިންމައިފި އެވެ.ޕްރައިމަރީގައި ނާކާމިޔާބުވުމުން އަމިއްލަ ގޮތުން އެ އިންތިޚާބަށް ވާދަކުރައްވާ އަލްހާންގެ ފަރާތުން އެ މައްސަލަ ހައި ކޯޓަށް ހުށަހެޅީ މިދިޔަ ބުދަ ދުވަހު އެވެ. އަލްހާންގެ ކޮއްކޮ އަދި ގާނޫނީ ވަކީލު ނޫރުބާން ފަހުމީ ވިދާޅުވީ އެ މައްސަލަ ބަލައިނުގަތީ ޕާޓީގެ އެތެރޭގެ އިންތިޚާބެއްގެ މައްސަލަ ހައި ކޯޓަށް ނުބެލޭނެތީ އާއި އެ ކޯޓުން ބަލާނީ އިލެކްޝަންސް ކޮމިޝަނުން ބާއްވާ އިންތިޚާބުތަކާ ބެހޭ މައްސަލަތައް ކަމަށް ހައި ކޯޓުގެ ރެޖިސްޓްރާ އަންގާފައިވާ ކަމަށެވެ. އަދި އެ މައްސަލަ ފުރަތަމަ މަރުހަލާ އިން ބަލަންޖެހޭނީ ދަށު ކޯޓަކުން ކަމަށް ރެޖިސްޓްރާގެ ނިންމުމުގައިވާތީ އެ މައްސަލަ މާދަމާ ދަށު ކޯޓަށް ހުށަހަޅާނެ ކަމަށް ނޫރުބާން ވިދާޅުވި އެވެ." ދަށު ކޯޓަކީ ސިވިލް ކޯޓު ކަމަށްވާތީ މާދަމާ އަޅުގަނޑުމެން އެ މައްސަލަ އެ ކޯޓަށް ހުށަހަޅާނަން" ނޫރުބާން ވިދާޅުވި އެވެ.ހައި ކޯޓުގެ ގަވާއިދު އޮންނަ ގޮތުން އެ ކޯޓުގެ ރެޖިސްޓްރާ ނިންމާ ނިންމުމަކާ މެދު ހިތްހަމަނުޖެހޭ ނަމަ އެ ނިންމުން ރިވިއުކޮށް ދިނުމަށް އެދި އެ ކޯޓުގެ ފަނޑިޔާރުންގެ މަޖިލީހަށް ހުށަހެޅިދާނެ އެވެ.އަލްހާން ވިދާޅުވެފައިވާ ގޮތުގައި އެމްޑީޕީގެ ޕްރައިމަރީ ސައްހަ ނޫން ކަމަށާއި އެ މައްސަލަ އެމްޑީޕީގެ އެތެރޭގެ ގުނަވަންތަކުން އެކަށީގެންވާ މިންވަރަށް ބަލާފައިނުވާ ކަމަށެވެ. އެގޮތުން އެ ޕްރައިމަރީގައި އެހެން ޕާޓީތަކުގެ 130 މީހަކު ވޯޓުލާފައިވާ ކަމަށާއި ވޯޓު ލިސްޓުގައި ވެސް މައްސަލަ އުޅޭ ކަމަށް އަލްހާން ވަނީ ވިދާޅުވެފަ އެވެ.ފޭދޫ ދާއިރާގެ ޕްރައިމަރީ ނިހާދު ކާމިޔާބުކުރީ 316 ވޯޓާ އެކުގަ އެވެ. އަލްހާނަށް ލިބިވަޑައިގަތީ 154 ވޯޓެވެ.އަލްހާންގެ ބުރަކަށްޓައް ވަޅި ހެރުމުގެ ސަބަބުން އޭނާގެ މައިބަދަ އަށް ލިބުނު ގެއްލުންތަކުގައި އޭނާގެ ކަނާތު ފައިގެ ވާގި ވަނީ ގޮސްފަ އެވެ. ނަމަވެސް ލަންކާގައި އޭނާ އަށް ފަރުވާދެމުން އަންނައިރު މިހާރު ހާލު ރަނގަޅުވަމުން އަންނަ ކަމަށް އާއިލާ އިން ވަނީ ބުނެފަ އެވެ.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[1.0000, 0.6814, 0.0828],
#         [0.6814, 1.0000, 0.0092],
#         [0.0828, 0.0092, 1.0000]])

Training Details

Training Dataset

  • Size: 102,495 training samples
  • Columns: sentence_0 and sentence_1
  • Approximate statistics based on the first 1000 samples:
    sentence_0 sentence_1
    type string string
    details
    • min: 8 tokens
    • mean: 20.28 tokens
    • max: 70 tokens
    • min: 18 tokens
    • mean: 238.69 tokens
    • max: 256 tokens
  • Samples:
    sentence_0 sentence_1
    query: ކޮޅުފުށީ ގެތަކުގެ މަސައްކަތް ފަށަން އެ ރަށަށް ދިޔަ ފުލުހުންނާއި ކޮންޓްރެކްޓަރަށް ހުރަސް އަޅައި މަސައްކަތް ފެށިޔަ ނުދީ ހިފަހައްޓައިފި passage: ސުނާމީގައި ގެއްލުނު ލިބުނު މ. ކޮޅުފުށީގައި އިމާރާތްކުރާ 55 ގޭގެ މަސައްކަތް ފެށުމަށް އެ ރަށަށް ދިޔަ ފުލުހުންނާއި ކޮންޓްރެކްޓަރުންނަށް ހުރަސްއަޅައި މަސައްކަތް ފެށިޔަ ނުދީ ހިފަހައްޓައިފި އެވެ.ކަތީބު އިސްމާއިލް ޝާކިރު މިއަދު ވިދާޅުވީ، ފުރަތަމަ ފިޔަވަހީގެ ދަށުން އަޅާ 55 ގޭގެ މަސައްކަތް ފެށުމަށް ޓަކައި ބުރާސްފަތި ދުވަހު ހެނދުނު އެރަށަށް ދިޔަ ޔުނައިޓް ބިލްޑާސްގެ މީހުންނާއި ފުލުހުން އަދި ޕްލޭނިން މިނިސްޓްރީގެ ޓީމު މަސައްކަތް ފެށިޔަ ނުދީ ރައްޔިތުން ހިފަހައްޓައިފައި ވަނީ ޕްލޭނިން މިނިސްޓްރީގައި ރައްޔިތުން އެދިފައިވާ ގޮތަށް މަސައްކަތް ކުރިއަށް ނުގެންގޮސްގެންނެވެ.އޭނާ ވިދާޅުވީ، ޑިޒާސްޓަ މެނޭޖްމަންޓް ސެންޓަރާއި ކޮންސްޓްރަކްޝަން މިނިސްޓްރީން އެ ރަށުގައި ގެތައް އަޅާ ސަރަހައްދު ބެލުމަށް މިދިޔަ މަހުގެ ތެރޭގައި ދިޔަ ޓީމަށް ރައްޔިތުން ބޭނުންވާ ފަސް ކަމެއް ހުށަހަޅައި ޕްލޭނިން މިނިސްޓްރީ އަށް ލިޔުމުން އެކަންތައް ހުށަހަޅާފައިވާ ކަމަށެވެ."ރައްޔިތުން ހުށަހަޅައިފައިވާ ފަސް ކަމަކަށް އިޖާބަ ނުދީ އަނެއްކާ ވެސް މަސައްކަތް ފަށަން އުޅުމުން ރައްޔިތުން ހިތްހަމަނުޖެހުނީ. ރައްޔިތުން ބޭނުން ވަނީ އަލަށް އާބާދުވ...
    query: އޮލިމްޕިކް ސައިޒުގެ ޕޫލް އެޅުމުގެ މަސައްކަތް އަންނަ އަހަރަށް ނިންމާލެވޭނެ passage: އޮލިމްޕިކް ސައިޒު ސްވިމިން ޕޫލް އެޅުމުގެ އަމަލީ މަސައްކަތް މިހާރު ކުރިއަށްދާ ކަމަށާއި، އެ މަސައްކަތް އަންނަ އަހަރު ނިންމާލެވޭނެކަމަށް ކުޅިވަރާއި ހަށިހެޔޮކަމާ ބެހޭ ވަޒީރު، ޢަބްދުﷲ ރާފިޢު ވިދާޅުވެއްޖެ އެވެ.

    ބައިނަލްއަގްވާމީ ފެންވަރުގެ މުބާރާތްތައް ބޭއްވޭނެ ފެންވަރުގެ ސްވިމިން ޕޫލެއް އެޅުމުގެ މަސައްކަތް މިދިޔަ ދެ ސަރުކާރުންވެސް ފެށި އެވެ. ނަމަވެސް އެކަމުގެ އަމަލީ މަސައްކަތާ ހަމައަށް ނުދެވި ކޮންމެ ފަހަރަކުވެސް މަސައްކަތް އޮތީ މަޑު ޖެހިފަ އެވެ. އަދުގެ ސަރުކާރުން ވަނީ އެއް އަހަރުގެ ތެރޭގައި ހުރިހާ ލިޔެކިޔުންތަކެއްގެ މަސައްކަތް ނިންމާ، ޕޫލް އެޅުމުގެ އަމަލީ މަސައްކަތްވެސް ފަށާފަ އެވެ.

    ޕޫލް އެޅުމުގެ އަމަލީ މަސައްކަތް މިހާރު ފަށާފައިވާއިރު، އެ މަސައްކަތް ވަރަށް ބާރަށް ދަނީ ކުރިއަށެވެ. ސްވިމިން އެސޯސިއޭޝަންގެ ބެލުމުގެ ދަށުން ކުރިއަށްދާ މި މަސައްކަތާ ގުޅޭގޮތުން ވަޒީރު ވިދާޅުވީ އަންނަ އަހަރުގެ ތެރޭގައި މަސައްކަތް އެއްކޮށް ނިންމާލެވޭނެކަމަށެވެ.

    Advertisement

    ވަޒީރު އިތުރަށް ވިދާޅުވީ އޮލިމްޕިކް ސައިޒު ސްވިމިން ޕޫލް އެޅުމުގެ މަސައްކަތަކީ ކުރިއަށް ނުގޮސް ހުއްޓިފައި އޮތް މަސައްކަތެއްކަމަށާއ...
    query: ރިތިކް ރޯޝަންއާ ރައްޓެހިވެގެން އުޅުނުކަމަށް ކަންގަނާ ބުނެފި passage: ރިތިކް ރޯޝަންއާ ލޯބީގެ ގުޅުމެއް ހިންގާފައިވާ ކަމަށް ކަންގަނާ ރަނާވަތު ބުނެފި އެވެ. ރިތިކް އާއި ސުޒާންގެ ކައިވެނި މިދިޔަ އަހަރު ނިމުމަކަށް އައިއިރު ރިތިކް އާއި ކަންގަނާ ރައްޓެހިވެގެން އުޅޭ ކަމުގެ ޚަބަރުތަކެއް ފެތުރުނެވެ. އަދި ރިތިކާއި ސުޒާން ވަރިވީ ކަންގަނާގެ ސަބަބުން ކަމަށް ވެސް ވާހަަކަ ދެކެވުނެވެ. ކަންގަނާ މިހާރު މިވަނީ އޭރު ދެކެވުނީ ތެދު ވާހަކަތަކެއްކަން ޔަގީންކޮށްދީފަ އެވެ. ކަންގަނާ އާއި ރިތިކް އަހަރަކަށް ވުރެ ގިނަ ދުވަސްވަންދެން ރައްޓެހިވެގެން އުޅުނެވެ. ނަމަވެސް އެދުވަސްވަރު ރިތިކް އާއި ކަންގަނާގެ ލޯބީގެ ވާހަކަތައް ނޫސްތަކުގައި ލިޔުމުން އެއީ ދޮގު ވާހަކަތަކެއްކަން ސާބިތުކޮށްދޭން ރިތިކް ވަރަށް ބޮޑަށް މަސައްކަތް ކޮށްފައިވެ އެވެ. ސެޕްޓެމްބަރު 2015 ގައި ރިލީޒްކުރި ރިތިކް އާއި ސޯނަމް ހަރަކާތްތެރިވާ މިއުޒިކް ވީޑިއޯ "ދީރޭ ދީރޭ ސޭ" ލޯންޗުކުރުމުގެ ހަފުލާގައި، ކަންގަނާއާ ރައްޓެހިވެގެންތޯ ނޫސްވެރިޔަކު ސުވާލު ވެސް ކުރި އެވެ. ރިތިކް ދެނެހުރި ކަމަށް ވެސް ނުހެދި އެވެ. ނަމަވެސް އިންޑިއާގެ އޮންލައިން ނޫހަކަށް ކަންގަނާ އިއްޔެ ދީފައިވާ އިންޓަވިއުއެއްގައި، ރިތިކްއާ ދިމާލަށް "އެކްސް" އޭ މުޚާތަބ...
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 32
  • multi_dataset_batch_sampler: round_robin

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: no
  • prediction_loss_only: True
  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 32
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1
  • num_train_epochs: 3
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.0
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: round_robin
  • router_mapping: {}
  • learning_rate_mapping: {}

Training Logs

Epoch Step Training Loss
0.1561 500 2.5409
0.3122 1000 2.2724
0.4683 1500 2.0788
0.6244 2000 1.7854
0.7805 2500 1.484
0.9366 3000 1.2597
1.0927 3500 1.079
1.2488 4000 0.9286
1.4049 4500 0.8178
1.5610 5000 0.7595
1.7171 5500 0.7072
1.8732 6000 0.6624
2.0293 6500 0.615
2.1855 7000 0.5282
2.3416 7500 0.5304
2.4977 8000 0.5025
2.6538 8500 0.4922
2.8099 9000 0.4755
2.9660 9500 0.4601

Framework Versions

  • Python: 3.9.21
  • Sentence Transformers: 5.0.0
  • Transformers: 4.52.4
  • PyTorch: 2.5.1+cu124
  • Accelerate: 1.3.0
  • Datasets: 3.2.0
  • Tokenizers: 0.21.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
17
Safetensors
Model size
284M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for alakxender/e5-dhivehi-articles-mnr

Dataset used to train alakxender/e5-dhivehi-articles-mnr