RoBERTa Amharic Text Embedding Base

This is a sentence-transformers model finetuned from rasyosef/roberta-base-amharic on the json dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Type: Sentence Transformer
Base model: rasyosef/roberta-base-amharic
Maximum Sequence Length: 510 tokens
Output Dimensionality: 768 dimensions
Similarity Function: Cosine Similarity
Training Dataset:
- json
Language: am
License: apache-2.0

Model Sources

Documentation: Sentence Transformers Documentation
Repository: Sentence Transformers on GitHub
Hugging Face: Sentence Transformers on Hugging Face

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 510, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("yosefw/roberta-amharic-embed-base-v6")
# Run inference
sentences = [
    'ኤም ቲ ኤን ለአልቃይዳና ታሊባን ጉቦ በመስጠት ተወነጀለ',
    'ኩባንያው ለእነዚህ ቡድኖች ገንዘብ የሰጠው አፍጋኒስታን ውስጥ የሚገኝና ትልቅ ኢንቨስትመንት ያደረገባቸው  የኔትዎርክ ታዎሮች ላይ ጥቃት እንዳይደርስበት ለጥበቃ ነው ተብሏል።\n\nበውንጀላው መቀመጫቸውን አሜሪካ ያደረጉ ሌሎች አምስት ኩባንያዎችም ያሉ ሲሆን ክሱ የቀረበው አፍጋኒስታን ውስጥ በተገደሉ የአሜሪካ ዜጎች ስም ነው።\n\n• ጃዋር ኦሮሞ ፌደራሊስት ኮንግረስን መቀላቀሉ ተረጋገጠ\n\n• ሱዳን በ29 ግለሰቦች ላይ የሞት ፍርድ አስተላለፈች\n\n• "ሙስና ለመጣው ፖለቲካዊ ለውጥ አንድ ምክንያት ነው" \n\nበቀረበው ክስ እንደተባለው ሁለቱ አሸባሪ ቡድኖች ከኤም ቲ ኤን ያገኙትን ገንዘብ እንደ አውሮፓውያኑ ከ2009 እስከ 2017 አፍጋኒስታን ውስጥ ላካሄዷቸው የጥቃት ዘመቻዎች ተጠቅመውበታል።\n\nይህ ደግሞ የአሜሪካን የፀረ ሽብር አዋጅን የሚፃረር ነው፤ ስለዚህም ኤም ቲ ኤን ይህን ህግ ተላልፏል ተብሏል።\n\nኩባንያው ግን በየትኛውም ቦታ ስራውን የሚያካሂደው  ሃላፊነት በተሞላበት መንገድ እንደሆነ ገልጿል።\n\nኤም ቲ ኤን በአፍሪካ ግዙፉ፤ በአለም አቀፍ ደረጃ ደግሞ ከስምንት ትልልቅ ኩባንያዎች አንዱ ነው። ከ240 ሚሊዮን ተጠቃሚዎች በላይም አለው ተብሎ ይታመናል።\n\nበ2015 ያልተመዘገቡ ሲም ካርዶችን ባለመሰረዝ በናይጄሪያ ባለስልጣናት በቀረበበት ክስ 5 ቢሊዮን ዶላር እንዲቀጣ ተፈርዶበት፤ ከረዥም ክርክር በኋላ እንዲሁም የያኔው የደቡብ አፍሪካ ፕሬዝዳንት ጃኮም ዙማ በጉዳዩ ጣልቃ ገብተው ቅጣቱ ወደ 1.7 ቢሊዮን ዶላር እንደወረደለት የሚታወስ ነው።\n\nየዛሬ ዓመትም በኢራን የቀድሞ የደቡብ አፍሪካ አምባሳደር ኤምቲኤን ኢራን ውስጥ እንዲሰራና የ 31.6 ቢሊዮን ዶላር ፕሮጀክት እንዲያሸንፍ ጉቦ ተቀብለዋል በሚል መታሰራቸውም ይታወሳል።\n\n ',
    'ባለፉት 20 አመታት ዴሞክራሲን በማስረፅ ረገድ የህዝቦችን ተሳትፎ የቃኘ ጥናት ይፋ በሆነበት ወቅት እንደተገለፀው፤ በርካታ የሚዲያ ተቋማት የዴሞክራሲ እሴቶችን አጉልቶ በማውጣት ረገድ ሰፊ ውስንነቶች ታተውባቸዋል፡፡ባለፉት ዓመታት\xa0በርካታዎቹ \xa0የስነ-ምግባር መርሆዎችን ሳይጠብቁ \xa0የመዘገብ ዝንባሌ ነበራቸው ተብሏል፡፡በኢትዮጵያ ስራ አመራር ኢኒስቲትዩት በተካሄደውና ከተለያዩ የህብረተሰብ ክፍሎች የተወከሉ ዜጎች በተሳተፉበት አውደ ጥናት በዋናነት በዴሞክራሲ ስርፀት ዙሪያ የዜጎችን ምልከታ፣ አተገባበርና ተፅእኖን በመገምገም መፍትሄን ማመላከት እንደሆነ ተገልጿል፡፡ሙሉ በሙሉ በአዲስ አበባ ከተማ ላይ ትኩረቱን ባደረገው በዚህ ጥናት ፖለቲከኞች ሀገራዊ አጀንዳዎች ላይ በማተኮር ሀሳብ ከማመንጨት ይልቅ በግላዊ ጥቅሞቻቸው ላይ ማተኮራቸው ሀላፊነታቸውን በአግባቡ እንዳይወጡ ማድረጉ ተነስቷል፡፡ዜጎችም ቢሆኑ \xa0ነገሮችን በሰከነ ሁኔታ ከማጤን ይልቅ በስሜታዊነት ወደ አላስፈላጊ ግጭቶች የማምራት ሁኔታ ሲስተዋልባቸው እንደነበር ያመላከተው\xa0ጥናቱ፤ ይህም ዴሞክራሲ ስር እንዳይሰድ የራሱን ተፅዕኖ ማሳደሩን ተነስቷል፡፡በመንግስት በኩል የታዩ ክፍተቶችንም ጥናቱ ያመላከተ ሲሆን፤ በተለይም ለአሰራር ምቹ ያልሆኑ አደረጃጀቶችን ያለመተቸት ችግር፣ በፓርቲዎች የግል አቋም ጣልቃ መግባትን ጨምሮ የዴሞክራሲ ተቋማትን ተናበውና ተቀናጅተው እንዲሰሩ ያለማድረግ ችግሮች ተስተውለዋል፡፡በመሆኑም ሁሉም ባለድርሻ አካላት ለዴሞክራሲ ስርፀጥ ሚናውን በአግባቡ እንዲወጣ በመድረኩ ጥሪ ቀርቧል፡፡',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Information Retrieval

Datasets: dim_768, dim_512, dim_256 and dim_128
Evaluated with InformationRetrievalEvaluator

Metric	dim_768	dim_512	dim_256	dim_128
cosine_accuracy@1	0.5954	0.5903	0.5851	0.5588
cosine_accuracy@3	0.7511	0.7445	0.7372	0.7173
cosine_accuracy@5	0.7986	0.7941	0.7847	0.7702
cosine_accuracy@10	0.8579	0.8542	0.847	0.8325
cosine_precision@1	0.5954	0.5903	0.5851	0.5588
cosine_precision@3	0.2504	0.2482	0.2457	0.2391
cosine_precision@5	0.1597	0.1588	0.1569	0.154
cosine_precision@10	0.0858	0.0854	0.0847	0.0832
cosine_recall@1	0.5954	0.5903	0.5851	0.5588
cosine_recall@3	0.7511	0.7445	0.7372	0.7173
cosine_recall@5	0.7986	0.7941	0.7847	0.7702
cosine_recall@10	0.8579	0.8542	0.847	0.8325
cosine_ndcg@10	0.7264	0.7217	0.715	0.6947
cosine_mrr@10	0.6844	0.6794	0.6728	0.6507
cosine_map@100	0.6893	0.6845	0.678	0.6563

Training Details

Training Dataset

json

Dataset: json
Size: 62,833 training samples
Columns: anchor and positive
Approximate statistics based on the first 1000 samples:
anchor positive
type string string
details
min: 3 tokens
mean: 15.86 tokens
max: 106 tokens

min: 32 tokens
mean: 305.41 tokens
max: 510 tokens

	anchor	positive
type	string	string
details	min: 3 tokens mean: 15.86 tokens max: 106 tokens	min: 32 tokens mean: 305.41 tokens max: 510 tokens

Samples:

anchor	positive
`የ8ኛ እና የ12ኛ ክፍል ተማሪዎች የማካካሻ ትምህርት መማር ጀመሩ።`	ባሕር ዳር፡ ጥቅምት 10/2013 ዓ.ም (አብመድ) በባሕር ዳር ከተማ አስተዳደር ለሚገኙ የ12ኛ እና የ8ኛ ክፍል ተማሪዎች የማካካሻ ትምህርት መስጠት መጀመሩን መምሪያው አስታውቋል፡፡በባሕር ዳር ከተማ አስተዳደር ለሚገኙ ለ12ኛ እና ለ8ኛ ክፍል ተማሪዎች ሀገራዊና ሀገር አቀፍ ዜና ፈተና ከመወስዳቸው በፊት ለ45 ቀናት የሚቆይ የማካካሻ ትምህርት ከጥቅምት 09/2013 ዓ.ም ጀምሮ መስጠት መጀመሩን የከተማ አስተዳደሩ ትምህርት መምሪያ ምክትል ኃላፊ መላክ ጀመረ ተናግረዋል፡፡“ዛሬ ተቀብለን ማስተማር የጀመርነው የኮሮናቫይረስን ለመከላከል የአፍና የአፍንጫ መሸፈኛ ጭምብል የተጠቀሙ ተማሪዎችን ብቻ ነው፡፡ ከትምህርት ሚኒስቴር የተላከው ጭምብል እስከዛሬ ባይደርሰንም ወላጆች ለልጆቻቸው በገዙት ተጠቅመን ነው ማስተማር የጀመርነው” ብለዋል አቶ መላክ። መማርም ሆነ ማስተማር የሚቻለው ጤና ሲኖር ብቻ ስለሆነ ተማሪዎች ያለማንም ክትትል ጭምብል እንዲጠቀሙም ጥሪ አቅርበዋል፡፡በሚቀጥለው ሳምንት ከ1ኛ ክፍል በስተቀር ሁሉም ትምህርት ቤቶች ለሦስት ሳምንታት የማካካሻ ትምህርት እንደሚወስዱ የተናገሩት ምክትል መምሪያ ኃላፊው ከማካካሻው ትምህርት በኋላ የ2013 ትምህርት ዘመን ሙሉ በሙሉ የመማር ማስተማር ሂደቱ እንደሚቀጥል አስገንዝበዋል፡፡ወረርሽኙን ለመከላከል ሲባል ትምህርት ሚኒስቴር ባስቀመጠው አቅጣጫ መሠረት የመንግሥት ትምህርት ቤቶች ከአንድ እስከ ሦስት ፈረቃ እንዲሁም የግል ትምህርት ቤቶች ደግሞ በአንድ እና ሁለት ፈረቃ ብቻ ማስተማር እንደሚቀጥሉ አቶ መላክ ጠቁመዋል፡፡
`በክልሎች በተፈጠሩ ግጭቶች ላይ ተሳትፈዋል በተባሉ 1 ሺህ 323 ተጠርጣሪዎች ላይ ክስ ተመሰረተ`	በተለያዩ ክልሎች በተፈጠሩ ግጭቶች ላይ ተሳትፈዋል በተባሉ 1 ሺህ 323 ተጠርጣሪዎች ላይ ክስ ተመሰረተ።በ2011 በጀት ዓመት በተለያዩ ክልሎች በተፈጠሩ ግጭቶች ተሳትፈዋል በተባሉ 1 ሺህ 323 ተጠርጣሪዎች ላይ ክስ መመስረቱን የኢፌዲሪ ጠቅላይ ዐቃቤ ሕግ አስታወቀ፡፡በተፈጠረው ሁከትና ብጥብጥ 1 ሺህ 229 ሰዎች ህይዎት ያለፈ ሲሆን በ1 ሺህ 393 ሰዎች ላይ ደግሞ ቀላልና ከባድ የአካል ጉዳት ሲደርስ በ19 ሰዎች ላይ የግድያ ሙከራ መደረጉን በጠቅላይ ዐቃቤ ሕግ የተደራጁ ድንበር ተሸጋሪ ወንጀሎች ዳይሬክተር የሆኑት አቶ ፍቃዱ ፀጋ ገልፀዋል፡፡በግጭቶቹ ከ2.2 ቢሊዮን ብር በላይ የሚገመት የዜጎች ንብረት የወደመ ሲሆን፤ 1.2 ሚሊዮን ዜጎች ከመኖሪያ ቤታቸውና ከአካባቢያቸው ተፈናቅለዋል፡፡ከተከሳሾቹ መካከል 645 ተጠርጣሪዎች በቁጥጥር ስር ውለው ጉዳያቸው እየታየ ሲሆን 667 የሚሆኑ ተጠርጣሪዎች ደግሞ በቁጥጥር ስር አልዋሉም፡፡የ10 ተጠርጣሪዎች ክስም በምህረት መነሳቱን ዳይሬክተሩ አክለዋል፡፡በመጨረሻም አቶ ፍቃዱ ተጠርጣሪዎችን በቁጥጥር ስር ለማዋል በሚደረግ እንቅስቃሴ ዙሪያ የሚስተዋለው ክፍተት አስመልክቶ መፍትሔ ያሉትን ሀሳብ ሲጠቁሙ ይህንን ችግር ለመቅረፍ ህብረተሰቡና የሚመለከታቸው ባለድርሻ አካላት ከፍትህ አካላት ጎን በመቆምና ተጠርጣሪዎችን አሳልፎ በመስጠት በኩል በጉዳዩ ላይ በባለቤትነት ስሜት ሊሰሩ እንደሚገባ አጽእኖት ሰጥተው መልዕክታቸውን አስተላልፈዋል፡፡በሌላ በኩል በአማራ ክልል በጃዊ ወረዳና በመተክል ዞን፤ በጎንደርና አካባቢው በተፈጠረ ሁከትና ብጥብጥ፤ በሰሜን ሸዋ አስተዳደር እንዲሁም በቤንሻጉል ጉምዝ ክልል ከማሻ ዞን ውስጥ በሚገኙ የተለያዩ ወረዳዎችና ቀበሌዎችና የዚሁ ዞን አጎራባች በሆነው በኦሮሚያ ክልል ምስራቅና ምዕራብ ወለጋ ዞን በተለያዩ ቀ...
`ከሽመና ሥራ ---- እስከ ሚሊየነርነት!`	“ይቅርታ መጠየቅ ጀግንነት እንጂ ሽንፈት አይደለም”የኮንሶው ተወላጅ አቶ ዱላ ኩሴ፤ቤሳቤስቲን አልነበራቸውም፡፡ ለብዙ ዓመታት በሽመና ስራ ላይ ቆይተዋል፡፡ በብዙ ልፋትና ትጋት፣ወጥተው ወርደው፣ ነው ለስኬት የበቁት፡፡ ዛሬበሚሊዮን ብሮች የሚንቀሳቀሱ የንግድ ድርጅቶች ባለቤት ሆነዋል፡፡ ባለጠጋ ናቸው፡፡ የ50 ዓመቱ ጎልማሳ አቶ ዱላ፤በልጆችም ተንበሽብሸዋል፡፡ የ17 ልጆች አባት ናቸው፡፡ በቅርቡበሚዲያ የሰጡት አንድ አስተያየት የአገሬውን ህዝብ ማስቆጣቱን የሚናገሩት ባለሃብቱ፤አሁን በሽማግሌ እርቅ ለመፍጠር እየተሞከረ መሆኑን ጠቁመዋል፡፡ ባለሃብቱ ከህዝቡ ጋር ቅራኔውስጥ የከተታቸው ጉዳይ ምን ይሆን? የአዲስ አድማስ ጋዜጠኛ ማህሌት ኪዳነወልድ፤ ከአቶ ዱላ ኩሴ ጋር ይሄን ጨምሮ በስኬት ጉዟቸውና በንግድ ሥራቸው ዙሪያ አነጋግራቸዋለች፡፡መቼ ነው የሽመና ሥራ የጀመሩት?በ13 ወይም በ14 ዓመቴ ይመስለኛል፡፡ ለቤተሰቤ አራተኛ ልጅ ነኝ፡፡ ለ10 ዓመታት ያህል በሽመና ስራ ላይ ቆይቻለሁ፡፡ ስራዎቼንም የምሸጠው እዛው በአካባቢው ላሉ ሰዎች ነበር፡፡ ቀጣዩ ሥራዎስ ምን ነበር?ወደ ጅንካ በመሄድ ለ4 ዓመታት ያህል ኦሞ ዞን ጂንካ ከተማ ላይ ሽያጩን ቀጠልኩ፡፡ በኋላም ወደ ወላይታ ተመልሼ፣ ማግና ሰዴቦራ /ብርድ ቦታ የሚለበስ የጋቢ አይነት/ መሸጥ ጀመርኩ፡፡ ለ3 ዓመታትም ቦዲቲ እየወሰድኩ ሸጫለሁ፡፡ እንግዲህ አቅም እየጠነከረ፣ ገንዘብ እየተሰበሰበ ሲመጣ፣ አነስተኛ ሸቀጣ ሸቀጥ ሱቅ ከፈትኩኝ፡፡ የቤት እቃና ልብስ መሸጥ ጀመርኩኝ፡፡ ብዙም ሳልቆይ ወደ ከተማ ወርጄ፣ ወደ ሆቴል ስራ ገባሁ፡፡ ተቀጥረው ነው ወይስ የራስዎን ሆቴል?የራሴን ነው፡፡ ኮንሶ እድገት ሆቴል ይባላል፡፡ በ91 ዓመተ ምህረት ነበር ሆቴሉን አነስ አድርጌ የከፈትኩት፡፡ በኋላም የሸቀጣሸቀጥ ገበያው እየተቀዛቀዘ በ...

Loss: MatryoshkaLoss with these parameters:

{
    "loss": "MultipleNegativesRankingLoss",
    "matryoshka_dims": [
        768,
        512,
        256,
        128
    ],
    "matryoshka_weights": [
        1,
        1,
        1,
        1
    ],
    "n_dims_per_step": -1
}

Training Hyperparameters

Non-Default Hyperparameters

eval_strategy: epoch
per_device_train_batch_size: 32
per_device_eval_batch_size: 64
gradient_accumulation_steps: 16
num_train_epochs: 4
lr_scheduler_type: cosine
warmup_ratio: 0.1
fp16: True
load_best_model_at_end: True
optim: adamw_torch_fused
batch_sampler: no_duplicates

All Hyperparameters

Click to expand

overwrite_output_dir: False
do_predict: False
eval_strategy: epoch
prediction_loss_only: True
per_device_train_batch_size: 32
per_device_eval_batch_size: 64
per_gpu_train_batch_size: None
per_gpu_eval_batch_size: None
gradient_accumulation_steps: 16
eval_accumulation_steps: None
torch_empty_cache_steps: None
learning_rate: 5e-05
weight_decay: 0.0
adam_beta1: 0.9
adam_beta2: 0.999
adam_epsilon: 1e-08
max_grad_norm: 1.0
num_train_epochs: 4
max_steps: -1
lr_scheduler_type: cosine
lr_scheduler_kwargs: {}
warmup_ratio: 0.1
warmup_steps: 0
log_level: passive
log_level_replica: warning
log_on_each_node: True
logging_nan_inf_filter: True
save_safetensors: True
save_on_each_node: False
save_only_model: False
restore_callback_states_from_checkpoint: False
no_cuda: False
use_cpu: False
use_mps_device: False
seed: 42
data_seed: None
jit_mode_eval: False
use_ipex: False
bf16: False
fp16: True
fp16_opt_level: O1
half_precision_backend: auto
bf16_full_eval: False
fp16_full_eval: False
tf32: None
local_rank: 0
ddp_backend: None
tpu_num_cores: None
tpu_metrics_debug: False
debug: []
dataloader_drop_last: False
dataloader_num_workers: 0
dataloader_prefetch_factor: None
past_index: -1
disable_tqdm: False
remove_unused_columns: True
label_names: None
load_best_model_at_end: True
ignore_data_skip: False
fsdp: []
fsdp_min_num_params: 0
fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
fsdp_transformer_layer_cls_to_wrap: None
accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
deepspeed: None
label_smoothing_factor: 0.0
optim: adamw_torch_fused
optim_args: None
adafactor: False
group_by_length: False
length_column_name: length
ddp_find_unused_parameters: None
ddp_bucket_cap_mb: None
ddp_broadcast_buffers: False
dataloader_pin_memory: True
dataloader_persistent_workers: False
skip_memory_metrics: True
use_legacy_prediction_loop: False
push_to_hub: False
resume_from_checkpoint: None
hub_model_id: None
hub_strategy: every_save
hub_private_repo: None
hub_always_push: False
gradient_checkpointing: False
gradient_checkpointing_kwargs: None
include_inputs_for_metrics: False
include_for_metrics: []
eval_do_concat_batches: True
fp16_backend: auto
push_to_hub_model_id: None
push_to_hub_organization: None
mp_parameters:
auto_find_batch_size: False
full_determinism: False
torchdynamo: None
ray_scope: last
ddp_timeout: 1800
torch_compile: False
torch_compile_backend: None
torch_compile_mode: None
dispatch_batches: None
split_batches: None
include_tokens_per_second: False
include_num_input_tokens_seen: False
neftune_noise_alpha: None
optim_target_modules: None
batch_eval_metrics: False
eval_on_start: False
use_liger_kernel: False
eval_use_gather_object: False
average_tokens_across_devices: False
prompts: None
batch_sampler: no_duplicates
multi_dataset_batch_sampler: proportional

Training Logs

Epoch	Step	Training Loss	dim_768_cosine_ndcg@10	dim_512_cosine_ndcg@10	dim_256_cosine_ndcg@10	dim_128_cosine_ndcg@10
0.0815	10	129.4178	-	-	-	-
0.1629	20	40.6648	-	-	-	-
0.2444	30	14.7765	-	-	-	-
0.3259	40	10.3171	-	-	-	-
0.4073	50	8.2567	-	-	-	-
0.4888	60	6.8566	-	-	-	-
0.5703	70	6.8733	-	-	-	-
0.6517	80	6.1625	-	-	-	-
0.7332	90	5.1076	-	-	-	-
0.8147	100	5.4369	-	-	-	-
0.8961	110	4.8402	-	-	-	-
0.9776	120	4.4237	-	-	-	-
0.9939	122	-	0.6379	0.6338	0.6226	0.6020
1.0652	130	3.4286	-	-	-	-
1.1466	140	2.883	-	-	-	-
1.2281	150	2.6902	-	-	-	-
1.3096	160	2.7897	-	-	-	-
1.3910	170	2.6433	-	-	-	-
1.4725	180	2.4738	-	-	-	-
1.5540	190	2.5929	-	-	-	-
1.6354	200	2.564	-	-	-	-
1.7169	210	2.4794	-	-	-	-
1.7984	220	2.4917	-	-	-	-
1.8798	230	2.109	-	-	-	-
1.9613	240	2.1082	-	-	-	-
1.9939	244	-	0.6909	0.6911	0.6793	0.6623
2.0489	250	1.6165	-	-	-	-
2.1303	260	1.3835	-	-	-	-
2.2118	270	1.2062	-	-	-	-
2.2933	280	1.1091	-	-	-	-
2.3747	290	1.1475	-	-	-	-
2.4562	300	1.3218	-	-	-	-
2.5377	310	1.2644	-	-	-	-
2.6191	320	1.1783	-	-	-	-
2.7006	330	1.4143	-	-	-	-
2.7821	340	1.3219	-	-	-	-
2.8635	350	1.1191	-	-	-	-
2.9450	360	1.0473	-	-	-	-
2.9939	366	-	0.7231	0.7199	0.7115	0.6924
3.0326	370	1.0302	-	-	-	-
3.1141	380	1.0575	-	-	-	-
3.1955	390	0.8955	-	-	-	-
3.2770	400	0.9451	-	-	-	-
3.3585	410	0.9191	-	-	-	-
3.4399	420	0.8541	-	-	-	-
3.5214	430	0.9939	-	-	-	-
3.6029	440	0.9023	-	-	-	-
3.6843	450	0.9905	-	-	-	-
3.7658	460	0.932	-	-	-	-
3.8473	470	0.7228	-	-	-	-
3.9287	480	0.9572	-	-	-	-
3.9939	488	-	0.7264	0.7217	0.715	0.6947

The bold row denotes the saved checkpoint.

Framework Versions

Python: 3.10.12
Sentence Transformers: 3.4.1
Transformers: 4.49.0
PyTorch: 2.6.0+cu124
Accelerate: 1.2.1
Datasets: 3.4.0
Tokenizers: 0.21.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MatryoshkaLoss

@misc{kusupati2024matryoshka,
    title={Matryoshka Representation Learning},
    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
    year={2024},
    eprint={2205.13147},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

yosefw
/

roberta-amharic-embed-base-v6