SPLADE-RoBERTa-Amharic-Base

This is a SPLADE Sparse Encoder model finetuned from rasyosef/roberta-base-amharic using the sentence-transformers library. It maps sentences & paragraphs to a 32000-dimensional sparse vector space and can be used for semantic search and sparse retrieval.

Model Details

Model Description

  • Model Type: SPLADE Sparse Encoder
  • Base model: rasyosef/roberta-base-amharic
  • Maximum Sequence Length: 510 tokens
  • Output Dimensionality: 32000 dimensions
  • Similarity Function: Dot Product
  • Language: am
  • License: mit

Model Sources

Full Model Architecture

SparseEncoder(
  (0): MLMTransformer({'max_seq_length': 510, 'do_lower_case': False, 'architecture': 'XLMRobertaForMaskedLM'})
  (1): SpladePooling({'pooling_strategy': 'max', 'activation_function': 'relu', 'word_embedding_dimension': 32000})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SparseEncoder

# Download from the 🤗 Hub
model = SparseEncoder("rasyosef/SPLADE-RoBERTa-Amharic-Base")
# Run inference
sentences = [
    'ሱዳን ከኢትዮጵያ ጋር የሚያወዛግባትን መሬት እንደማትለቅ አስታወቀች',
    'የሱዳኑ ሱና ከፍተኛ የመከላከያ ኃላፊን ጠቅሶ፤ ሱዳን በምዕራባዊ ድንበሯ ላይ የሚገኘውንና ከኢትዮጵያ ጋር ያወዛግባት የነበረውን መሬት እንደማትመልስ ዘግቧል።\n\n"ሱዳን ከአልፋሻጋ ይዞታ ቅንጣት ታህል እንደማትሰጥ ሜጀር ጀነራል ሀይደር አልቲራፊ አረጋግጠዋል። ለወታደራዊ ኃይል ምልመላ እየተደረገ መሆኑንም ተናግረዋል" ይላል የመንግሥታዊው ሱና ዘገባ።\n\nኢትዮጵያ በበኩሏ አለመግባባቱን በድርድር ለመፍታት ሱዳን የያዘችውን መሬት እንድትለቅ እንደ ቅድመ ሁኔታ አስቀምጣለች። \n\nየሱዳኑ ጄነራል ግን አልገዳሪፍ ውስጥ ፋላታ ከተባለው ጎሳ ድጋፍ በተቀበሉበት ወቅት ባደረጉት ንግግር "ሁሉም ዜጎች ልጆቻቸው ወታደራዊ ኃይሉን ተቀላቅለው የአገራቸውን ዳር ድንበርና ክብር እንዲያስጠብቁ እንዲያነሳሱ እጠይቃለሁ" ብለዋል።\n\nየሱዳን ወታደራዊ ኃይል ድንበር ላይ ያለውን ቀጠና ለማሳደግ የመንገድና የድልድይ ግንባታ ላይ እንደተሰማራ ተናግረዋል። "በቀጠናው የአገልግሎት ዘርፍ በመገንባት እንቅስቃሴን ምቹ ለማድረግም እየሠሩ ነው" ሲሉ አክለዋል።\n\nየኢትዮጵያ የውጪ ጉዳይ ሚንስትር ቃል አቀባይ ዲና ሙፍቲ፤ ከቀናት በፊት በሰጡት መግለጫ ሱዳን ወደቀደመ ይዞታዋ ካልተመለሰች ለድርድር መቀመጥ እንደማይቻል ተናግረዋል።\n\nሱዳን የኢትዮጵያን ድንበር አልፋ እንድትጠብቅም ሆነ መሬት እንድትይዝ የተደረሰ ስምምነት እንደሌለም ቃል አቀባዩ አምባሳደር ዲና መናገራቸው ይታወሳል።\n\nሱዳን የያዘችውን መሬት እንድትለቅ ኢትዮጵያ በቅድመ ሁኔታ ማስቀመጧንና ይህ ከተሳካ ሁለቱ አገራት በዋናነትም ችግራቸውን ተነጋግረው መፍታት እንደሚችሉም አስረድተዋል።\n\nሱዳን እና ኢትዮጵያን የሚያወዛግበው አልፋሽጋ የግብርና ሥራ እየተከናወነበት የሚገኝ ሲሆን፤ ባሳለፍነው ጥቅምት ሱዳን አካባቢውን ሙሉ በሙሉ እንደምትቆጣጠር አስታውቃለች።\n\nይህም ከኢትዮጵያ ጋር የሚያወዛግባትንና በኢትዮጵያ ሚሊሻ ተይዞ የነበረውን የድንበር አካባባቢ ይጠቀልላል።\n\n ',
    'ትግራይ፡ ጦርነቱን ተከትሎ ከ6ሺህ በላይ ኢትዮጵያውያን ወደ ሱዳን ሸሽተዋል\\nየሱዳን ባለስልጣናት በቀጣይ ቀናት እስከ 200 ሺህ ኢትዮጵያውን ድንበር ተሻግረው ወደ ሱዳን ሊገቡ እንደሚችሉ ጠቁመዋል። \n\nጠቅላይ ሚንስትር ዐብይ የትግራይ ልዩ ኃይል በአገር መከላከያ ሠራዊት ሰሜን እዝ ላይ ጥቃት ሰንዝሯል ካሉ በኋላ የአገር መከላከያ ሠራዊት እርምጃ እንዲወስድ ማዘዛቸው ይታወሳል። \n\nሮይተርስ የዜና ወኪል በዘገባው ወደ ሱዳን ድንበር የተሻገሩት ስደተኞች ሲቪል ወይም ወታደራዊ ይሁኑ ያለው ነገር የለም። \n\nየስደተኞቹ ቁጥር ትናንት ማክሰኞ 6ሺህ መድረሱን የሱዳን የስደተኞች ኮሚሽን ገልጾ ቁጥሩ ከዚህም ሊለቅ እንደሚችል ስጋቱን አስቀምጧል። \n\nሮይተርስ የአገሬውን የዜና አገልግሎት ጠቅሶ እንደዘገበው 6ሺህ የሚሆኑ ስደተኞች ወደ ሱዳን የዘለቁት ሉቅዲ፣ ቁዳይማህ እና ሐምዳይት በተባሉ የሱዳን ድንበር አካባቢዎች በኩል ነው። ሌሎች በርካታ ስደተኞችም በአትባራ ወንዝ ዳርቻ ወደ ሱዳን ለመሻገር በመጠባበቅ ላይ ናቸው።\n\nሮይተርስ የሱዳን ዜና አገልግሎትን ጠቅሶ ከቀናት በፊት እንደዘገበው ደግሞ  የጦርነቱን ማገርሸት ተከትሎ የሱዳን መንግሥት ከኢትዮጵያ ጋር የሚያዋስነውን ድንበር በከፊል እንደዘጋ ጽፎ ነበር።\n\nየሱዳን ዜና አገልግሎት እንደሚለው በምሥራቅ ሱዳን አል ቃዳሪፍ ክልል የሚገኘው አስተዳደር ከአማራና ትግራይ የሚያገናኙትን አዋሳኝ ድንበሮችን ላልተወሰነ ጊዜ ዘግቷል።\n\nየዜና አገልግሎቱ ዘገባ እንዳተተው በሱዳን በኩል ሁለቱን የኢትዮጵያ ክልሎች በሚያዋስኑ ግዛቶች አሁን ምርት የመሰብሰቢያ ወቅት ስለሆነ የጦርነቱ ዳፋ የስደተኛ ጎርፍ አስከትሎ ገበሬዎችና ማሳቸው ላይ ችግር ሊፈጥር ይችላል።\n\nበጎረቤት አገር የሚደረገው ጦርነት ያሳሰበው የሱዳን መንግሥት የደኅንነትና ጸጥታ ጉዳዮች ምክር ቤት ባለፈው ማክሰኞ ልዩ ስብሰባ መቀመጡንና በጉዳዩ ዙርያ መምከሩም ተዘግቧል።\n\nየሱዳን የመከላከያ ሚኒስትር ያሲን ኢብራሂም ይህን ስብሰባ  ተከትሎ እንዳሉት በጎረቤት አገር ኢትዮያ ያለውን ሁኔታ በአንክሮ እየተከታተሉት እንደሆነና ሁለቱም ተዋጊ ወገኖች ወደ ሰላምና መረጋጋት እንዲመለሱ ማሳሰባቸውን ሱዳን ትሪቡን ዘግቧል።\n\nየሱዳን ጠቅላይ ሚኒስተር ቢሮ እንደገለጠው አብደላ ሐምዱክ ለኢትዮጵያ አቻቸው ዐቢይ አሕመድ አራት ጊዜ ያህል እንደደወሉላቸውና ከህወሓት ጋር ለድርድር ዝግጁ እንዲሆኑ እንደወተወቷቸው ይኸው ጋዜጣ ዘግቧል።\n\nአቶ ገዱ በሱዳን\n\nይህ በአንዲህ እንዳለ የኢፊዲሪ የውጭ ጉዳይ ሚኒስትር የነበሩትና በቅርቡ የጠቅላይ ሚኒስትር የብሔራዊ ደኅንነት አማካሪ ሚኒስትር ተደርገው የተመደቡት አቶ ገዱ አንዳጋቸው ሱዳን ገብተዋል ሲሉ የመንግሥት መገናኛ ብዙኃን ዘግበዋል።\n\nአቶ ገዱ ወደ ካርቱም ያቀኑት ከጠቅላይ ሚኒስትር ዐቢይ አህመድ የተላከ መልዕክት ለሱዳን ሉዓላዊ ምክር ቤት ፕሬዚዳንት ለሌትናልት ጄኔራል አብዱልፈታህ አልቡርሃን እና ለሱዳን ጠቅላይ ሚኒስትር አብደላህ ሀምዶክ ለማድረስ ነው።\n\nአቶ ገዱ ከሌትናልት ጄኔራል አብዱልፈታህ አልቡርሃን እና ጠቅላይ ሚኒስትር አብደላህ ሀምዶክ በኢትዮጵያ ወቅታዊ ሁኔታ ዙርያ መነጋገራቸውም ተዘግቧል።\n\n',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 32000]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[ 56.5779,  44.1052,  12.5016],
#         [ 44.1052, 107.3544,  17.8198],
#         [ 12.5016,  17.8198,  82.5939]])

Evaluation

Metrics

Sparse Information Retrieval

Metric Value
dot_accuracy@1 0.6626
dot_accuracy@3 0.8332
dot_accuracy@5 0.8726
dot_accuracy@10 0.9111
dot_precision@1 0.6626
dot_precision@3 0.2777
dot_precision@5 0.1745
dot_precision@10 0.0911
dot_recall@1 0.6626
dot_recall@3 0.8332
dot_recall@5 0.8726
dot_recall@10 0.9111
dot_ndcg@10 0.7933
dot_mrr@10 0.7549
dot_map@100 0.7575
query_active_dims 144.3288
query_sparsity_ratio 0.9955
corpus_active_dims 310.4897
corpus_sparsity_ratio 0.9903

Training Details

Training Dataset

Unnamed Dataset

  • Size: 184,407 training samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    details
    • min: 3 tokens
    • mean: 15.91 tokens
    • max: 81 tokens
    • min: 31 tokens
    • mean: 320.35 tokens
    • max: 510 tokens
    • min: 41 tokens
    • mean: 329.89 tokens
    • max: 510 tokens
  • Samples:
    anchor positive negative
    ነገረ ግራኝ ወፍጻሜ ሞቱ ነገር ግራኝ ወፍጻሜ ሞቱ በ19ኛው ክፍለ ዘመን የተደረሰ መጽሐፍ ሲሆን ግራኝ አህመድ በዓፄ ልብነ ድንግል መታበይ ምክንያት አገሪቱን ለመቅጣት የመጣ ሃይል አድርጎ የሚያቀርብ ጽሑፍ ነው።

    ልብነ ድንግል
    ግራኝ አህመድ
    የኢትዮጵያ ታሪክ
    19ኛ ክፍለ ዘመን አማርኛ ሥነ ጽሑፍ
    ልዑል ራስ መኮንን የንጉሠ ነገሥቱ ዳግማዊ ምኒልክ ተወካይ ሆነው ሁለት ጊዜ የአውሮፓን አገሮች ጎብኝተዋል። በዚህ ጊዜ እሳቸው ኢጣሊያን ሲጎበኙ በነበረ ጊዜ የኢጣሊያ ጋዘጦች የውጫሌ ውልን በተመለከተ፤ «...በውጫሌ ውል ላይ ኢትዮጵያ የኢጣሊያን ጥገኝነት ተቀብላ ውል ከፈረመች በኋላ የጀርመን ንጉሠ ነገሥት ከኢትዮጵያ የሚላከውን ማንኛውንም ደብዳቤም ሆን ጉዳይ በኢጣሊያ መንግሥት በኩል መቀበል ሲገባቸው በቀጥታ ከምኒልክ የተጻፈውን ደብዳቤ ተቀብለዋል...» እያሉ የጻፉትን ራስ መኮንን ተቃውሞአቸውን ለኢጣሊያ መንግሥት ከነገሩ በኋላ ወደ ኢትዮጵያ ሲመለሱ የውሉን መበላሸት ለአጤ ምኒልክ አሳወቁ። ከኢጣሊያንም ጋር በተደረገውም ጦርነት ራስ መኮንን ፲፭ ሺህ እግረኛ ወታደሮች ይዘው ከምኒልክ እና ታላላቅ ጦር አዛዦች ጋር ዘምተዋል። በ፲፰፻፺፰ ዓ.ም መጀመሪያ ላይ በብርቱ ስለታመሙ ለኅክምና ወደ አዲስ አበባ ለመሄድ ጥር ፬ ቀን ከከተማቸው ከሐረር ተነሱ። ጥር ፱ቀን ቡርቃ ወንዝ አድረው የጥምቀትን በዓል አክብረው ከዋሉ በኋላ ሕመሙ ስለጸናባቸው ወደ ኋላ ተመልሰው ቁልቢ ገብተው በሐኪም ይታከሙ ጀመር። እዚሁም ሲታመሙ ከቆዩ በኋላ መጋቢት ፲፫ ቀን ፲፰፻፺፰ ዓ.ም ቁልቢ ላይ አርፈው ሐረር ላይ እሳቸው በተከሉት በቅዱስ ሚካኤል ቤተ ክርስቲያን ተቀበሩ። ዐፄ ምኒልክም የአርባቸው ለቅሶ የሚለቀሰው አዲስ አበባ እንዲሆን ባዘዙት መሠረት፤ ሰኞ ሚያዝያ ፳፪ ቀን በአዲስ አበባና በዙሪያው ያሉት የየገዳማቱና የየአድባራቱ ካህናት የክርስቲያን የፍታት ጸሎት ተድርጎ በማግስቱም ማክሰኞ የጊዮርጊስ ዕለት ሚያዝያ ፳፫ቀን ፲፰፻፺፰ ዓ.ም በሰኢ ሜዳ ላይ ድንኳን ተተክሎ፤ መኳንንቱና ሠራዊቱ ተሰብስቦ የራስ መኮንን የማዕረግ ልብሳቸውና የራስ ወርቃቸው፤ ኒሻኖቻቸውና የጦር መሳሪያቸው ተይዞ ፈረስና ...
    ምርጫ ቦርድ ለመኢአድና ለአንድነት የሰጠው ቀነ ገደብ አለቀ መኢአድ እና አንድነት ለዴሞክራሲና ለፍትሕ ፓርቲ “የመተዳደሪያ ደንቦቻቸውን የጣሱ የአመራር ምርጫዎች አካሂደዋል” ያለው የኢትዮጵያ ብሔራዊ ምርጫ ቦርድ “የውስጥ ችግሮቻችሁን ፍቱ” በሚል ለሁለቱ ፓርቲዎች የሰጠው የሁለት ሣምንታት ቀነ ገደብ ማክሰኞ፤ ጥር 19/2007 ዓ.ም ተጠናቅቋል፡፡ሁለቱ ፓርቲዎች በተደጋጋሚ በሰጧቸው መግለጫዎች ምርጫ ቦርድ በውስጥ ጉዳያችን ጣልቃ እየገባ ነው ሲሉ ስሞታ አሰምተዋል፡፡የቀነ ገደቡን መጠናቀቅ አስመልክቶ እስክንድር ፍሬው የኢትዮጵያ ምርጫ ቦርድን የሕዝብ ግንኙነት ዳይሬክተር አቶ ደምሰው በንቲን በስልክ አነጋግሯል፡፡የተያያዘውን የድምፅ ፋይል ያዳምጡ፡፡ የምርጫ ቦርዱ የምርጫው የጊዜ ሰሌዳን አስመልክቶ ባስቀመጠው መረጃ መሰረት ከታህሳስ 16-ጥር 16፣ 2013 ዓ.ም የምርጫ ክልል ቢሮዎችን መክፈት፣ እንዲሁም ከጥር 24- የካቲት 21 2013 ዓ.ም ለምርጫ አስፈፃሚዎች ስልጠና ለመራጮች ምዝገባ የሚከናወን ይሆናል።

    በዚህም የጊዜ ሰሌዳ መሰረት በተለያዩ ክልሎች የሚገኙ የምርጫ ቢሮዎች ለመክፈት የሚያስፈልገው ትብብርን ማግኘት እንዳልቻለ ቅሬታውን አቅርቧል።

    በአሁኑም ወቅት ለምርጫ ክልል እና ለዞን ማስተባበሪያ ጽ/ቤት ሊያገለግሉ የሚችሉ ቢሮዎችን አምስት ክልሎች ሙሉ በሙሉ ማሟላት አልተቻለም ብሏል። እነዚህም የተጠቀሱት ክልሎች አፋር፣ አማራ፣ ሲዳማ፣ ደቡብ ብሔሮች፣ ብሔረሰቦች እና ሕዝቦች፣ ሶማሌ ክልል ሲሆኑ እነዚህም ክልሎች የተጠየቁትን በሙሉ እስከ የካቲት 5፣ 2013 ዓ.ም ማጠናቀቅ አለባቸው ሲል አሳስቧል።

    ብሔራዊ ምርጫ ቦርዱ ጥር 10፣ 2013 ባወጣው መግለጫ ከክልሎች እና የከተማ መስተዳድሮች የሚያስፈልገው ትብብር ባለመሟላቱ የምርጫ ክልል ቢሮዎችን ለመክፈት ዝግጅት ማድረግ እንዳልቻለ ባስታወቀው መሰረት ከፍተኛ መሻሻሎች ታይተዋል ብሏል።

    በዚህም መሰረት አዲስ አበባና ድሬዳዋ መስተዳድሮች፣ ቤኒሻንጉል ጉሙዝ፣ ኦሮሚያ፣ ሐረሪ ክልሎች ለምርጫ ክልልና ለዞን ማስተባበሪያ ፅህፈት ቤት የሚያስፈልጉትን ቢሮዎች በማዘጋጀት ለቦርዱ ማስታወቃቸው ተገልጿል።

    በእነዚህ ቢሮዎችን ባሟሉ ቦታዎች የምርጫ ጊዜ ሰሌዳው በሚያዘው መሰረት ከየካቲት 08-21፣ 2013 ዓ.ም የዕጩ ምዝገባ የሚካሄድ ሲሆን በቀሪዎቹ ደግሞ ሙሉ ለሙሉ አሟልተው ሲያቀርቡ ምዝገባው እንደሚጀመር አስታውቋል።

    ከዚህም በተጨማሪ የኢትዮጵያ ብሔራዊ ምርጫ ቦርድ ግንቦት 28፣ 2013 ዓ.ም ለሚደረገው ምርጫ የመራጮች ትምህርት ለማስተማር ዕውቅና ለተሰጣቸው...
    ሁሉም ኢትዮጵያዊ በፈለገበት ቦታ የሚኖርባትን ሀገር መገንባት አማራጭ የሌለው ሥራቸው መሆኑን የአማራ ክልል እና የወላይታ ዞን የሥራ ኃላፊዎች ተናገሩ። ባሕር ዳር፡ መስከረም 19/2012 ዓ/ም (አብመድ) ከኅብረተሰቡ ጋር ያላቸው መልካም ትስስር ግጭት ለሚፈጥሩትና ኢትዮጵያ የጋራ መሆኗ ላልገባቸው ምሳሌ እንደሚሆን በወላይታ የሚኖሩ አማራዎች ተናገሩ፡፡በ “ጊፋታ” (የወላይታ ብሄር ዘመን መለወጫ በዓል) ላይ ከተለያዩ የኢትዮጵያ አካባቢዎች እንግዶች ታድመዋል፡፡ ከታዳሚዎች መካከል የአማራ ክልል የመንግሥት የሥራ ኃላፊዎች ልዑክ ይገኝበታል። ባሕር ዳር፡ መስከረም 13/2013ዓ.ም (አብመድ) ከሰሞኑ በቤኔሻንጉል ጉሙዝ ክልል መተከል ዞን በተፈጠረ የፀጥታ ችግር የተሳተፉ አካላት ላይ ርምጃ የመውሰድ ተግባሩ ተጠናክሮ መቀጠሉን የክልሉ ሰላም ግንባታና ፀጥታ ቢሮ አስታወቀ፡፡ ቢሮው የታላቁ የኢትዮጵያ ሕዳሴ ግድብ መገኛ በመሆኑ የመላው ኢትዮጵያውያን ዓይን እና ጆሮ ወደ ክልሉ መሆኑን ቢሮው አስታውሷል፡፡ በመተከል ዞን በርካታ ብሔር ብሔረሰቦች እና ሕዝቦች በወንድማማችነት ለዘመናተ አብረው መኖራቸውንም አመላክቷል፡፡በመተከል ዞን የአማራ፣ የአገው፣ የሽናሻ፣ የጉሙዝ፣ የኦሮሞ እና ሌሎችም ብሔረሰቦች ዘመናትን አብረው አሳልፈዋል፡፡ ክፉ ጊዜን በመተባበር ማሳለፋቸው እና ደስታቸውን በጋራ መካፈላቸውም ለዓመታት ብዝኃነት ጎልቶ እንዲወጣ አድርጎታል፡፡ ሕዝቦች መካከል ምንም ችግር አለመፈጠሩን በማንሳትም አሁንም በተለመደው አብሮነታቸው እየኖሩ መሆኑን አስታውቋል፡፡
  • Loss: SpladeLoss with these parameters:
    {
        "loss": "SparseMultipleNegativesRankingLoss(scale=1.0, similarity_fct='dot_score')",
        "document_regularizer_weight": 0.0003,
        "query_regularizer_weight": 0.0005
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: epoch
  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 32
  • learning_rate: 6e-05
  • num_train_epochs: 4
  • lr_scheduler_type: cosine
  • warmup_ratio: 0.05
  • fp16: True
  • optim: adamw_torch_fused
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: epoch
  • prediction_loss_only: True
  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 32
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 6e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 4
  • max_steps: -1
  • lr_scheduler_type: cosine
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.05
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch_fused
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • hub_revision: None
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • liger_kernel_config: None
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional
  • router_mapping: {}
  • learning_rate_mapping: {}

Training Logs

Epoch Step Training Loss dot_ndcg@10
1.0 5763 34.5486 0.7278
2.0 11526 0.0824 0.7739
3.0 17289 0.0249 0.7798
4.0 23052 0.009 0.7933
-1 -1 - 0.7933

Framework Versions

  • Python: 3.11.13
  • Sentence Transformers: 5.0.0
  • Transformers: 4.53.0
  • PyTorch: 2.6.0+cu124
  • Accelerate: 1.8.1
  • Datasets: 3.6.0
  • Tokenizers: 0.21.2

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

SpladeLoss

@misc{formal2022distillationhardnegativesampling,
      title={From Distillation to Hard Negative Sampling: Making Sparse Neural IR Models More Effective},
      author={Thibault Formal and Carlos Lassance and Benjamin Piwowarski and Stéphane Clinchant},
      year={2022},
      eprint={2205.04733},
      archivePrefix={arXiv},
      primaryClass={cs.IR},
      url={https://arxiv.org/abs/2205.04733},
}

SparseMultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

FlopsLoss

@article{paria2020minimizing,
    title={Minimizing flops to learn efficient sparse representations},
    author={Paria, Biswajit and Yeh, Chih-Kuan and Yen, Ian EH and Xu, Ning and Ravikumar, Pradeep and P{'o}czos, Barnab{'a}s},
    journal={arXiv preprint arXiv:2004.05665},
    year={2020}
}
Downloads last month
3
Safetensors
Model size
111M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for rasyosef/SPLADE-RoBERTa-Amharic-Base

Finetuned
(6)
this model

Evaluation results