RoBERTa Amharic Text Embedding Base

This is a sentence-transformers model finetuned from Alibaba-NLP/gte-multilingual-base on the json dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: Alibaba-NLP/gte-multilingual-base
  • Maximum Sequence Length: 8192 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity
  • Training Dataset:
    • json
  • Language: en
  • License: apache-2.0

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: NewModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("yosefw/gte-multilingual-base-finetuned-amharic")
# Run inference
sentences = [
    'ሁለት የብአዴን አመራሮች ላይ ያነጣጠረ ጥቃት በደብረ ማርቆስ መፈጸሙ ተሰማ',
    'ሁለት የብሔረ አማራ ዴሞክራሲያዊ ንቅናቄ (ብአዴን) ከፍተኛ አመራሮች ላይ ያነጣጠረ የጥቃት ሙከራ በደብረ ማርቆስ ከተማ መፈጸሙ ተሰማ።የጥቃት ሙከራው የብአዴን መስራችና የቀድሞ የፖሊሲ ጥናትና ምርምር ማዕከል ምክትል ዋና ዳይሬክተርና የመንግሥት ኮሙዩኒኬሽን ጉዳዮች ሚኒስትር የነበሩት አቶ በረከት ስምዖንና ሌላ የብአዴን ማዕከላዊ ኮሚቴ አባል በሆኑት አቶ ምግባሩ ከበደ ላይ መሆኑን ከክልሉ መንግሥት የኮሙዩኒኬሽን ጉዳዮች ቢሮ ኃላፊ አቶ ንጉሡ ጥላሁን ያገኘነው መረጃ ያመለክታል።ሁለቱ የብአዴን አባላት በከተማው ታይተዋል የሚል ወሬ በማኅበራዊ ድረ ገጾች መናፈሱን ተከትሎ፣ ግለሰቦቹ ለሌላ ተልዕኮ እየተንቀሳቀሱ እንደሆኑ የጠረጠሩ የከተማው ነዋሪዎች በደብረ ማርቆስ ሆቴል ላይ ጉዳት ሲያደርሱ ትኩረት ከተደረገባቸው ፖለቲከኞች የአንዱ ነው ተብሎ የተጠረጠረ ተሽከርካሪ በእሳት ማቃጠላቸውንም ለማወቅ ተችሏል።አቶ ንጉሡ ድርጊቱን ያወገዙ ሲሆን፣ በከተማው ታይተዋል ከተባሉ አመራሮች አንዱ አቶ ምግባሩ በባህር ዳር የክልሉ ምክር ቤት ስብሰባ ላይ አብረዋቸው እየተሳተፉ እንደሚገኙ ገልጸዋል።‹‹ማንኛውም አመራርም ሆነ ዜጋ በየትኛውም ቦታ የመንቀሳቀስ መብቱን ሊገድብ የሚችል ነገር ሊኖር አይገባም፤›› ያሉት አቶ ንጉሡ፣ ‹‹ሰሞኑን የአንዳንድ አመራሮች ስም እየተጠቀሰ ሕዝቡን በማደናገርና ብጥብጥ በማንገስ በክልላችን የተገኘውን ሰላም ለመቀልበስ የሐሰት መረጃዎች እየተናፈሱ በመሆኑ ሕዝባችን ታላቅ ጥንቃቄ ማድረግ ይገባዋል፤›› ሲሉ አሳስበዋል።ሁለቱ የብአዴን ፖለቲከኞች ለራሳቸው የፖለቲካ ፍላጎት በደብረ ማርቆስ ከተማ በድብቅ ሕዝብ በማወያየት ላይ እንደሚገኙ የሚገልጽ ሐሰተኛ ወሬ የጥቃቱ ምክንያት እንደሆነ ተገልጿል።',
    'የእንግሊዙ ጠቅላይ ሚኒስትር ቦሪስ ጆንሰን የጣሉትን ጥብቅ የእንቅስቃሴ እና የጉዞ እገዳ በመተላለፍ ወደ ቤተሰባቸው አቅንተዋል የተባሉ አማካሪያቸውን ከኃላፊነት እንዲያነሱ የቀረበላቸውን ጥሪ ውድቅ አድርገዋል፡፡\nየ2016ቱን የእንግሊዝን ከአውሮፓ ህብረት የመነጠል ሂደት (ብሬግዚት) በበላይነት የመሩት ዶሚኒኪ ከሚንግስ 400 ኪሎ ሜትሮችን አቆራርጠው በሰሜናዊ እንግሊዝ ዱርሃም ወደሚገኙ ቤተሰቦቻቸው ያቀኑት ጆንሰን እገዳውን ባስተላለፉበት ባሳለፍነው ወርሃ መጋቢት ነበር፡፡\nበወቅቱ የከሚንግስ ባለቤት የኮሮና ህመም ምልክቶችን ያሳዩ ነበር የተባለ ሲሆን የአንድ ልጃቸውን ሁኔታ ለመመልከት ወደ ቤተሰባቸው ማቅናታቸውም ይነገራል፡፡\nሆኖም የልጃቸውን ሁኔታ ቤተሰባቸው ሊከታተል እንደሚችል የሚናገሩ የተፎካካሪ ፖለቲካ ፓርቲዎች እገዳውን በመተላለፋቸው ከኃላፊነት ሊነሱ ይገባል ሲሉ ድምጻቸውን አሰምተዋል፡፡\nየጠቅላይ ሚኒስትሩ ጽህፈት ቤት ግን ጥያቄውን አልተቀበለም ሮይተርስ እንደዘገበው ከሆነ፡፡\nአማካሪው የጥንቃቄ መርሆዎችን አክብረው የልጃቸውን ሁኔታ ለመመልከት ወደ ቤተሰባቸው ቢያቀኑም በአጎራባች መንደሮች ሆነው ሁኔታዎችን ከመከታተል ውጪ ከቤተሰባቸው እንዳልተቀላቀሉም አስታውቋል፡፡\nከአማካሪያቸው ጉዞ ጥቂት ቀናት በፊት እገዳ ስለመጣላቸው አስታውቀው የነበሩት ጆንሰን ራሳቸው በቫይረሱ ተይዘው እንደነበር የሚታወስ ነው፡፡\n',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Information Retrieval

Metric dim_768 dim_128
cosine_accuracy@1 0.7183 0.6866
cosine_accuracy@3 0.8348 0.8024
cosine_accuracy@5 0.8691 0.8402
cosine_accuracy@10 0.9034 0.8816
cosine_precision@5 0.1738 0.168
cosine_precision@10 0.0903 0.0882
cosine_precision@50 0.0192 0.0189
cosine_precision@100 0.0098 0.0096
cosine_recall@5 0.8691 0.8402
cosine_recall@10 0.9034 0.8816
cosine_recall@50 0.9618 0.9464
cosine_recall@100 0.9791 0.9644
cosine_ndcg@10 0.8131 0.784
cosine_ndcg@100 0.8292 0.8018
cosine_mrr@10 0.7839 0.7528
cosine_mrr@100 0.7872 0.7564
cosine_map@100 0.7872 0.7564

Training Details

Training Dataset

json

  • Dataset: json
  • Size: 28,046 training samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 5 tokens
    • mean: 22.77 tokens
    • max: 51 tokens
    • min: 65 tokens
    • mean: 324.14 tokens
    • max: 684 tokens
  • Samples:
    anchor positive
    የዱር እንስሳት ከሰዎች ጋር በሚኖራቸው ቁርኝት ለኮሮናቫይረስ ተጋላጭ እንዳይሆኑ የመከላከል ተግባራትን እያከናወኑ መሆኑን ባለስልጣኑ አስታወቀ፡፡ ባሕርዳር፡ ግንቦት 18/2012 ዓ.ም (አብመድ) የአማራ ክልል የአካባቢ፣ የደንና የዱር እንስሳት ጥበቃና ልማት ባለስልጣን በሚያስተዳድራቸው ብሔራዊ ፓርኮች እና የማኅበረሰብ ጥብቅ ሥፍራዎች ከኮሮናቫይረስ ተጋላጭነት ለመከላከል እየሠራ መሆኑን አስታውቋል፡፡የባለስልጣኑ የኮሙዩኒኬሽን ዳይሬክተር ጋሻው እሸቱ 10 በሚሆኑ ብሔራዊ ፓርኮችና የማኅበረሰብ ጥብቅ ሥፍራዎች የኮሮና ቫይረስን መከላከል በሚቻልባቸው ቅድመ ተግባራት እና ርምጃዎች ላይ መምከራቸውን ተናግረዋል፡፡ የዱር እንስሳት በመንጋ የሚኖሩ፣ እርስ በርሳቸው ተመጋጋቢ፣ ከሰዎች እና ከቤት እንስሳቶች ጋር ሊቀላቀሉ የሚችሉ በመሆናቸው በኮሮናቫይረስ ከተጋለጡ ‘‘የኮሮናቫይረስ ተጋላጭነት በብርቅየ የዱር እንስሳት ብዝኃ ሕይወት ላይ ስጋት መሆን የለበትም’’ ያሉት አቶ ጋሻው በፓርኮቹ ውስጥ ለሚሠሩ የጥበቃ፣ ስካውት እና ለጽሕፈት ቤት ሠራተኞች በዘርፉ ላይ ያተኮረ የኮሮናቫይረስ መከላከያ ትምህርቶችን እና የቁሳቁስ ድጋፎችን ማድረጋቸውን አስታውቀዋል፡፡
    የትግራይ ክልል የአየር መሥመር ለአገልግሎት ክፍት ሆነ፡፡
    የትግራይ ክልል የአየር መሥመር ለአገልግሎት ክፍት ሆነ፡፡
    ባሕር ዳር፡ ታኅሣሥ 05/2013 ዓ.ም (አብመድ) በሰሜን ኢትዮጵያ ትግራይ ክልል የህግ ማስከበር ሂደትን ተከትሎ ተዘግቶ የነበረው የአየር ክልል ከዛሬ ታህሣሥ 5/2013 ዓ.ም ከቀኑ 8 ሰዓት ጀምሮ በሰሜን የኢትዮጵያ የአየር ክልል ውስጥ የሚያቋርጡ የአለም አቀፍ እና የሃገር ውስጥ የበረራ መስመሮች ለአገልግሎት ክፍት ሆነዋል፡፡ አገልግሎት መሥጠት የሚችሉ ኤርፖርቶች በረራ ማስተናገድ የሚችሉ መሆኑንም የኢትዮጵያ ሲቪል አቪዬሽን ባለስልጣን ገልጿል::
    የአውሮፓ ኢንቨስትመንት ባንክ ለመንግሥት 76 ሚሊዮን ዶላር ሊያበድር ነው በዳዊት እንደሻውየአውሮፓ ኢንቨስትመንት ባንክ ጽሕፈት ቤቱን በአዲስ አበባ ከከፈተ ከሁለት ዓመት በኋላ ትልቅ ነው የተባለለትን የ76 ሚሊዮን ዶላር ብድር ስምምነት ለመፈራረም፣ ኃላፊዎቹን ወደ ኢትዮጵያ ይልካል፡፡ከወር በፊት በኢትዮጵያ መንግሥትና በባንኩ መካከል የተደረገው ይኼ የብድር ስምምነት፣ የኢትዮጵያ ልማት ባንክ በሊዝ ፋይናንሲንግ ለአነስተኛና ለመካከለኛ ኢንተርፕራይዞች ለሚያደርገው እገዛ ይውላል፡፡የአውሮፓ ኢንቨስትመንት ባንክ ምክትል ፕሬዚዳንት ፒም ቫን በሌኮም፣ እንዲሁም ሌሎች ኃላፊዎች ይመጣሉ ተብሎ ይጠበቃል፡፡በዚህም መሠረት የባንኩ ኃላፊዎች ከገንዘብና ኢኮኖሚ ትብብር ሚኒስቴር ጋር አድርገውት ከነበረው ስምምነት የሚቀጥልና ተመሳሳይ የሆነ ስምምነት፣ ከኢትዮጵያ ልማት ባንክ ጋር እንደሚያደርጉ ይጠበቃል፡፡እ.ኤ.አ. እስከ 2022 ድረስ የሚቀጥለው አነስተኛና መካከለኛ ኢንተርፕራይዞችን የማገዝ ፕሮጀክት 276 ሚሊዮን ዶላር ወጪ የሚያስወጣ ሲሆን፣ ባለፈው ዓመት የዓለም ባንክ ወደ 200 ሚሊዮን ዶላር ብድር ሰጥቷል፡፡በአውሮፓ ኢንቨስትመንት ባንክ የሚሰጠው ብድር፣ የኢትዮጵያ ልማት ባንክን የሊዝ ፋይናንሲንግ ሥራ እንደሚያግዝ ጉዳዩ የሚመለከታቸው የልማት ባንክ ኃላፊዎች ለሪፖርተር ተናግረዋል፡፡ ‹‹በተጨማሪም የውጭ ምንዛሪ እጥረቱን ለማቃለል ያግዛል፤›› ሲሉ ኃላፊው ገልጸዋል፡፡በልማት ባንክ በኩል የሚደረገው እገዛ በሁለት መስኮቶች የሚወጣ ሲሆን፣ አንደኛው በቀጥታ በባንክ እንደ ሊዝ ፋይናንሲንግ ሲሰጥ ሌላው ደግሞ እንደ መሥሪያ ካፒታል ልማት ባንክ ለመረጣቸው 12 ባንኮችና ዘጠኝ ማይክሮ ፋይናንሶች ይሰጣል፡፡የአውሮፓ ኢንቨስትመንት ባንክ በኢትዮጵያ መንቀሳቀስ ከጀመረ ከ1980ዎቹ ጀምሮ ወደ ግማሽ ቢሊዮን ዶላር የሚጠጋ ለኃይል፣ ለኮሙዩኒኬሽንና ለግሉ ዘርፍ ኢ...
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "MultipleNegativesRankingLoss",
        "matryoshka_dims": [
            768,
            128
        ],
        "matryoshka_weights": [
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: epoch
  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 64
  • gradient_accumulation_steps: 4
  • lr_scheduler_type: cosine
  • warmup_ratio: 0.1
  • fp16: True
  • load_best_model_at_end: True
  • optim: adamw_torch_fused
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: epoch
  • prediction_loss_only: True
  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 64
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 4
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 3
  • max_steps: -1
  • lr_scheduler_type: cosine
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch_fused
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss dim_768_cosine_ndcg@100 dim_128_cosine_ndcg@100
0.0456 10 4.4431 - -
0.0912 20 2.9024 - -
0.1368 30 1.6097 - -
0.1824 40 1.1869 - -
0.2281 50 1.2144 - -
0.2737 60 0.9749 - -
0.3193 70 1.0655 - -
0.3649 80 1.1162 - -
0.4105 90 0.9775 - -
0.4561 100 1.034 - -
0.5017 110 0.9311 - -
0.5473 120 0.8444 - -
0.5929 130 0.7158 - -
0.6385 140 0.8255 - -
0.6842 150 0.9804 - -
0.7298 160 0.7188 - -
0.7754 170 0.7155 - -
0.8210 180 0.7736 - -
0.8666 190 0.6608 - -
0.9122 200 0.7058 - -
0.9578 210 0.691 - -
1.0 220 0.5458 0.8138 0.7827
1.0456 230 0.3499 - -
1.0912 240 0.3814 - -
1.1368 250 0.3523 - -
1.1824 260 0.2445 - -
1.2281 270 0.3511 - -
1.2737 280 0.3602 - -
1.3193 290 0.3312 - -
1.3649 300 0.4093 - -
1.4105 310 0.312 - -
1.4561 320 0.3038 - -
1.5017 330 0.3356 - -
1.5473 340 0.3174 - -
1.5929 350 0.2237 - -
1.6385 360 0.3872 - -
1.6842 370 0.3198 - -
1.7298 380 0.3592 - -
1.7754 390 0.3249 - -
1.8210 400 0.2903 - -
1.8666 410 0.3085 - -
1.9122 420 0.3823 - -
1.9578 430 0.348 - -
2.0 440 0.2489 0.8275 0.8001
2.0456 450 0.1428 - -
2.0912 460 0.1459 - -
2.1368 470 0.1268 - -
2.1824 480 0.1414 - -
2.2281 490 0.1485 - -
2.2737 500 0.149 - -
2.3193 510 0.1755 - -
2.3649 520 0.2325 - -
2.4105 530 0.1779 - -
2.4561 540 0.1273 - -
2.5017 550 0.1587 - -
2.5473 560 0.1881 - -
2.5929 570 0.167 - -
2.6385 580 0.204 - -
2.6842 590 0.1544 - -
2.7298 600 0.1869 - -
2.7754 610 0.1854 - -
2.8210 620 0.1731 - -
2.8666 630 0.1575 - -
2.9122 640 0.1527 - -
2.9578 650 0.1554 - -
2.9897 657 - 0.8292 0.8018
  • The bold row denotes the saved checkpoint.

Framework Versions

  • Python: 3.11.11
  • Sentence Transformers: 3.4.1
  • Transformers: 4.48.3
  • PyTorch: 2.6.0+cu124
  • Accelerate: 1.3.0
  • Datasets: 3.3.0
  • Tokenizers: 0.21.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MatryoshkaLoss

@misc{kusupati2024matryoshka,
    title={Matryoshka Representation Learning},
    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
    year={2024},
    eprint={2205.13147},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
3
Safetensors
Model size
305M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for yosefw/gte-multilingual-base-finetuned-amharic

Finetuned
(54)
this model

Evaluation results