rasyosef/Amharic-Passage-Retrieval-Dataset-V2
Viewer • Updated • 68.3k • 68
How to use rasyosef/reranker-amharic-base with sentence-transformers:
from sentence_transformers import CrossEncoder
model = CrossEncoder("rasyosef/reranker-amharic-base")
query = "Which planet is known as the Red Planet?"
passages = [
"Venus is often called Earth's twin because of its similar size and proximity.",
"Mars, known for its reddish appearance, is often referred to as the Red Planet.",
"Jupiter, the largest planet in our solar system, has a prominent red spot.",
"Saturn, famous for its rings, is sometimes mistaken for the Red Planet."
]
scores = model.predict([(query, passage) for passage in passages])
print(scores)This is a Cross Encoder model finetuned from rasyosef/roberta-base-amharic using the sentence-transformers library. It computes scores for pairs of texts, which can be used for text reranking and semantic search.
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import CrossEncoder
# Download from the 🤗 Hub
model = CrossEncoder("rasyosef/reranker-amharic-base")
# Get scores for pairs of texts
pairs = [
['ለውጭ ገበያ በሚቀርበው የኢትዮጵያ ቡና ላይ የተጋረጠው ፈተና', 'የኢትዮጵያ ዋነኛ የውጭ ምንዛሬ ምንጭ የሆነው ወደ ውጭ የሚላክ ቡና ዘርፍ በአሁኑ ጊዜ ከፍተኛ ውጥረት ውስጥ ገብቷል። በዚህ የተነሳም የኢትዮጵያ ቡናና ሻይ ባለሥልጣንን ጨምሮ የሚመላካታቸው ሁሉ ቡና ላኪዎችና አምራቾች ያከማቹትን ቡና በፍጥነት ወደ ዓለም ገበያ እንዲያወጡ ጥሪ እያቀረቡ ነው ።'],
['ለውጭ ገበያ በሚቀርበው የኢትዮጵያ ቡና ላይ የተጋረጠው ፈተና', 'የቻይናው ፕሬዝዳንት ዚ ጂንፒንግ ከትራምፕ ጋር ባደረጉት ጉባኤ ትኩረታቸው በሁለቱ ሀገራት መካከል ለወራት ከተፈጠረ ውጥረት እና የንግድ ጦርነት በኋላ የተረገጋጋ ግንኙነትን ማስቀጠል ነበር። ከፑቲን ጋር ደግሞ ዢ ለሁለቱ አገራት ስልታዊም ሆነ ኢኮኖሚያዊ ጠቀሜታ ረጅም ጊዜ የዘለቀውን አጋርነትን ይበልጥ ማጠናከር ላይ ነበር ትኩረታቸው።']
]
scores = model.predict(pairs)
print(scores.shape)
# (2,)
# Or rank different texts based on similarity to a single text
ranks = model.rank(
'ለውጭ ገበያ በሚቀርበው የኢትዮጵያ ቡና ላይ የተጋረጠው ፈተና',
[
'የኢትዮጵያ ዋነኛ የውጭ ምንዛሬ ምንጭ የሆነው ወደ ውጭ የሚላክ ቡና ዘርፍ በአሁኑ ጊዜ ከፍተኛ ውጥረት ውስጥ ገብቷል። በዚህ የተነሳም የኢትዮጵያ ቡናና ሻይ ባለሥልጣንን ጨምሮ የሚመላካታቸው ሁሉ ቡና ላኪዎችና አምራቾች ያከማቹትን ቡና በፍጥነት ወደ ዓለም ገበያ እንዲያወጡ ጥሪ እያቀረቡ ነው ።',
'የቻይናው ፕሬዝዳንት ዚ ጂንፒንግ ከትራምፕ ጋር ባደረጉት ጉባኤ ትኩረታቸው በሁለቱ ሀገራት መካከል ለወራት ከተፈጠረ ውጥረት እና የንግድ ጦርነት በኋላ የተረገጋጋ ግንኙነትን ማስቀጠል ነበር። ከፑቲን ጋር ደግሞ ዢ ለሁለቱ አገራት ስልታዊም ሆነ ኢኮኖሚያዊ ጠቀሜታ ረጅም ጊዜ የዘለቀውን አጋርነትን ይበልጥ ማጠናከር ላይ ነበር ትኩረታቸው።',
]
)
# [{'corpus_id': ..., 'score': ...}, {'corpus_id': ..., 'score': ...}, ...]
amh-passage-retrieval-devCrossEncoderRerankingEvaluator with these parameters:{
"at_k": 10
}
| Metric | Value |
|---|---|
| mrr@10 | 0.830 |
| ndcg@10 | 0.856 |
query, passage, and label| query | passage | label | |
|---|---|---|---|
| type | string | string | int |
| details |
|
|
|
| query | passage | label |
|---|---|---|
‹‹የአገር መከላከያ ሠራዊት ተዋጽኦ እንደ ተወካዮች ምክር ቤት መቀመጫ የሚከፋፈል አይደለም›› ጄኔራል ሳሞራ የኑስ |
የአገር መከላከያ ሠራዊት ብሔራዊ ተዋጽኦ የጠበቀና የተመጣጠነ መሆን ያለበት ቢሆንም እንደ የተወካዮች ምክር ቤት መቀመጫ የሚከፋፈል እንዳልሆነ፣ የጦር ኃይሎች ጠቅላላ ኤታ ማዦር ሹም ጄኔራል ሳሞራ የኑስ ተናገሩ፡፡በአማራ ብሔራዊ ክልላዊ መንግሥት ዋና ከተማ በሆነችው በባህር ዳር ከተማ የተከበረውን ሦስተኛውን የሠራዊት ቀን ምክንያት በማድረግ በተዘጋጀው የውይይት መድረክ (ሲምፖዝየም)፣ ‹‹የኢፌዲሪ መከላከያ ሠራዊት ከየት ወዴት?›› በሚል ርዕስ ጥናታዊ ጽሑፍ ያቀረቡት ጄኔራል ሳሞራ የመከላከያ ሠራዊት አመጣጥ፣ ዕድገትና አሁን የሚገኝበትን ደረጃ ተንትነዋል፡፡ቀደም ሲል ደርግን ያሸነፈው የኢሕአዴግ ሠራዊት የአሁኑ መከላከያ ሠራዊት መሠረት እንደሆነ አስታውሰው፣ ለማመጣጠን ሲባል ከ30 ሺሕ በላይ ነባር ታጋዮች እንዲቀነሱ የተደረገበት ምክንያት ብሔራዊ አስተዋጽኦን ለማጠናከር እንደሆነ ገልጸዋል፡፡ ‹‹ለታጋዮችም ሆነ ለአመራሮች ፈታኝና ከባድ ውሳኔ የነበረ ቢሆንም ለሕዝብ ጥቅም ሲባል ወስነናል፤›› በማለት የገለጹት ጄኔራል ሳሞራ፣ በመከላከያ ሠራዊት አነስተኛ ተሳትፎ ከነበራቸው ብሔር ብሔረሰቦች አዲስ አባላት በመመልመል፣ ከወንጀል ነፃ የሆኑ ተፈላጊ ችሎታና ሙያ የነበራቸው የደርግ ሠራዊት አባላትም ታክለውበት ሠራዊቱ እንደ አዲስ መደራጀቱን አብራርተዋል፡፡ በወቅቱ ካልተቀነሱት የሕወሓት ታጋዮች ላይ ሁለት ማዕረግ እንደተቀነሰ፣ በአንፃሩ ደግሞ ለሌሎች ብሔር ተወላጆች ላይ ሁለት ማዕረግ እንዲጨመር መደረጉን አስታውሰዋል፡፡ ኢሕአዴግ ውስጥ ከተፈጠረው መከፋፈል በኋላ በተደረገው የተሃድሶ እንቅስቃሴ መሠረት የሠራዊቱ ማነቆ የነበሩ ችግሮችና አስተሳሰቦች መወገዳቸውንም አውስተዋል፡፡ አዲሱ የሠራዊት ግንባታ ሕገ መንግሥታዊ ተልዕኮዎችን የሚያሳካ፣ የመከላከል ቁመናው የማይደፈር ሆኖ ... |
1 |
‹‹የአገር መከላከያ ሠራዊት ተዋጽኦ እንደ ተወካዮች ምክር ቤት መቀመጫ የሚከፋፈል አይደለም›› ጄኔራል ሳሞራ የኑስ |
ጠቅላይ ሚኒስትር ዓብይ አህመድ (ዶ/ር) ለሦስት የመከላከያና የደኅንነት ከፍተኛ ኃላፊዎች ዓርብ ሰኔ 21 ቀን 2011 ዓ.ም. ሹመት ሰጡ፡፡የብሔራዊ መረጃና ደኅንነት አገልግሎት ዋና ዳይሬክተር የነበሩት ጄኔራል አደም መሐመድ የጦር ኃይሎች ጠቅላይ ኤታ ማዦር ሹም፣ ሌተና ጄኔራል ሞላ ኃይለ ማርያም የምድር ኃይል ዋና አዛዥ፣ እንዲሁም አቶ ደመላሽ ገብረ ሚካኤል የብሔራዊ መረጃና ደኅንነት አገልግሎት ዋና ዳይሬክተር ሆነው ተሹመዋል፡፡ጄኔራል አደም ሰኔ 15 ቀን 2011 ዓ.ም. ምሽት በመኖሪያቸው ቤታቸው በተገደሉት በጄራል ሰዓረ መኮንን ምትክ ነው የተሾሙት፡፡ የብሔራዊ መረጃና ደኅንነት አገልግሎት በመሆን ከተሾሙ አንድ ዓመት ያለፋቸው ጄኔራል አደም፣ ቀደም ሲል የኢትዮጵያ አየር ኃይል ዋና አዛዥ በመሆን አገልግለዋል፡፡ሌተና ጄኔራል ሞላ ከዚህ በፊት የኢትዮጵያ አየር ኃይል ዋና አዛዥ በመሆን ማገልገላቸው ሲታወስ፣ በአዲሱ ሹመታቸው የምድር ኃይልን በዋና አዛዥነት ይመራሉ፡፡አቶ ደመላሽ ከዓመት በፊት የብሔራዊ መረጃና ደኅንነት ምክትል ዋና ዳይሬክተር በመሆን እያገለገሉ የነበሩ ሲሆን፣ ቀደም ሲል የኦሮሚያ ክልል ምክትል ኮሚሽነር፣ እንዲሁም የፌዴራል ፖሊስ ፀረ ሽብር ግብረ ኃይል ዳይሬክተር በመሆን ሠርተዋል፡፡ |
0 |
‹‹የአገር መከላከያ ሠራዊት ተዋጽኦ እንደ ተወካዮች ምክር ቤት መቀመጫ የሚከፋፈል አይደለም›› ጄኔራል ሳሞራ የኑስ |
ለሕዝብ ተወካዮች ምክር ቤት ቋሚ ኮሚቴዎች የተጓደሉ ሊቀመንበሮችን ለመተካት ዕጩዎችን ያቀረቡት አፈ ጉባዔ አባዱላ ገመዳ ዕጩዎቹን የመለመሉበት መሥፈርት ዕውቀትን መሠረት ያደረገ አለመሆኑን አስመልክቶ ለተነሳባቸው ጥያቄ፣ ዕውቀት ሁልጊዜ መሥፈርት ሊሆን እንደማይችል ይልቁንም የፖለቲካ ድርጅቶች በሚሰጡት ውሳኔ የአመራርነት ምደባ እንደሚካሄድ ገለጹ፡፡አፈ ጉባዔው በምክር ቤቱ የአባልነት ሥነ ምግባርና ሥነ ሥርዓት ደንብ በሚሰጣቸው ኃላፊነት መሠረት በ2008 ዓ.ም. መጀመሪያ ላይ ለምክር ቤቱ 18 ቋሚ ኮሚቴዎች ከመደቧቸው ዋና ምክትል ሊቀመናብርት መካከል፣ የተወሰኑት በተለያዩ ምክንያቶች በመጓደላቸው በምትክነት ያጯቸውን ለምክር ቤቱ አባላት ለምደባ ሐሙስ ታኅሳስ 13 ቀን 2009 ዓ.ም. አቅርበዋል፡፡የቋሚ ኮሚቴው ሊቀመናብርት ከተጓደሉባቸው ምክንያቶች አንዱ በሥራ አስፈጻሚው መንግሥት መዋቅር ውስጥ በመመደባቸው መሆኑ ተገልጿል፡፡ ይሁን እንጂ አፈ ጉባዔው ያቀረቡት አዲስ ምደባ በተጓደሉ አመራሮች ምትክ ብቻ ሳይሆን፣ ነባሮችንም ወደ ሌላ ቋሚ ኮሚቴዎች የሚያሸጋሽግ ነው፡፡ይህንን ያስተዋሉት የምክር ቤቱ አንድ አባል አፈ ጉባዔው ባቀረቡት አዲስ ምደባ ላይ በርከት ያሉ ጥያቄዎችን አቅርበዋል፡፡ጥያቄዎቹን ያነሱት የምክር ቤት አባል አቶ ተክሌ ተሰማ የደኢሕዴን ተወካይ ሲሆኑ፣ በአዲሱ ምደባ ቀደም ሲል ከነበሩበት ቋሚ ኮሚቴ ምክትል ሊቀመንበርነት ወደ ሌላ ቋሚ ኮሚቴ ምክትል ሊቀመንበርነት እንዲዘዋወሩ፣ በአፈ ጉባዔው የውሳኔ ሐሳብ ዝርዝር ውስጥ ስማቸው ተካቷል፡፡አቶ ተክሌ ባነሱት ጥያቄ ለምደባ የቀረቡት ዕጩዎች የትምህርት ምዘና የሚመደቡበት ቋሚ ኮሚቴ ከሚጠይቀው ዕውቀት ጋር የሚጣጣም አለመሆኑን፣ የዕጩ ተመዳቢዎች ይሁንታን አፈ ጉባዔው ለምን እንዳልጠየቁ በማንሳት ዕውቀትን መሠረ... |
0 |
BinaryCrossEntropyLoss with these parameters:{
"activation_fn": "torch.nn.modules.linear.Identity",
"pos_weight": 7
}
eval_strategy: epochper_device_train_batch_size: 64per_device_eval_batch_size: 64learning_rate: 4e-05weight_decay: 0.1num_train_epochs: 4lr_scheduler_type: cosinewarmup_ratio: 0.05fp16: Truedataloader_num_workers: 2load_best_model_at_end: Trueoverwrite_output_dir: Falsedo_predict: Falseeval_strategy: epochprediction_loss_only: Trueper_device_train_batch_size: 64per_device_eval_batch_size: 64per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 1eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 4e-05weight_decay: 0.1adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1.0num_train_epochs: 4max_steps: -1lr_scheduler_type: cosinelr_scheduler_kwargs: {}warmup_ratio: 0.05warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falseuse_ipex: Falsebf16: Falsefp16: Truefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 2dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Trueignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torchoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Nonehub_always_push: Falsegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseinclude_for_metrics: []eval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters: auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: Falseneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseeval_use_gather_object: Falseaverage_tokens_across_devices: Falseprompts: Nonebatch_sampler: batch_samplermulti_dataset_batch_sampler: proportional| Epoch | Step | Training Loss | amh-passage-retrieval-dev_ndcg@10 |
|---|---|---|---|
| 1.0 | 7684 | 0.3481 | 0.8475 |
| 2.0 | 15368 | 0.2105 | 0.8713 |
| 3.0 | 23052 | 0.1221 | 0.8839 |
| 4.0 | 30736 | 0.0555 | 0.8815 |
| -1 | -1 | - | 0.8802 |
Base model
rasyosef/roberta-base-amharic