SentenceTransformer based on intfloat/multilingual-e5-large-instruct

This is a sentence-transformers model finetuned from intfloat/multilingual-e5-large-instruct. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Type: Sentence Transformer
Base model: intfloat/multilingual-e5-large-instruct
Maximum Sequence Length: 512 tokens
Output Dimensionality: 1024 tokens
Similarity Function: Cosine Similarity

Model Sources

Documentation: Sentence Transformers Documentation
Repository: Sentence Transformers on GitHub
Hugging Face: Sentence Transformers on Hugging Face

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
    'WHO가 23일에 우한 폐렴과 관련해서 전세계에 선포한 것은?',
    '1월 24일, 중국 춘제가 시작되자마자 한국과 일본에서 각각 두 번째 우한폐렴 감염자가 확인됐다. 대한민국의 두 번째 우한폐렴 감염자는 중국 우한에서 근무하던 한국 국적의 55세 남성인 것으로 확인됐다WHO(세계보건기구)는 23일(현지시간) 우한폐렴이 중국 내에서만 크게 유행하고 있고 다른 나라에서는 사람 간 전염 증거가 없으며 사망자 대부분이 면역력이 약한 노인이고 대다수의 건강한 성인에게는 가벼운 증상만을 유발한다며 이번 사태가 아직 국제 공중보건 비상사태에 해당하지 않는다며 국제 공중보건 비상사태를 선포하지 않았다. 이날 오후 8시 49분 기준, 중국에서 889명, 총 910명이 감염되어 이 가운데 26명이 사망하였다. 중국 보건당국은 우한 외에 후베이성 다른 7곳의 도시에 추가로 여행금지령을 내리면서 사실상 봉쇄했다. 8곳은 우한, 황강, 어저우, 츠비, 셴타오, 첸장, 징먼, 지장 등이다. 이들 도시에선 열차, 비행기 등 다른 도시와 연결되는 대중교통 수단 공급이 전면 중단되고 대중이 모이는 장소는 폐쇄된다.',
    '“귀신 잡는 해병이라 귀신 앞에서도 긴장이 안됐는데, 면접관 앞에서는 바짝 긴장되더라고요.”(한기홍 대위) “칼바람 부는 백령도보다 면접장이 더 춥게 느껴졌어요.”(채운석 대위)‘귀신 잡는 해병’도 입사 면접관 앞에서는 떨고 있었다. 70~100명을 거느리는 중대장들이지만, 면접장에서는 수험생과 다를 바 없었다.롯데그룹 채용담당 면접관들이 오는 6월 전역하는 해병대 장교를 위해 ‘군부대를 찾아가는 특별채용 면접’을 진행했다. 롯데의 5개 계열사(제과, 칠성, 마트, 하이마트, 코리아세븐) 채용담당자들이 해병 장교를 뽑기 위해 경기도 해병대사령부를 찾은 것이다. 작년에 이어 2년째 진행된 채용 프로그램이다.면접에 나온 장교 14명은 해병대 사령부의 추천을 통해 선발됐다. 정부교 해병대 대외협력관은 “취업준비 여건이 미비한 전방에서만 5년 이상 복무한 우수 장교”라며 “롯데그룹에 입사해 크게 기여할 수 있는 이들을 추천했다”고 말했다. 면접에 온 이들의 나이는 29~33세. 복무기간 5~10년인 중기 복무 장교들이다.오전 10시부터 시작된 역량면접은 1인당 30~40분씩 진행됐다. 역량면접을 하고 나온 권혁이 대위는 “지원동기, 1분 자기소개, 지원회사인 하이마트와 군생활 중 기억나는 것에 대한 질문을 받았다”며 “6년간 군생활을 통해 대한민국 최고의 해병대 장교로 경험한 것을 토대로 최고의 유통기업 롯데에서 꿈을 펼치고 싶다”고 포부를 밝혔다.롯데마트에 지원한 정성현 대위는 “부대원들과 갈등상황을 잘 해결한 사례를 물었다”고 말했다. “임관 후 부대원들의 ‘소대장 길들이기’에 처음엔 화도 났지만, 진심으로 다가가 말을 건네고 생활관에서 부대원들과 함께 자고 하면서 먼저 속마음을 열었더니 그들도 다가왔다는 점을 소개했죠.”여성 장교 2명도 지원했다. 해병대 군생활 7년차인 배은진 대위(롯데마트 지원)는 “결혼한 주부로서 롯데마트 일산점에서 장을 보면서 느낀 점을 적극 어필하겠다”고 말했다. 안혜영 대위(하이마트 지원)는 “체력과 정신력에서 일반 대졸자들보다 더 자신 있다”며 “여군 장교는 대부분 자원 입대자이기에 ‘남군’보다 더 열정적으로 군복무를 한다”고 설명했다. 해병대 훈련을 받으면서 선후배로 같은 방을 썼다는 이들은 “좋은 결과가 나와 롯데그룹 연수 때도 같은 방을 쓸 수 있었으면 좋겠다”는 바람을 내비쳤다.오후에 진행된 인성면접은 면접관 2명에 지원자 3명이 나란히 앉아서 면접을 보는 형식으로 진행됐다. 면접장을 막 나온 송은희 대위(코리아세븐 지원)는 “멘붕이었다”며 “일반 사회를 모르고 정보도 턱없이 부족해 예상 질문과 대답을 외우고 또 외웠는데 면접관의 질문에 앞이 깜깜했었다”고 전했다.제주도에서 왔다는 한기홍 대위(롯데마트 지원)는 “‘해병대가 나를 철들게 했다’고 말해 면접장이 웃음바다가 됐다”고 소개했다. 그는 “해병대에서 사람을 신뢰하고 신뢰시키는 법을 배웠다”며 “부족해도 열심히 노력하면 못할 게 없다는 것도 해병대에서 배웠다”고 말했다.롯데칠성에 지원한 최원희 대위는 면접장에 들어가기 전 “초등학교 때 전단을 돌리는 것을 시작으로 중학교 때는 군고구마 장사, 고교 시절엔 노래방 ‘알바’로 다져진 영업정신을 어필할 계획”이라며 “여기에 해병대 리더십까지 덧붙이면 분명히 뽑아줄 것으로 확신한다”고 자신 있게 말했다.이날 면접관으로 참석한 김진성 롯데그룹 인사팀 수석은 “장교들은 국가기여형 인재로서 리더십·책임감·국가관이 검증된 인재”라며 “앞으로도 롯데는 해병정신으로 무장된 해병장교를 계속 채용할 방침”이라고 밝혔다. 이번 면접 결과는 오는 27일께 발표될 예정이며, 입사일은 전역 후인 7월 중이다. 롯데는 내달 중 전역장교를 대상으로 한 채용설명회도 진행할 예정이다.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Dataset

Unnamed Dataset

Size: 23,392 training samples
Columns: sentence_0 and sentence_1
Approximate statistics based on the first 1000 samples:
sentence_0 sentence_1
type string string
details
min: 8 tokens
mean: 19.01 tokens
max: 37 tokens

min: 253 tokens
mean: 447.43 tokens
max: 512 tokens

	sentence_0	sentence_1
type	string	string
details	min: 8 tokens mean: 19.01 tokens max: 37 tokens	min: 253 tokens mean: 447.43 tokens max: 512 tokens

Samples:

sentence_0	sentence_1
`삼성이 애플의 아이폰보다 더 많은 선호도를 받았던 스마트폰은 무엇인가?`	애플의 아이폰을 도입한 이후로 KT와 삼성간의 불화가 일기 시작하였다. 아이폰 출시로 인해 스마트폰 부분에서 삼성은 매출과 이미지에 타격을 입었으며, 삼성의 대표적인 스마트폰인 옴니아2의 만족도 조사와, 스마트폰 선호도 조사에서 삼성은 애플에 크게 떨어져 굴욕을 맛보아야 했다. 삼성은 그에 따라 KT에 대한 불편한 심기를 감추지 않았으며, 이후 삼성의 각종 스마트폰 출시에서 KT가 제외되거나, 보조금 지급 대상에서 제외되거나, 업그레이드를 해주지 않거나, 심지어 '쇼옴니아' 명칭 조차 사용할 수 없게 하는 KT에 대한 삼성의 차별이 시작되었다. KT는 아이폰을 출시함으로 인해 큰 영향력을 행사하는 계기가 되었으나, 대한민국 최대 휴대폰 제조사인 삼성과의 불화로 인해 대한민국의 스마트폰을 원활하게 확보하기가 어렵게 되는 위기에 처하기도 하였다. 이후 SK텔레콤을 통해서 출시된 삼성의 스마트폰 '갤럭시' 시리즈도 몇개월 이상 지나서 KT에서 출시되었으며 삼성의 '바다' 운영 체제를 탑재한 '웨이브'는 KT에서 아예 출시 할 계획이 없는 것으로 알려졌다. 이렇게 KT가 삼성에게 차별을 받고 있는 상황을 IT 업계에서는 "KT가 국내 휴대전화 단말기와 통신 서비스업체 사이에 묵시적으로 합의한 스마트폰 무시 전략을 눈치 없이 깨고, 아이폰이라는 금단의 열매를 베어 문 탓에 박해를 받고 있다"고 분석하기도 한다. KT의 이석채 회장은 삼성에 대해 "기업을 하는데 감정을 갖고 있으면 안 된다"고 말하거나, 쇼옴니아 명칭을 사용할 수 없게 하는데 대해 "쇼옴니아는 아버지를 아버지라 부르지 못하는 홍길동 신세"라고 하는 등 삼성에 대해 불편한 심기를 드러내기도 하였다. 한편, 스마트폰 부분에서 아이폰에 굴욕을 맛보았던 삼성은 SK텔레콤과 협력을 더욱 긴밀하게 유지하고 있으며, SK텔레콤은 2010년 2분기에만 10종의 스마트폰을 출시하기로 하는 등 아이폰으로 인해 놓쳤던 주도권을 잡기 위한 반격을 시작하였다.
`제 1차 중동 전쟁에서 이집트 민족주의자들이 팔레스타인을 지원했던 년도는?`	1882년 영국군은 앵글로-이집트 전쟁을 통하여 이집트 정치에 개입하기 시작하였다. 1888년 콘스탄티노플 협약을 통해 영국은 이집트의 수에즈 운하를 군사 점령하게 되었다. 제1차 세계 대전 당시 이집트는 오스만 제국령에서 일정한 수준의 독립 권리를 누리고 있었다. 이 시기 이집트 국왕인 압바스 2세는 영국에 대해 강한 반감을 갖고 있었고 그 결과 동맹국을 지원하였다. 승전한 영국은 패전국인 오스만 제국의 이집트 영토를 강제적으로 자국의 식민지로 편입하였다. 이후 이집트의 반영(反英) 감정이 고조되었다. 1919년 3월 이집트 인민은 대규모 봉기(1919년 이집트 혁명)를 일으켰다. 영국은 이집트 지배의 유화책으로서 1922년 2월 28일에 공식적으로 이집트의 독립을 승인하였다. 그러나 이것은 순탄한 지배를 위한 것이었으며, 영국군은 그대로 이집트에 주둔한 상태였다. 게다가 대부분의 군사, 외교, 정치 영역에 있어서는 보호령 수준의 간섭을 하였으며, 이러한 간섭은 공식적인 것이었다. 제2차 세계 대전 이후 영국은 이집트의 군사와 정치에 직접적으로 개입하는 것을 중단하였으나, 여전히 사회는 영국의 영향력이 강하게 자리 잡고 있었다. 또한 실질적으로 당시 이집트는 모든 면에서 영국에 의존된 상태였으며, 기업과 토지도 또한 영국인 지주와 주주의 손아귀에 있었다. 제2차 세계 대전 시기는 이집트 민족주의자의 영향력이 급증하던 때였다. 1940년대 후반부터 이집트 반제국주의자에 의한 소규모 봉기가 산발적으로 일어났다. 1948년 제1차 중동 전쟁에서 팔레스타인 지원에 대한 이집트 왕정의 소극적인 태도는 이집트 민족주의자의 감정을 크게 격분하게 만들었다. 또한 이집트 왕정은 이집트 사회에서 나타나고 있는 극심한 실업과 빈부격차, 빈곤을 해결할 의지를 보여주지 않았다. 이후 운동은 단순히 이집트 애국주의를 넘어서, “군주정 타도, 공화국 수립”이라는 구호가 등장하게 되었다. 1949년 이집트군 내 좌익 장교를 주축으로 민족운동가, 일선 민간 관료들이 연합하여 비밀리에 ‘자유장교단’이 조직되었다. 자유장교단 성립에서 가말 압델 나세르는 가장 열성적인 활동을 했고, 중요한 일을 맡았으나 형식적인 지도자로는 군대에서 상대적으로 더 강력한 영향력을 행사할 수 있는 무하마드 나기브를 임명하였다. 자유장교단의 활동으로 인해 이집트군의 반영 의식은 날이 갈수록 강해졌다. 특히 대(對)이스라엘 강경파인 군 장성 하이다르 파샤(Haidar Pasha)와 하리드 파샤(Harid Pasha)는 이집트 왕정에 의해 반란 혐의로 체포를 당했으나, 대중의 반발로 풀려나게 되었다. 여러 사건이 겹쳐질수록 이집트 대중의 반제국주의 의식은 성장하게 되었다.
`목포해경이 세월호의 구조신호를 받은 날은?`	‘세월호’ 침몰 사고를 일으킨 청해진해운이 사고 발생 직후 곧바로 인양선(크레인)을 호출하지 않아 인명 구조에 도움을 줄 수 있는 크레인 출발이 최장 12시간가량 지연된 것으로 드러났다. 해사안전법에 따르면 사고를 낸 선사는 침수 위험이 있을 때 곧바로 크레인을 사고 현장에 부를 수 있도록 연락을 취해야 하지만 청해진해운은 이 같은 최소한의 안전규정조차 지키지 않았다.17일 해양경찰청에 따르면 세월호가 “침수가 시작됐다”며 목포 해경에 구조를 요청한 시간은 지난 16일 오전 8시58분쯤이다. 하지만 청해진해운은 곧바로 크레인을 호출하지 않았다. 해양수산부는 뒤늦게 이런 사실을 파악하고 황급히 구난업체와 계약해 경남 거제 등에 있던 삼성중공업, 대우조선해양, 해양환경관리공단의 해상 크레인 세 척을 사고 현장에 급파했다.하지만 최초 호출이 늦어지면서 이들 업체와 기관이 사고 현장으로 크레인을 출발시킨 시간은 최초 사고 보고 시점으로부터 적게는 9시간, 길게는 12시간이 흐른 뒤였다. 이에 따라 대우조선해양 크레인은 18일 오전 1시쯤에야 겨우 사고 지점에 도착했다. 해양환경관리공단과 삼성중공업 크레인은 이보다 늦은 같은 날 오전 7시와 오후 2시에야 현장에 도착한다.실종자 가족들은 인명 구조를 위해 정부가 선체 일부라도 시급히 수면 위로 끌어올리기를 기대하고 있지만 크레인 도착이 늦어지면서 발만 동동 구르고 있다. 현재 사고 현장에선 ‘언딘’이라는 수중작업 전문업체가 크레인이 도착하면 선체를 끌어 올릴 수 있도록 미리 쇠줄을 잇는 작업을 할 예정이다.해수부는 크레인 세 척이 도착하는 대로 인양 작업에 나서는 방안을 검토 중이다. 침몰한 선박 전체를 수면 위로 완전히 끌어올리지는 못해도 선체 일부를 수면 위로 끌어올리는 것은 가능할 것으로 보고 있다.한편 청해진해운의 김한식 대표는 이날 밤 9시께 기자회견을 열고 “이번에 희생된 분들과 유가족에게 진심으로 사죄한다”고 말했다.

Loss: MultipleNegativesRankingLoss with these parameters:

{
    "scale": 20.0,
    "similarity_fct": "cos_sim"
}

Training Hyperparameters

Non-Default Hyperparameters

per_device_train_batch_size: 16
per_device_eval_batch_size: 16
num_train_epochs: 1
batch_sampler: no_duplicates
multi_dataset_batch_sampler: round_robin

All Hyperparameters

Click to expand

overwrite_output_dir: False
do_predict: False
eval_strategy: no
prediction_loss_only: True
per_device_train_batch_size: 16
per_device_eval_batch_size: 16
per_gpu_train_batch_size: None
per_gpu_eval_batch_size: None
gradient_accumulation_steps: 1
eval_accumulation_steps: None
torch_empty_cache_steps: None
learning_rate: 5e-05
weight_decay: 0.0
adam_beta1: 0.9
adam_beta2: 0.999
adam_epsilon: 1e-08
max_grad_norm: 1
num_train_epochs: 1
max_steps: -1
lr_scheduler_type: linear
lr_scheduler_kwargs: {}
warmup_ratio: 0.0
warmup_steps: 0
log_level: passive
log_level_replica: warning
log_on_each_node: True
logging_nan_inf_filter: True
save_safetensors: True
save_on_each_node: False
save_only_model: False
restore_callback_states_from_checkpoint: False
no_cuda: False
use_cpu: False
use_mps_device: False
seed: 42
data_seed: None
jit_mode_eval: False
use_ipex: False
bf16: False
fp16: False
fp16_opt_level: O1
half_precision_backend: auto
bf16_full_eval: False
fp16_full_eval: False
tf32: None
local_rank: 0
ddp_backend: None
tpu_num_cores: None
tpu_metrics_debug: False
debug: []
dataloader_drop_last: False
dataloader_num_workers: 0
dataloader_prefetch_factor: None
past_index: -1
disable_tqdm: False
remove_unused_columns: True
label_names: None
load_best_model_at_end: False
ignore_data_skip: False
fsdp: []
fsdp_min_num_params: 0
fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
fsdp_transformer_layer_cls_to_wrap: None
accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
deepspeed: None
label_smoothing_factor: 0.0
optim: adamw_torch
optim_args: None
adafactor: False
group_by_length: False
length_column_name: length
ddp_find_unused_parameters: None
ddp_bucket_cap_mb: None
ddp_broadcast_buffers: False
dataloader_pin_memory: True
dataloader_persistent_workers: False
skip_memory_metrics: True
use_legacy_prediction_loop: False
push_to_hub: False
resume_from_checkpoint: None
hub_model_id: None
hub_strategy: every_save
hub_private_repo: False
hub_always_push: False
gradient_checkpointing: False
gradient_checkpointing_kwargs: None
include_inputs_for_metrics: False
eval_do_concat_batches: True
fp16_backend: auto
push_to_hub_model_id: None
push_to_hub_organization: None
mp_parameters:
auto_find_batch_size: False
full_determinism: False
torchdynamo: None
ray_scope: last
ddp_timeout: 1800
torch_compile: False
torch_compile_backend: None
torch_compile_mode: None
dispatch_batches: None
split_batches: None
include_tokens_per_second: False
include_num_input_tokens_seen: False
neftune_noise_alpha: None
optim_target_modules: None
batch_eval_metrics: False
eval_on_start: False
use_liger_kernel: False
eval_use_gather_object: False
batch_sampler: no_duplicates
multi_dataset_batch_sampler: round_robin

Training Logs

Epoch	Step	Training Loss
0.3420	500	0.1984
0.6840	1000	0.108

Framework Versions

Python: 3.10.12
Sentence Transformers: 3.1.1
Transformers: 4.45.2
PyTorch: 2.5.1+cu121
Accelerate: 1.1.1
Datasets: 3.1.0
Tokenizers: 0.20.3

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

GyuBack
/

multilingual-e5-large-instruct-FT_klue_mrc_full16b