SentenceTransformer based on intfloat/multilingual-e5-large-instruct

This is a sentence-transformers model finetuned from intfloat/multilingual-e5-large-instruct. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: intfloat/multilingual-e5-large-instruct
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 1024 tokens
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
    '국방부 장관이 제시한 전작권 반환시기는 몇 년도인가?',
    '한국이 미국에 2015년으로 예정된 전시작전통제권 전환 시기를 다시 연기하자고 제안한 것으로 알려졌다.미국 국방부 고위 당국자는 17일 김관진 국방부 장관이 척 헤이글 국방장관에게 최근 전작권 전환의 재연기를 제안해 양국 정부가 이 문제를 협의하고 있다고 연합뉴스에 밝혔다. 이에 대해 한국 국방부 관계자는 “2013년 전반기에 심각해진 북한 핵 문제 등 안보 상황을 중요한 조건으로 고려하면서 전작권 전환 준비를 점검해 나가자고 미국 측에 제의해 한·미 간 논의 중에 있다”고 말했다. 그는 이어 “전작권 전환은 향후 한·미 안보협의회(SCM), 군사위원회의(MCM) 등을 통해 지속적으로 협의해 나갈 것”이라고 말했다.전작권 재연기론의 배경에는 북한이 지난해 말부터 핵실험을 강행하는 등 대남 전쟁위협 수위를 급격하게 높인 것을 꼽을 수 있다. 북한은 지난 2월 3차 핵실험 이후 정전협정을 백지화하겠다고 위협한 데 이어 ‘1호 전투근무태세’ 명령을 내리는 등 위협 강도를 끌어올렸다.정부가 전작권 전환 재연기를 제의한 시기가 지난 3월이며 김 장관이 샹그릴라 대화에서 헤이글 국방장관에게 전환 시기의 연기를 제의했다는 관측이 제기되기도 했다. 정부의 한 고위 관계자는 “올해 초 북한의 위협이 계속되는 등 남북관계 상황을 고려하지 않을 수 없었다”고 말해 전작권 전환시기의 재연기를 제의했음을 시사했다. 한·미 양국은 2006년 전작권을 2013년 전환하기로 합의한 뒤 2010년에 전환 시기를 2015년으로 연기했다.',
    "1982년 숭의여자고등학교를 졸업하고 창단팀 신용보증기금 농구단에 입단하였다. 숭의여고 시절 '초고교급 가드'로 일찌감치 인정받아 명문팀과의 계약이 유력시 되었지만 '여자 농구의 대모' 박신자를 감독으로 추대하고 고교 유망주들을 적극적으로 영입하는 등 다음 해 시작될 농구대잔치를 위해 적극적인 스카웃 노력을 기울인 신용보증기금과 결국 계약이 이루어졌다. 1982년 10월 필리핀 마닐라에서 열린 아시아 청소년 여자 농구 선수권 대회를 위한 청소년 대표팀에 선발되어 주전 가드로서 활약하였으나 대한민국팀은 중국에 밀려 은메달에 그쳤다. \n\n1984년 5월 쿠바 아바나에서 열린 프레올림픽에 처음 국가대표로 선발되었으며 1984년 LA 올림픽에서는 백업 가드로서 미국과의 결승전 등 세 경기에 교체 출장하며 은메달을 거머쥐었다. 그해 10월에는 중국 상하이에서 열린 아시아 여자 농구 선수권 대회에도 참가, 인도 전에서 최애영을 대신하여 베스트 5로 선발 출장 하는 등 백업 가드로 활약하며 대한민국팀의 대회 4연패에 일조하였다.\n\n1986년에도 국가대표팀에 선발되어 세계 여자 농구 선수권 대회와 아시안게임에 출전하지만 '만년하위팀' 의 오명을 극복하지 못한 소속팀의 부진으로 인해 대중들의 조명을 크게 받지는 못하였다. 1987-88 시즌 농구대잔치에서 국가대표 구정희와 함께 황금 가드 콤비를 이루며 잠시 돌풍을 일으키기도 했지 신생팀의 핸디캡과 포스트진의 부재로 우승권에 근접하지 못하고 1988-89 시즌을 끝으로 은퇴를 선언하였다.",
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Dataset

Unnamed Dataset

  • Size: 17,552 training samples
  • Columns: sentence_0 and sentence_1
  • Approximate statistics based on the first 1000 samples:
    sentence_0 sentence_1
    type string string
    details
    • min: 9 tokens
    • mean: 18.99 tokens
    • max: 39 tokens
    • min: 256 tokens
    • mean: 455.66 tokens
    • max: 512 tokens
  • Samples:
    sentence_0 sentence_1
    무대의 공감각적 이미지를 살리기 위해 사용한 관악기는? 무대는 끊임없이 관객의 상상력을 자극한다. 비스듬히 경사진 사각 나무판 무대에서 배우들이 맨발로 움직인다. 새의 몸짓으로 역동적인 삼각 군무를 펼치다 원을 그리며 빙글빙글 뛰어다니기도 한다. 새의 영역이던 무대는 점점 기울어져 거대한 성벽이 됐다가 다시 완만해져 위대한 새의 나라 ‘조국(鳥國)’의 안마당으로 변한다. 국립극단이 기획한 ‘아리스토파네스 희극 3부작’ 시리즈의 마지막 무대로 서울 서계동 백성희장민호극장에서 공연 중인 연극 ‘새’(윤조병 극본, 윤시중 연출)는 단출하고 현대적인 무대·언어 미학으로 고전 희극을 풀어낸다. 시리즈 전작인 ‘개구리’ ‘구름’과는 사뭇 다르다. 원작이 쓰여진 2500여년 전 그리스 아테네 상황과 ‘오늘의 한국’을 애써 꿰맞추려 하지 않는다. 공연은 원작의 뼈대와 구성은 그대로 살리되 내용은 과감히 줄이면서 조금씩 윤색해 인물과 결말을 살짝 비틀었다. 인물들의 대사는 간결하고 쉽다. 어렵거나 추상적 표현은 전혀 없이 일상에서 살아 숨 쉬는 언어들을 툭툭 리듬에 맞춰 던진다. 원작이나 전작들처럼 장황하게 늘어놓거나 묘사하지 않는다. 극이 주로 ‘새의 나라’에서 벌어지는 만큼 날개 단 인간들이 ‘새대가리’라고 놀리는 새의 수준에 맞춘 것 같다. 그래서 더 웃기고 재미있고, 뭔가 상상하게 만든다.빚을 지고 현실세계에서 도망친 ‘교활 덩어리’ 피스가 자리와 상황 변화에 따라 시시각각으로 변하는 모습을 지켜보는 재미가 쏠쏠하다. 원작에선 남성인 피스가 여성으로 나오는 것도 흥미롭다. 여생을 편안하게 보낼 수 있는 곳을 찾던 피스는 인간과 신들의 세계를 좌지우지할 수 있는 ‘조국’을 구상하고 건설하는 지도자가 되고, 다시 왕에 오르면서 탐욕과 권력욕에 물든다. ‘새의 나라’에 만족하지 못하고 신의 세계까지 올라가 천상을 지배하려던 피스는 신이 된 듯한 착각에 빠져 그만 날개를 스스로 떼어버리고 추락한다. 원작의 해피엔딩과는 달리 극은 유토피아에 대한 인간의 헛된 꿈과 끝을 모르는 욕심의 종착점을 직설적으로 제시한다. 새의 특성을 분장과 의상, 몸짓으로 보여주는 배우들이 나무판 무대를 타거나 넘거나 뚫거나 휘돌며 극을 만든다. 플루트와 타악기가 어우러져 빚어내는 신비롭고 매력적인 음악이 무대에 입혀져 공감각적 이미지를 만들어낸다. 흥겹고 즐거운 놀이와 환상의 연극성이 충만한 무대다. 공연은 내달 3일까지. 1만~3만원.
    올해 창립 25주년을 맞는 공공연구소는? 삼성그룹 계열 연구기관인 삼성경제연구소(SERI)가 올해로 창립 25주년을 맞는다. 1991년 그룹 내부 연구소로 출발해 연 매출 1600억원 이상을 올리는 국내 최대 민간연구소가 됐다. 한때 ‘세리CEO’, ‘세리 인포메이션’ 등 유료 콘텐츠를 통해 민간연구소 업계에 ‘지식으로 돈 버는 모델’을 제시했던 이 연구소는 최근 컨설팅 회사로 빠르게 변신 중이다. 최근 5년 새 연구인력을 50명 늘렸고 삼성SDS, 삼성중공업 등 계열사 사업 재편의 방향도 이곳에서 조언한다. 맥킨지 등 외부 컨설팅업체에서 조언을 받던 삼성 계열사들은 사업 재편 등 핵심 사안에 대한 컨설팅 용역을 삼성경제연구소에 맡기는 추세다.○‘지식기업’ 꿈꿨던 SERI삼성경제연구소(사장 정기영·사진)는 1986년 삼성생명 부속 조직으로 출발해 1991년 그룹 연구조직으로 확대 개편됐다. 삼성전자 등 그룹 내 주요 계열사 대상 연구용역과 임직원 재교육을 주로 담당해왔다. ‘돈 버는 일’보다 ‘경영 자문’이 이 연구소의 주된 역할이었다. 그러던 1998년, 삼성경제연구소는 변신에 나섰다. 삼성그룹 고위 임원에게 제공하던 내부 콘텐츠인 세리CEO를 외부에 개방하기 시작했다. 세리CEO는 최신 경영 트렌드, 경제동향, 산업·기술 변화, 인문학, 매니지먼트, 리더십, 철학, 문학, 스포츠 등을 동영상 등 멀티미디어 콘텐츠로 제공하는 ‘통섭형’ 지식상품이다. 제공 콘텐츠는 1만2000여건이다. 삼성경제연구소는 세리CEO 콘텐츠 제공 대가로 100만원이 넘는 연회비를 받았다. ‘지식으로 돈을 버는’ 수익형 연구소로 탈바꿈한 것. 비싼 회비에도 세리CEO의 인기는 뜨거웠다. 외부 개방 첫해부터 기업, 교수, 관료 등 오피니언리더들의 가입이 줄을 이었다. 120만~150만원을 내는 개인·단체 유료회원은 1만3300여명(2014년 기준). 여기에 국방부와 일선 학교 등 콘텐츠를 일괄 제공받는 준회원을 합하면 30만여명에 달한다.실적도 좋았다. 세리CEO의 매출과 영업이익은 2011년 각각 206억원과 93억원, 2012년 각각 190억원과 87억원을 기록했다. 세리CEO 인기 덕분에 삼성경제연구소 매출(연구용역+인력교육)도 급증했다. 2001년 382억원이던 매출은 2013년 1660억원으로 4배가량 늘었다. 2013년 매출은 경쟁사인 LG경제연구원의 2.2배, 현대경제연구원의 6.7배에 달한다.○계열사 경영자문…삼성의 ‘컨설팅 펌’세리CEO를 내세워 잘나가던 삼성경제연구소는 2013년 또 한 번 변신을 시도했다. 2012년 자회사로 떼어낸 세리CEO를 이듬해 11월 그룹 계열사인 크레듀에 전격 매각했다. 비슷한 시기 삼성경제연구소는 매년 하반기 외부에 공개해왔던 성장률·환율·유가 동향 등을 담은 ‘경제 전망’ 발표도 중단했다. 그룹 관계자는 “지식콘텐츠 사업은 크레듀로 일원화하고 삼성경제연구소는 컨설팅 전문조직으로 바꾸기 위한 시도”라고 설명했다.외부 콘텐츠 제공사업을 전면 중단한 삼성경제연구소는 내부 컨설팅 전문조직으로 탈바꿈했다. 우선 2009년 100여명이던 연구인력을 작년 말 150여명으로 늘렸다. LG경제연구원(103명), 현대경제연구원(50명)과 비교하면 월등히 많은 인력 규모다. 다음달 건설·엔지니어링, 광고·호텔·식음료 등 서비스 부문 연구인력 10여명을 추가 채용하는 등 연구조직을 계속 확충한다는 계획이다.계열사 컨설팅 업무 비중도 크게 늘었다. 2013년 그룹 계열사에 대한 경영자문으로 올린 매출은 778억원으로 전년(2012년) 대비 100억원 가까이 늘었다. 경영자문과 함께 인력 재교육을 해주고서 올린 매출(2013년 기준)도 삼성전자 811억원, 삼성디스플레이 117억원, 삼성물산 81억원 등에 달한다. 재계 관계자는 “삼성그룹이 2013년부터 추진한 계열사 구조조정의 상당수가 삼성경제연구소 컨설팅을 받아 진행된 것들”이라며 “(삼성경제연구소가) ‘미래 삼성’의 방향성을 제시할 두뇌 조직으로 변신하고 있다”고 설명했다.
    동부와의 인수합병을 찬성하는 사람은? “그동안 380억원을 투자해서 못해도 400억원 이상은 받아야 한다.”(동부그룹)“앞으로 들어갈 돈이 최소한 80억원이어서 290억원 이상은 안된다.”(화성그린팜)동부그룹이 경기 화성에 지은 토마토용 유리온실 매각 작업이 표류하고 있다. 당초 지난달 말까지 본계약을 맺기로 했지만 사는 쪽과 파는 쪽의 눈높이가 달라 이견이 좁혀지지 않고 있다.양측의 의견 차이가 가장 큰 부문은 가격. 유리온실을 매각하려는 동부그룹은 400억원 이상은 받아야 한다고 주장한다. 2010년 7월부터 작년 말까지 화성에 아시아 최대 규모(15만㎡)의 유리온실을 완공하는 데 380억원이 들었기 때문이다. 반면 유리온실을 인수하려는 화성그린팜은 290억원 이상 줄 수 없다고 맞서고 있다. 유리온실 인수 후 시설을 보수하고 토마토 경작을 정상화하는 데 80억원가량이 더 들 것으로 보고 있어서다. 화성그린팜은 화성지역 12개 농협과 5개 화성시 농민단체, 1개 영농법인 등으로 구성돼 있다.화성그린팜은 또 동부가 보유한 유리온실 지분(68.4%) 외에 나머지 지분도 모두 넘길 것을 인수 조건으로 내세우고 있다. 남기철 화성그린팜 회장은 “동부 외에 누가 주주인지도 모르는데 어떻게 같이 사업을 할 수 있느냐”며 “동부가 2대 주주로 들어오든지 아니면 지분 100%를 다 넘겨야 한다”고 말했다. 동부가 유리온실 예비협상대상자를 선정하지 않은 것도 매각 작업이 늦어지는 요인으로 지적되고 있다. 동부는 작년 말 유리온실을 완공한 뒤 이곳에서 수확한 토마토를 전량 수출하겠다고 했지만 농민들의 불매운동에 부딪혀 지난 3월 사업을 포기하고 유리온실을 매각하기로 했다. 지난 6월 화성그린팜과 양해각서(MOU)를 맺고 당초 9월 말까지 협상을 끝내기로 했다가 10월 말로 한 차례 연장했다.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • num_train_epochs: 1
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: round_robin

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: no
  • prediction_loss_only: True
  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1
  • num_train_epochs: 1
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.0
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: round_robin

Training Logs

Epoch Step Training Loss
0.4558 500 0.1965
0.9116 1000 0.0956

Framework Versions

  • Python: 3.10.12
  • Sentence Transformers: 3.1.1
  • Transformers: 4.45.2
  • PyTorch: 2.5.1+cu121
  • Accelerate: 1.1.1
  • Datasets: 3.1.0
  • Tokenizers: 0.20.3

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
26
Safetensors
Model size
560M params
Tensor type
F32
·
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Model tree for GyuBack/multilingual-e5-large-instruct-FT_klue_mrc_train

Finetuned
(35)
this model