SentenceTransformer based on intfloat/multilingual-e5-small
This is a sentence-transformers model finetuned from intfloat/multilingual-e5-small. It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: intfloat/multilingual-e5-small
- Maximum Sequence Length: 512 tokens
- Output Dimensionality: 384 dimensions
- Similarity Function: Cosine Similarity
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
(1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("vkimbris/e5-small-federallaws")
# Run inference
sentences = [
'Как систематизировать и отслеживать исполнение обязательств России в рамках стратегического партнерства с Монголией согласно ратифицированному договору?',
' \nРОССИЙСКАЯ ФЕДЕРАЦИЯ\n \nФЕДЕРАЛЬНЫЙ ЗАКОН\n \nО ратификации Договора о дружественных отношениях и всеобъемлющем стратегическом партнерстве между Российской Федерацией и Монголией\n \nПринят Государственной Думой 23 июня 2020 года\nОдобрен Советом Федерации 8 июля 2020 года\n \nРатифицировать <ref nd="102913749"> Договор </ref> о дружественных отношениях и всеобъемлющем стратегическом партнерстве между Российской Федерацией и Монголией, подписанный в городе Улан-Баторе 3 сентября 2019 года.\n \nПрезидент Российской Федерации В.Путин\n \nМосква, Кремль\n13 июля 2020 года\n№ 198-ФЗ\n ',
' \nРОССИЙСКАЯ ФЕДЕРАЦИЯ\n \nФЕДЕРАЛЬНЫЙ ЗАКОН\n \nО ратификации Договора между Российской Федерацией и Монголией о правовой помощи и правовых отношениях по гражданским и уголовным делам и Протокола к Договору между Российской Федерацией и Монголией о правовой помощи и правовых отношениях по гражданским и уголовным делам от 20 апреля 1999 г.\n \nПринят Государственной Думой 3 октября 2007 года\nОдобрен Советом Федерации 17 октября 2007 года\n \nРатифицировать Договор между Российской Федерацией и Монголией о правовой помощи и правовых отношениях по гражданским и уголовным делам, подписанный в городе Улан-Баторе 20 апреля 1999 года, и Протокол к Договору между Российской Федерацией и Монголией о правовой помощи и правовых отношениях по гражданским и уголовным делам от 20 апреля 1999 г., подписанный в городе Улан-Баторе 12 сентября 2002 года.\n \nПрезидент Российской Федерации В.Путин\n \nМосква, Кремль\n30 октября 2007 года\n№ 236-ФЗ\n ',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 384]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Training Details
Training Dataset
Unnamed Dataset
- Size: 1,334 training samples
- Columns:
anchor
,positive
, andnegative
- Approximate statistics based on the first 1000 samples:
anchor positive negative type string string string details - min: 2 tokens
- mean: 35.86 tokens
- max: 62 tokens
- min: 92 tokens
- mean: 169.55 tokens
- max: 298 tokens
- min: 100 tokens
- mean: 184.84 tokens
- max: 279 tokens
- Samples:
anchor positive negative Какие бизнес-процессы в информационных системах социального обеспечения необходимо адаптировать в связи с ратификацией договора о сотрудничестве между РФ и Республикой Беларусь?
РОССИЙСКАЯ ФЕДЕРАЦИЯ
ФЕДЕРАЛЬНЫЙ ЗАКОН
О ратификации Договора между Российской Федерацией и Республикой Беларусь о сотрудничестве в области социального обеспечения
Принят Государственной Думой 10 ноября 2006 года
Одобрен Советом Федерации 24 ноября 2006 года
Ратифицировать Договор между Российской Федерацией и Республикой Беларусь о сотрудничестве в области социального обеспечения, подписанный в городе Санкт-Петербурге 24 января 2006 года.
Президент Российской Федерации В.Путин
Москва, Кремль
7 декабря 2006 года
№ 227-ФЗ
РОССИЙСКАЯ ФЕДЕРАЦИЯ
ФЕДЕРАЛЬНЫЙ ЗАКОН
О ратификации Соглашения между Российской Федерацией и Республикой Беларусь о взаимодействии в области
радиоэлектронной борьбы
Принят Государственной Думой 20 мая 2011 года
Одобрен Советом Федерации 25 мая 2011 года
Ратифицировать Соглашение между Российской Федерацией и Республикой Беларусь о взаимодействии в области радиоэлектронной борьбы, подписанное в городе Москве 10 декабря 2009 года.
Президент Российской Федерации Д.Медведев
Москва, Кремль
3 июня 2011 года
№ 112-ФЗ
Какие системы или базы данных необходимо обновить для отражения новых консульских процедур после ратификации Конвенции между РФ и Бангладеш?
РОССИЙСКАЯ ФЕДЕРАЦИЯ
ФЕДЕРАЛЬНЫЙ ЗАКОН
О ратификации Консульской конвенции между Российской Федерацией и Народной Республикой Бангладеш
Принят Государственной Думой 17 октября 2008 года
Одобрен Советом Федерации 27 октября 2008 года
Ратифицировать Консульскую конвенцию между Российской Федерацией и Народной Республикой Бангладеш, подписанную в городе Москве 3 сентября 2007 года.
Президент Российской Федерации Д.Медведев
Москва, Кремль
8 ноября 2008 года
№ 198-ФЗ
РОССИЙСКАЯ ФЕДЕРАЦИЯ
ФЕДЕРАЛЬНЫЙ ЗАКОН
О ратификации Соглашения между Правительством Российской Федерации и Правительством Республики Индии о мерах по охране технологий в связи с сотрудничеством в области исследования и использования космического пространства в мирных целях и в создании и эксплуатации средств выведения и наземной космической инфраструктуры
Принят Государственной Думой 8 декабря 2022 года
Одобрен Советом Федерации 14 декабря 2022 года
Ратифицировать Соглашение между Правительством Российской Федерации и Правительством Республики Индии о мерах по охране технологий в связи с сотрудничеством в области исследования и использования космического пространства в мирных целях и в создании и эксплуатации средств выведения и наземной космической инфраструктуры, подписанное в городе Москве и городе Бангалоре 1 декабря 2021 года.
Президент Российской Федерации В.Путин
Москва, Кремль
19 декабря 2022 года
№ 526-ФЗ
Какие технические требования необходимо учесть при разработке системы для обеспечения контроля уплаты различных видов таможенных пошлин при транзитных перевозках товаров?
РОССИЙСКАЯ ФЕДЕРАЦИЯ
ФЕДЕРАЛЬНЫЙ ЗАКОН
О ратификации Соглашения об особенностях применения обеспечения исполнения обязанности по уплате таможенных пошлин, налогов, специальных, антидемпинговых, компенсационных пошлин при перевозке (транспортировке) товаров в соответствии с таможенной процедурой таможенного транзита
Принят Государственной Думой 18 октября 2022 года
Одобрен Советом Федерации 19 октября 2022 года
Ратифицировать Соглашение об особенностях применения обеспечения исполнения обязанности по уплате таможенных пошлин, налогов, специальных, антидемпинговых, компенсационных пошлин при перевозке (транспортировке) товаров в соответствии с таможенной процедурой таможенного транзита, подписанное в городе Москве 19 апреля 2022 года.
Президент Российской Федерации В.Путин
Москва, Кремль
20 октября 2022 года
№ 400-ФЗ
РОССИЙСКАЯ ФЕДЕРАЦИЯ
ФЕДЕРАЛЬНЫЙ ЗАКОН
О ратификации Соглашения об основаниях, условиях и порядке изменения сроков уплаты таможенных пошлин
Принят Государственной Думой 24 сентября 2010 года
Одобрен Советом Федерации 29 сентября 2010 года
Ратифицировать Соглашение об основаниях, условиях и порядке изменения сроков уплаты таможенных пошлин, подписанное в городе Санкт-Петербурге 21 мая 2010 года.
Президент Российской Федерации Д.Медведев
Москва, Кремль
4 октября 2010 года
№ 268-ФЗ
- Loss:
MultipleNegativesRankingLoss
with these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim" }
Evaluation Dataset
Unnamed Dataset
- Size: 149 evaluation samples
- Columns:
anchor
,positive
, andnegative
- Approximate statistics based on the first 149 samples:
anchor positive negative type string string string details - min: 24 tokens
- mean: 36.17 tokens
- max: 58 tokens
- min: 92 tokens
- mean: 167.07 tokens
- max: 276 tokens
- min: 102 tokens
- mean: 186.04 tokens
- max: 258 tokens
- Samples:
anchor positive negative Какие информационные системы необходимо обновить в связи с ратификацией Соглашения о миротворческой деятельности ОДКБ?
РОССИЙСКАЯ ФЕДЕРАЦИЯ
ФЕДЕРАЛЬНЫЙ ЗАКОН
О ратификации Соглашения о миротворческой деятельности Организации Договора о коллективной безопасности
Принят Государственной Думой 26 декабря 2008 года
Одобрен Советом Федерации 29 декабря 2008 года
Ратифицировать Соглашение о миротворческой деятельности Организации Договора о коллективной безопасности, подписанное в городе Душанбе 6 октября 2007 года.
Президент Российской Федерации Д.Медведев
Москва, Кремль
30 декабря 2008 года
№ 299-ФЗ
РОССИЙСКАЯ ФЕДЕРАЦИЯ
ФЕДЕРАЛЬНЫЙ ЗАКОН
О ратификации Протокола о внесении изменений в Соглашение о миротворческой деятельности Организации Договора о коллективной безопасности от 6 октября 2007 года
Принят Государственной Думой 5 апреля 2022 года
Одобрен Советом Федерации 13 апреля 2022 года
Ратифицировать Протокол о внесении изменений в Соглашение о миротворческой деятельности Организации Договора о коллективной безопасности от 6 октября 2007 года, подписанный в городе Душанбе 16 сентября 2021 года.
Президент Российской Федерации В.Путин
Москва, Кремль
16 апреля 2022 года
№ 94-ФЗ
Какие информационные системы должны быть адаптированы или разработаны для обеспечения соответствия требованиям Конвенции о безопасности обращения с радиоактивными отходами?
РОССИЙСКАЯ ФЕДЕРАЦИЯ
ФЕДЕРАЛЬНЫЙ ЗАКОН
О ратификации Объединенной конвенции о безопасности обращения с отработавшим топливом и о безопасности обращения с радиоактивными отходами
Принят Государственной Думой 21 октября 2005 года
Одобрен Советом Федерации 26 октября 2005 года
Ратифицировать Объединенную конвенцию о безопасности обращения с отработавшим топливом и о безопасности обращения с радиоактивными отходами, подписанную от имени Российской Федерации в городе Вене 27 января 1999 года.
Президент Российской Федерации В.Путин
Москва, Кремль
4 ноября 2005 года
№ 139-ФЗ
РОССИЙСКАЯ ФЕДЕРАЦИЯ
ФЕДЕРАЛЬНЫЙ ЗАКОН
О ратификации Соглашения о порядке оперативного развертывания, применения и всестороннего обеспечения Коллективных сил быстрого развертывания Центральноазиатского региона коллективной безопасности
Принят Государственной Думой 20 марта 2009 года
Одобрен Советом Федерации 25 марта 2009 года
Ратифицировать Соглашение о порядке оперативного развертывания, применения и всестороннего обеспечения Коллективных сил быстрого развертывания Центральноазиатского региона коллективной безопасности, подписанное в городе Минске 23 июня 2006 года.
Президент Российской Федерации Д.Медведев
Москва, Кремль
5 апреля 2009 года
№ 49-ФЗ
Как я могу интегрировать в информационную систему требования по обмену данными между таможенными органами государств-членов в соответствии с ратифицированным Соглашением о взаимной административной помощи?
РОССИЙСКАЯ ФЕДЕРАЦИЯ
ФЕДЕРАЛЬНЫЙ ЗАКОН
О ратификации Соглашения о взаимной административной помощи таможенных органов государств - членов таможенного союза
Принят Государственной Думой 9 июля 2010 года
Одобрен Советом Федерации 14 июля 2010 года
Ратифицировать Соглашение о взаимной административной помощи таможенных органов государств - членов таможенного союза, подписанное в городе Санкт-Петербурге 21 мая 2010 года.
Президент Российской Федерации Д.Медведев
Москва, Кремль
27 июля 2010 года
№ 202-ФЗ
РОССИЙСКАЯ ФЕДЕРАЦИЯ
ФЕДЕРАЛЬНЫЙ ЗАКОН
О присоединении Российской Федерации к Международной конвенции об упрощении и гармонизации таможенных процедур от 18 мая 1973 года в редакции Протокола о внесении изменений в Международную конвенцию об упрощении и гармонизации таможенных процедур от 26 июня 1999 года
Принят Государственной Думой 20 октября 2010 года
Одобрен Советом Федерации 27 октября 2010 года
Присоединиться от имени Российской Федерации к Международной конвенции об упрощении и гармонизации таможенных процедур от 18 мая 1973 года в редакции Протокола о внесении изменений в Международную конвенцию об упрощении и гармонизации таможенных процедур от 26 июня 1999 года.
Президент Российской Федерации Д.Медведев
Москва, Кремль
3 ноября 2010 года
№ 279-ФЗ
- Loss:
MultipleNegativesRankingLoss
with these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim" }
Training Hyperparameters
Non-Default Hyperparameters
overwrite_output_dir
: Trueeval_strategy
: epochper_device_train_batch_size
: 256learning_rate
: 0.0002warmup_steps
: 20seed
: 21load_best_model_at_end
: True
All Hyperparameters
Click to expand
overwrite_output_dir
: Truedo_predict
: Falseeval_strategy
: epochprediction_loss_only
: Trueper_device_train_batch_size
: 256per_device_eval_batch_size
: 8per_gpu_train_batch_size
: Noneper_gpu_eval_batch_size
: Nonegradient_accumulation_steps
: 1eval_accumulation_steps
: Nonetorch_empty_cache_steps
: Nonelearning_rate
: 0.0002weight_decay
: 0.0adam_beta1
: 0.9adam_beta2
: 0.999adam_epsilon
: 1e-08max_grad_norm
: 1.0num_train_epochs
: 3max_steps
: -1lr_scheduler_type
: linearlr_scheduler_kwargs
: {}warmup_ratio
: 0.0warmup_steps
: 20log_level
: passivelog_level_replica
: warninglog_on_each_node
: Truelogging_nan_inf_filter
: Truesave_safetensors
: Truesave_on_each_node
: Falsesave_only_model
: Falserestore_callback_states_from_checkpoint
: Falseno_cuda
: Falseuse_cpu
: Falseuse_mps_device
: Falseseed
: 21data_seed
: Nonejit_mode_eval
: Falseuse_ipex
: Falsebf16
: Falsefp16
: Falsefp16_opt_level
: O1half_precision_backend
: autobf16_full_eval
: Falsefp16_full_eval
: Falsetf32
: Nonelocal_rank
: 0ddp_backend
: Nonetpu_num_cores
: Nonetpu_metrics_debug
: Falsedebug
: []dataloader_drop_last
: Falsedataloader_num_workers
: 0dataloader_prefetch_factor
: Nonepast_index
: -1disable_tqdm
: Falseremove_unused_columns
: Truelabel_names
: Noneload_best_model_at_end
: Trueignore_data_skip
: Falsefsdp
: []fsdp_min_num_params
: 0fsdp_config
: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap
: Noneaccelerator_config
: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed
: Nonelabel_smoothing_factor
: 0.0optim
: adamw_torchoptim_args
: Noneadafactor
: Falsegroup_by_length
: Falselength_column_name
: lengthddp_find_unused_parameters
: Noneddp_bucket_cap_mb
: Noneddp_broadcast_buffers
: Falsedataloader_pin_memory
: Truedataloader_persistent_workers
: Falseskip_memory_metrics
: Trueuse_legacy_prediction_loop
: Falsepush_to_hub
: Falseresume_from_checkpoint
: Nonehub_model_id
: Nonehub_strategy
: every_savehub_private_repo
: Nonehub_always_push
: Falsegradient_checkpointing
: Falsegradient_checkpointing_kwargs
: Noneinclude_inputs_for_metrics
: Falseinclude_for_metrics
: []eval_do_concat_batches
: Truefp16_backend
: autopush_to_hub_model_id
: Nonepush_to_hub_organization
: Nonemp_parameters
:auto_find_batch_size
: Falsefull_determinism
: Falsetorchdynamo
: Noneray_scope
: lastddp_timeout
: 1800torch_compile
: Falsetorch_compile_backend
: Nonetorch_compile_mode
: Nonedispatch_batches
: Nonesplit_batches
: Noneinclude_tokens_per_second
: Falseinclude_num_input_tokens_seen
: Falseneftune_noise_alpha
: Noneoptim_target_modules
: Nonebatch_eval_metrics
: Falseeval_on_start
: Falseuse_liger_kernel
: Falseeval_use_gather_object
: Falseaverage_tokens_across_devices
: Falseprompts
: Nonebatch_sampler
: batch_samplermulti_dataset_batch_sampler
: proportional
Training Logs
Epoch | Step | Validation Loss |
---|---|---|
1.0 | 6 | 0.4047 |
2.0 | 12 | 0.1823 |
3.0 | 18 | 0.0846 |
- The bold row denotes the saved checkpoint.
Framework Versions
- Python: 3.10.12
- Sentence Transformers: 3.4.1
- Transformers: 4.49.0
- PyTorch: 2.6.0+cu124
- Accelerate: 1.4.0
- Datasets: 3.3.2
- Tokenizers: 0.21.0
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MultipleNegativesRankingLoss
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
- Downloads last month
- 1
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support
Model tree for vkimbris/e5-small-federallaws
Base model
intfloat/multilingual-e5-small