💨🦅 QVikhr-2.5-1.5B-Instruct-SMPO
Инструктивная модель на основе Qwen-2.5-1.5B-Instruct, обученная на русскоязычном датасете GrandMaster-PRO-MAX с использованием SMPO (Simple Margin Preference Optimization).
Описание:
QVikhr-2.5-1.5B-Instruct-SMPO представляет собой языковую модель, прошедшую специализированное обучение с использованием метода SMPO. Эта модель демонстрирует прогресс в методах выравнивания, особенно в области улучшения качества ответов через оптимизацию предпочтений.
Transformers
Авторы
- Sergei Bratchikov, NLP Wanderer, Vikhr Team
- Nikolay Kompanets, LakoMoor, Vikhr Team
- Konstantin Korolev, Vikhr Team
- Aleksandr Nikolich, Vikhr Team
@inproceedings{nikolich2024vikhr,
title={Vikhr: Advancing Open-Source Bilingual Instruction-Following Large Language Models for Russian and English},
author={Aleksandr Nikolich and Konstantin Korolev and Sergei Bratchikov and Nikolay Kompanets and Igor Kiselev and Artem Shelmanov},
booktitle={Proceedings of the 4th Workshop on Multilingual Representation Learning (MRL) @ EMNLP-2024},
year={2024},
publisher={Association for Computational Linguistics},
url={https://arxiv.org/pdf/2405.13929}
}
- Downloads last month
- 212
Hardware compatibility
Log In
to view the estimation
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support
HF Inference deployability: The model has no pipeline_tag.
Model tree for Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO_GGUF
Base model
Qwen/Qwen2.5-1.5B
Finetuned
Qwen/Qwen2.5-1.5B-Instruct
Finetuned
Vikhrmodels/Vikhr-Qwen-2.5-1.5B-Instruct