Update README.md
Browse files
README.md
CHANGED
@@ -14,21 +14,21 @@ base_model:
|
|
14 |
|
15 |
### Описание
|
16 |
|
17 |
-
**Vikhr-Nemo** - это наша флагманская унимодальная LLM (Large Language Model) представляющая из себя улучшенную версию [mistralai/Mistral-Nemo-Instruct-2407](https://huggingface.co/mistralai/Mistral-Nemo-Instruct-2407) командой **VikhrModels**, адаптированную преимущественно для русского и английского языков. Для ее обучения мы использовали несколько этапов
|
18 |
|
19 |
-
Модель оптимизированна для различных вариантов использования, включая ризонинг, суммаризацию, код, roleplay, поддержание диалога. Vikhr-Nemo обладает возможностью многоязычной генерации, и высокопроизводительными возможностями RAG. Модель иммет лучшие оценки среди прочих на наших инструктивных и RAG бенчарках и, поэтому, мы верим, что в
|
20 |
|
21 |
-
Весь использованный код для обучения
|
22 |
|
23 |
### Особенности
|
24 |
1. Высокое качество генераций на русском и английском языках, а также некоторых других языках, благодаря датасету [Grandmaster-PRO-MAX](https://huggingface.co/datasets/Vikhrmodels/GrandMaster-PRO-MAX) и исходной модели
|
25 |
2. Поддержка системных промптов для регулриования стиля ответов
|
26 |
3. Поддержка до 128k токенов контекста благодаря исходной модели
|
27 |
-
4. Grounded RAG режим - модель имеет специальную роль documents и специальный режим работы для поиска идентификаторов релевантных вопросу пользователя документов и использования их для ответа на вопрос, вдохновлено аналогичной
|
28 |
|
29 |
### Метрики и оценка качества
|
30 |
|
31 |
-
Модель оценивалась на нашем русскоязычном
|
32 |
|
33 |
#### Результаты на Ru-Arena-General
|
34 |
|
@@ -173,16 +173,16 @@ base_model:
|
|
173 |
|
174 |
#### Инструктивная SFT часть
|
175 |
|
176 |
-
Для SFT этапа обучения модели мы подготовили
|
177 |
|
178 |
-
Кроме того для того чтобы сделать RAG Grounding мы подготовили другой синтетический датасет - [Vikhrmodels/Grounded-RAG-RU-v2](https://huggingface.co/datasets/Vikhrmodels/Grounded-RAG-RU-v2), его пайплайн сборки достаточно сложный для короткого описания и полробнее об этом вы можете прочитать в его карточке.
|
179 |
|
180 |
#### Этап алайнмента с SMPO
|
181 |
|
182 |
Для дальнейшего улучшения качества ответов мы использовали следущий пайплайн:
|
183 |
1) Обучили кастомную Reward модель (она пока не будет выкладываться в открытый доступ)
|
184 |
2) Дедуплицировали и отфилтровали используя RM модель оригинальный датасет Vikhrmodels/GrandMaster-PRO-MAX, получив порядка 10к самых высококачественных и разнообразных диалогов.
|
185 |
-
3) Сделали Rejection
|
186 |
4) Дообучили SFT чекпоинт с помощью нашего метода SMPO используя полученный датасет из этапа 3. SMPO был спроектирован и выбран как метод для повышения стабильности тренировки преференсов в условиях Rejection Samping и достижения нужного margin.
|
187 |
|
188 |
Реализацию SMPO, rejection sampling и тд можно найти в нашей библиотеке [effective_llm_alignment](https://github.com/VikhrModels/effective_llm_alignment/) на GitHub
|
@@ -242,9 +242,9 @@ final_answer = llm_client.chat.completions.create(
|
|
242 |
print(final_answer)
|
243 |
```
|
244 |
|
245 |
-
Ответ после
|
246 |
|
247 |
-
|
248 |
----
|
249 |
|
250 |
Глобальное потепление – это долгосрочное повышение средней температуры атмосферы и океанов Земли. Это явление имеет множество последствий для нашей планеты, и среди них можно выделить два ключевых аспекта, основанных на доступных мне данных:
|
@@ -255,7 +255,7 @@ print(final_answer)
|
|
255 |
|
256 |
Эти изменения имеют серьезные последствия для экосистем, климата и человеческого общества. Таяние ледников приводит к повышению уровня моря, что может привести к затоплению прибрежных территорий и островов, а также к изменению водных ресурсов и климатических паттернов.
|
257 |
|
258 |
-
Используя первый ответ модели `relevant_indexes
|
259 |
|
260 |
### Нюансы и ограничения
|
261 |
- Модель имеет **низкий уровень безопасности ответов** и нацелена на правильное и полное выполенние инстуркций, имейте это ввиду при использовании. Частично это исправляется системными промптами и дополнительными указаниями о важности безопасности в промпте пользователя.
|
|
|
14 |
|
15 |
### Описание
|
16 |
|
17 |
+
**Vikhr-Nemo** - это наша флагманская унимодальная LLM (Large Language Model) представляющая из себя улучшенную версию [mistralai/Mistral-Nemo-Instruct-2407](https://huggingface.co/mistralai/Mistral-Nemo-Instruct-2407) командой **VikhrModels**, адаптированную преимущественно для русского и английского языков. Для ее обучения мы использовали несколько этапов включающих в себя **SFT** и **SMPO** - нашу собственную вариацию DPO, подробнее читайте в секции *"Как эта модель создавалась"*.
|
18 |
|
19 |
+
Модель оптимизированна для различных вариантов использования, включая ризонинг, суммаризацию, код, roleplay, поддержание диалога. Vikhr-Nemo обладает возможностью многоязычной генерации, и высокопроизводительными возможностями RAG. Модель иммет лучшие оценки среди прочих на наших инструктивных и RAG бенчарках и, поэтому, мы верим, что в некоторых задачах (например, RAG) может быть не хуже gpt-4o-mini от OpenAI.
|
20 |
|
21 |
+
Весь использованный код для обучения доступен в нашем репозитории [effective_llm_alignment](https://github.com/VikhrModels/effective_llm_alignment/) на GitHub, а основаные датасеты доступны в нашем [профиле на HF](https://huggingface.co/Vikhrmodels).
|
22 |
|
23 |
### Особенности
|
24 |
1. Высокое качество генераций на русском и английском языках, а также некоторых других языках, благодаря датасету [Grandmaster-PRO-MAX](https://huggingface.co/datasets/Vikhrmodels/GrandMaster-PRO-MAX) и исходной модели
|
25 |
2. Поддержка системных промптов для регулриования стиля ответов
|
26 |
3. Поддержка до 128k токенов контекста благодаря исходной модели
|
27 |
+
4. Grounded RAG режим - модель имеет специальную роль documents и специальный режим работы для поиска идентификаторов релевантных вопросу пользователя документов и использования их для ответа на вопрос, вдохновлено аналогичной способностью модели Command-R
|
28 |
|
29 |
### Метрики и оценка качества
|
30 |
|
31 |
+
Модель оценивалась на нашем русскоязычном open-source SbS бенчмарке [ru-arena-general](https://github.com/VikhrModels/ru_llm_arena) (50 вопросов по 10 топикам), где судьей выступает gpt-4-1106-preview и [бенчмарке](https://colab.research.google.com/drive/16730rWQ4-yGqWoooLs0Ece_16frmOniP?usp=sharing) для RAG на основе тестового сета [Grounded-RAG-v2](https://huggingface.co/datasets/Vikhrmodels/Grounded-RAG-RU-v2), где судей выступа gpt-4o.
|
32 |
|
33 |
#### Результаты на Ru-Arena-General
|
34 |
|
|
|
173 |
|
174 |
#### Инструктивная SFT часть
|
175 |
|
176 |
+
Для SFT этапа обучения модели мы подготовили большой (150к инструкций) инструктивный синтетический датасет [Vikhrmodels/GrandMaster-PRO-MAX](https://huggingface.co/datasets/Vikhrmodels/GrandMaster-PRO-MAX). Его особенностью является встроеный CoT (Chain-Of-Thought), для сбора которого мы использовали модифицированный промет для gpt-4-turbo, подробности в карточке датасета.
|
177 |
|
178 |
+
Кроме того для того чтобы сделать RAG Grounding мы подготовили другой синтетический датасет - [Vikhrmodels/Grounded-RAG-RU-v2](https://huggingface.co/datasets/Vikhrmodels/Grounded-RAG-RU-v2) (50k диалогов), его пайплайн сборки достаточно сложный для короткого описания и полробнее об этом вы можете прочитать в его карточке.
|
179 |
|
180 |
#### Этап алайнмента с SMPO
|
181 |
|
182 |
Для дальнейшего улучшения качества ответов мы использовали следущий пайплайн:
|
183 |
1) Обучили кастомную Reward модель (она пока не будет выкладываться в открытый доступ)
|
184 |
2) Дедуплицировали и отфилтровали используя RM модель оригинальный датасет Vikhrmodels/GrandMaster-PRO-MAX, получив порядка 10к самых высококачественных и разнообразных диалогов.
|
185 |
+
3) Сделали Rejection Sampling с SFT чекпоинтом используя полученный датасет и Reward модель. (Генерировали 7 гипотез и брали только 2 самые худшие как rejected)
|
186 |
4) Дообучили SFT чекпоинт с помощью нашего метода SMPO используя полученный датасет из этапа 3. SMPO был спроектирован и выбран как метод для повышения стабильности тренировки преференсов в условиях Rejection Samping и достижения нужного margin.
|
187 |
|
188 |
Реализацию SMPO, rejection sampling и тд можно найти в нашей библиотеке [effective_llm_alignment](https://github.com/VikhrModels/effective_llm_alignment/) на GitHub
|
|
|
242 |
print(final_answer)
|
243 |
```
|
244 |
|
245 |
+
Ответ после выполнения кода будет выглядеть примерно так:
|
246 |
|
247 |
+
Using documents: {"relevant_doc_ids": [0, 1]}
|
248 |
----
|
249 |
|
250 |
Глобальное потепление – это долгосрочное повышение средней температуры атмосферы и океанов Земли. Это явление имеет множество последствий для нашей планеты, и среди них можно выделить два ключевых аспекта, основанных на доступных мне данных:
|
|
|
255 |
|
256 |
Эти изменения имеют серьезные последствия для экосистем, климата и человеческого общества. Таяние ледников приводит к повышению уровня моря, что может привести к затоплению прибрежных территорий и островов, а также к изменению водных ресурсов и климатических паттернов.
|
257 |
|
258 |
+
Используя первый ответ модели `relevant_indexes` (JSON), можно понять нашла ли модель информацию в документах или нет, она обучена возврашать пустой массив если ее нет и в таком случае она будет отвечать, что не смогла найти информацию в базе знаний.
|
259 |
|
260 |
### Нюансы и ограничения
|
261 |
- Модель имеет **низкий уровень безопасности ответов** и нацелена на правильное и полное выполенние инстуркций, имейте это ввиду при использовании. Частично это исправляется системными промптами и дополнительными указаниями о важности безопасности в промпте пользователя.
|