Update README.md
Browse files
README.md
CHANGED
@@ -59,8 +59,8 @@ base_model:
|
|
59 |
|
60 |
Подробности промптов и оценок смотрите в коде бенчмарка доступно на [коллабе](https://colab.research.google.com/drive/16730rWQ4-yGqWoooLs0Ece_16frmOniP?usp=sharing)
|
61 |
|
62 |
-
in_domain - вопросы которые связаны с содержанием предоставленных документов в той или иной степени
|
63 |
-
out_of_domain - вопросы которые специально никак связаны с содержанием предоставленных документов
|
64 |
|
65 |
<table>
|
66 |
<thead>
|
@@ -190,7 +190,7 @@ out_of_domain - вопросы которые специально никак с
|
|
190 |
3) Сделали Rejection Sampling с SFT чекпоинтом используя полученный датасет и Reward модель. (Генерировали 7 гипотез и брали только 2 самые худшие как rejected)
|
191 |
4) Дообучили SFT чекпоинт с помощью нашего метода SMPO используя полученный датасет из этапа 3. SMPO был спроектирован и выбран как метод для повышения стабильности тренировки преференсов в условиях Rejection Samping и достижения нужного margin.
|
192 |
|
193 |
-
Реализацию SMPO, rejection sampling и
|
194 |
|
195 |
### Как работать с RAG
|
196 |
|
|
|
59 |
|
60 |
Подробности промптов и оценок смотрите в коде бенчмарка доступно на [коллабе](https://colab.research.google.com/drive/16730rWQ4-yGqWoooLs0Ece_16frmOniP?usp=sharing)
|
61 |
|
62 |
+
in_domain - вопросы которые связаны с содержанием предоставленных документов в той или иной степени \
|
63 |
+
out_of_domain - вопросы которые специально никак не связаны с содержанием предоставленных документов
|
64 |
|
65 |
<table>
|
66 |
<thead>
|
|
|
190 |
3) Сделали Rejection Sampling с SFT чекпоинтом используя полученный датасет и Reward модель. (Генерировали 7 гипотез и брали только 2 самые худшие как rejected)
|
191 |
4) Дообучили SFT чекпоинт с помощью нашего метода SMPO используя полученный датасет из этапа 3. SMPO был спроектирован и выбран как метод для повышения стабильности тренировки преференсов в условиях Rejection Samping и достижения нужного margin.
|
192 |
|
193 |
+
Реализацию SMPO, rejection sampling и другое можно найти в нашей библиотеке [effective_llm_alignment](https://github.com/VikhrModels/effective_llm_alignment/) на GitHub
|
194 |
|
195 |
### Как работать с RAG
|
196 |
|