Safetensors
English
Russian
llama
hivaze commited on
Commit
8d8e827
1 Parent(s): e898360

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +3 -3
README.md CHANGED
@@ -59,8 +59,8 @@ base_model:
59
 
60
  Подробности промптов и оценок смотрите в коде бенчмарка доступно на [коллабе](https://colab.research.google.com/drive/16730rWQ4-yGqWoooLs0Ece_16frmOniP?usp=sharing)
61
 
62
- in_domain - вопросы которые связаны с содержанием предоставленных документов в той или иной степени
63
- out_of_domain - вопросы которые специально никак связаны с содержанием предоставленных документов
64
 
65
  <table>
66
  <thead>
@@ -190,7 +190,7 @@ out_of_domain - вопросы которые специально никак с
190
  3) Сделали Rejection Sampling с SFT чекпоинтом используя полученный датасет и Reward модель. (Генерировали 7 гипотез и брали только 2 самые худшие как rejected)
191
  4) Дообучили SFT чекпоинт с помощью нашего метода SMPO используя полученный датасет из этапа 3. SMPO был спроектирован и выбран как метод для повышения стабильности тренировки преференсов в условиях Rejection Samping и достижения нужного margin.
192
 
193
- Реализацию SMPO, rejection sampling и тд можно найти в нашей библиотеке [effective_llm_alignment](https://github.com/VikhrModels/effective_llm_alignment/) на GitHub
194
 
195
  ### Как работать с RAG
196
 
 
59
 
60
  Подробности промптов и оценок смотрите в коде бенчмарка доступно на [коллабе](https://colab.research.google.com/drive/16730rWQ4-yGqWoooLs0Ece_16frmOniP?usp=sharing)
61
 
62
+ in_domain - вопросы которые связаны с содержанием предоставленных документов в той или иной степени \
63
+ out_of_domain - вопросы которые специально никак не связаны с содержанием предоставленных документов
64
 
65
  <table>
66
  <thead>
 
190
  3) Сделали Rejection Sampling с SFT чекпоинтом используя полученный датасет и Reward модель. (Генерировали 7 гипотез и брали только 2 самые худшие как rejected)
191
  4) Дообучили SFT чекпоинт с помощью нашего метода SMPO используя полученный датасет из этапа 3. SMPO был спроектирован и выбран как метод для повышения стабильности тренировки преференсов в условиях Rejection Samping и достижения нужного margin.
192
 
193
+ Реализацию SMPO, rejection sampling и другое можно найти в нашей библиотеке [effective_llm_alignment](https://github.com/VikhrModels/effective_llm_alignment/) на GitHub
194
 
195
  ### Как работать с RAG
196