apsys commited on
Commit
6cf97d5
1 Parent(s): 8250c03

Update src/about.py

Browse files
Files changed (1) hide show
  1. src/about.py +23 -2
src/about.py CHANGED
@@ -29,10 +29,31 @@ INTRODUCTION_TEXT = """
29
 
30
  # Which evaluations are you running? how can people reproduce what you have?
31
  LLM_BENCHMARKS_TEXT = f"""
32
- ## How it works
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
33
 
34
  ## Reproducibility
35
- To reproduce our results, here is the commands you can run:
36
 
37
  """
38
 
 
29
 
30
  # Which evaluations are you running? how can people reproduce what you have?
31
  LLM_BENCHMARKS_TEXT = f"""
32
+ ## Что это ?
33
+
34
+ # Ru Arena Hard
35
+
36
+ Это инструмент для автоматической оценки моделей на русском языке с помощью сильной LLM (GPT-4-1106-preview). Использует систему ELO рангов.
37
+
38
+ - Основывается на фиксированном наборе из 500 промптов, разбитым по 50 темам. Каждая модель дает свой ответ на каждый промпт, после чего он сравнивается с ответами на эти же промпты от модели-бейзлайна (gpt-3.5-turbo-0125).
39
+
40
+ Важными особенностями отличающими Arena-Hard-Auto от обычного SBS ялвются:
41
+
42
+ - При сравнениях ответов учитываются 3 основных случая: >> (сильно лучше), > (просто лучше) и = (примерно одинаково), за случаи когда один ответ сильно лучше другого вес вердикта увеличивается в 3 раза
43
+ - Для удаления позиционного биаса в промпте модели-судьи, каждое сравнение делается 2 раза (ответы моделей переставляются местами в промпте).
44
+ - Бутстрапирование результатов сравнений для получения доверительных интервалов
45
+ Использование системы ELO рангов и предсказения винрейта с помощью Bradley–Terry модели
46
+
47
+ В отличие от оригинала Arena-Hard-Auto, эта версия содержит некоторые изменения:
48
+
49
+ - Изменен промпт для модели-оценщика, для того чтобы сравнивать модели в том числе по владению русским языком, сам промпт находится в config/judge_config.yaml
50
+ - Добавлена функция контроля длины ответов для штрафования за слишком длинные ответы по сравнению с бейзлайном (экспериментально)
51
+ - В качестве бейзлайна используется gpt-3.5-turbo-0125, в отличие от GPT-4, так как для русского языка модели менее развиты чем для английского
52
+ - Добавлены функции генерации с gigachat и yandexgpt
53
+ - Фиксы некоторых багов в оригинальной имплементации
54
 
55
  ## Reproducibility
56
+ Colab - https://colab.research.google.com/drive/1w8f2kN8-JWJ_JjLvgEZAt7UDGpwOoEfy?usp=sharing
57
 
58
  """
59