Spaces:
Running
Running
Update src/about.py
Browse files- src/about.py +23 -2
src/about.py
CHANGED
@@ -29,10 +29,31 @@ INTRODUCTION_TEXT = """
|
|
29 |
|
30 |
# Which evaluations are you running? how can people reproduce what you have?
|
31 |
LLM_BENCHMARKS_TEXT = f"""
|
32 |
-
##
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
33 |
|
34 |
## Reproducibility
|
35 |
-
|
36 |
|
37 |
"""
|
38 |
|
|
|
29 |
|
30 |
# Which evaluations are you running? how can people reproduce what you have?
|
31 |
LLM_BENCHMARKS_TEXT = f"""
|
32 |
+
## Что это ?
|
33 |
+
|
34 |
+
# Ru Arena Hard
|
35 |
+
|
36 |
+
Это инструмент для автоматической оценки моделей на русском языке с помощью сильной LLM (GPT-4-1106-preview). Использует систему ELO рангов.
|
37 |
+
|
38 |
+
- Основывается на фиксированном наборе из 500 промптов, разбитым по 50 темам. Каждая модель дает свой ответ на каждый промпт, после чего он сравнивается с ответами на эти же промпты от модели-бейзлайна (gpt-3.5-turbo-0125).
|
39 |
+
|
40 |
+
Важными особенностями отличающими Arena-Hard-Auto от обычного SBS ялвются:
|
41 |
+
|
42 |
+
- При сравнениях ответов учитываются 3 основных случая: >> (сильно лучше), > (просто лучше) и = (примерно одинаково), за случаи когда один ответ сильно лучше другого вес вердикта увеличивается в 3 раза
|
43 |
+
- Для удаления позиционного биаса в промпте модели-судьи, каждое сравнение делается 2 раза (ответы моделей переставляются местами в промпте).
|
44 |
+
- Бутстрапирование результатов сравнений для получения доверительных интервалов
|
45 |
+
Использование системы ELO рангов и предсказения винрейта с помощью Bradley–Terry модели
|
46 |
+
|
47 |
+
В отличие от оригинала Arena-Hard-Auto, эта версия содержит некоторые изменения:
|
48 |
+
|
49 |
+
- Изменен промпт для модели-оценщика, для того чтобы сравнивать модели в том числе по владению русским языком, сам промпт находится в config/judge_config.yaml
|
50 |
+
- Добавлена функция контроля длины ответов для штрафования за слишком длинные ответы по сравнению с бейзлайном (экспериментально)
|
51 |
+
- В качестве бейзлайна используется gpt-3.5-turbo-0125, в отличие от GPT-4, так как для русского языка модели менее развиты чем для английского
|
52 |
+
- Добавлены функции генерации с gigachat и yandexgpt
|
53 |
+
- Фиксы некоторых багов в оригинальной имплементации
|
54 |
|
55 |
## Reproducibility
|
56 |
+
Colab - https://colab.research.google.com/drive/1w8f2kN8-JWJ_JjLvgEZAt7UDGpwOoEfy?usp=sharing
|
57 |
|
58 |
"""
|
59 |
|