Spaces:

Vikhrmodels
/

arenahardlb

Runtime error

App Files Files Community

apsys commited on Aug 8, 2024

Commit

6cf97d5

verified ·

1 Parent(s): 8250c03

Update src/about.py

Browse files

Files changed (1) hide show

src/about.py +23 -2

src/about.py CHANGED Viewed

@@ -29,10 +29,31 @@ INTRODUCTION_TEXT = """
 # Which evaluations are you running? how can people reproduce what you have?
 LLM_BENCHMARKS_TEXT = f"""
-## How it works
 ## Reproducibility
-To reproduce our results, here is the commands you can run:
 """

 # Which evaluations are you running? how can people reproduce what you have?
 LLM_BENCHMARKS_TEXT = f"""
+## Что это ?
+# Ru Arena Hard
+Это инструмент для автоматической оценки моделей на русском языке с помощью сильной LLM (GPT-4-1106-preview). Использует систему ELO рангов.
+- Основывается на фиксированном наборе из 500 промптов, разбитым по 50 темам. Каждая модель дает свой ответ на каждый промпт, после чего он сравнивается с ответами на эти же промпты от модели-бейзлайна (gpt-3.5-turbo-0125).
+Важными особенностями отличающими Arena-Hard-Auto от обычного SBS ялвются:
+- При сравнениях ответов учитываются 3 основных случая: >> (сильно лучше), > (просто лучше) и = (примерно одинаково), за случаи когда один ответ сильно лучше другого вес вердикта увеличивается в 3 раза
+- Для удаления позиционного биаса в промпте модели-судьи, каждое сравнение делается 2 раза (ответы моделей переставляются местами в промпте).
+- Бутстрапирование результатов сравнений для получения доверительных интервалов
+Использование системы ELO рангов и предсказения винрейта с помощью Bradley–Terry модели
+В отличие от оригинала Arena-Hard-Auto, эта версия содержит некоторые изменения:
+- Изменен промпт для модели-оценщика, для того чтобы сравнивать модели в том числе по владению русским языком, сам промпт находится в config/judge_config.yaml
+- Добавлена функция контроля длины ответов для штрафования за слишком длинные ответы по сравнению с бейзлайном (экспериментально)
+- В качестве бейзлайна используется gpt-3.5-turbo-0125, в отличие от GPT-4, так как для русского языка модели менее развиты чем для английского
+- Добавлены функции генерации с gigachat и yandexgpt
+- Фиксы некоторых багов в оригинальной имплементации
 ## Reproducibility
+Colab - https://colab.research.google.com/drive/1w8f2kN8-JWJ_JjLvgEZAt7UDGpwOoEfy?usp=sharing
 """