Commit
·
c4e741b
1
Parent(s):
996558e
Update README.md
Browse files
README.md
CHANGED
@@ -1,5 +1,37 @@
|
|
1 |
-
---
|
2 |
-
license: other
|
3 |
-
license_name: yandexgpt-5-lite-8b-pretrain
|
4 |
-
license_link: LICENSE
|
5 |
-
---
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
license: other
|
3 |
+
license_name: yandexgpt-5-lite-8b-pretrain
|
4 |
+
license_link: LICENSE
|
5 |
+
---
|
6 |
+
# YandexGPT-5-Lite-Pretrain
|
7 |
+
|
8 |
+
Pretrain-версия большой языковой модели YandexGPT 5 Lite на 8B параметров с длиной контекста 32k токенов. Обучение модели проходило в два этапа.
|
9 |
+
|
10 |
+
На первом этапе модель обучалась преимущественно на русскоязычных и англоязычных текстах общим объёмом 15T токенов с длиной контекста до 8k токенов. Состав датасета: 60% — веб-страницы, 15% — код, 10% — математика, остальное — другие специфичные данные, в том числе сгенерированная с помощью наших моделей синтетика и датасеты наших сервисов, например Яндекс Переводчика и база фактов Поиска.
|
11 |
+
|
12 |
+
На втором этапе, который мы назвали Powerup, модель обучалась на высококачественных данных объёмом 320B токенов. Состав Powerup-датасета: 25% — веб-страницы, 19% — математика, 18% — код, 18% — образовательные данные, остальное — синтетика, датасеты сервисов и прочие качественные тексты. На этом этапе мы увеличили длину контекста до 32k токенов. Более подробно — в нашей статье на Хабре.
|
13 |
+
|
14 |
+
## Бенчмарки
|
15 |
+
В своей категории pretrain-версия YandexGPT 5 Lite достигает паритета с мировыми SOTA по ряду ключевых бенчмарков для pretrain-моделей.
|
16 |
+
|
17 |
+
## Как использовать
|
18 |
+
|
19 |
+
Модель можно запустить через HF Transformers:
|
20 |
+
```python
|
21 |
+
from transformers import AutoModelForCausalLM, AutoTokenizer
|
22 |
+
|
23 |
+
|
24 |
+
MODEL_NAME = "yandex/YandexGPT-5-Lite-8B-pretrain"
|
25 |
+
|
26 |
+
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, legacy=False)
|
27 |
+
model = AutoModelForCausalLM.from_pretrained(
|
28 |
+
MODEL_NAME,
|
29 |
+
device_map="cuda",
|
30 |
+
)
|
31 |
+
|
32 |
+
input_text = "Кто сказал тебе, что нет на свете настоящей,"
|
33 |
+
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
|
34 |
+
|
35 |
+
outputs = model.generate(**input_ids, max_new_tokens=19)
|
36 |
+
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
|
37 |
+
```
|