|
--- |
|
license: other |
|
license_name: yandexgpt-5-lite-8b-pretrain |
|
license_link: LICENSE |
|
--- |
|
# YandexGPT-5-Lite-Pretrain |
|
|
|
Pretrain-версия большой языковой модели YandexGPT 5 Lite на 8B параметров с длиной контекста 32k токенов. Обучение модели проходило в два этапа. |
|
|
|
На первом этапе модель обучалась преимущественно на русскоязычных и англоязычных текстах общим объёмом 15T токенов с длиной контекста до 8k токенов. Состав датасета: 60% — веб-страницы, 15% — код, 10% — математика, остальное — другие специфичные данные, в том числе сгенерированная с помощью наших моделей синтетика и датасеты наших сервисов, например Яндекс Переводчика и база фактов Поиска. |
|
|
|
На втором этапе, который мы назвали Powerup, модель обучалась на высококачественных данных объёмом 320B токенов. Состав Powerup-датасета: 25% — веб-страницы, 19% — математика, 18% — код, 18% — образовательные данные, остальное — синтетика, датасеты сервисов и прочие качественные тексты. На этом этапе мы увеличили длину контекста до 32k токенов. Более подробно — в нашей статье на Хабре. |
|
|
|
## Бенчмарки |
|
В своей категории pretrain-версия YandexGPT 5 Lite достигает паритета с мировыми SOTA по ряду ключевых бенчмарков для pretrain-моделей. |
|
|
|
## Как использовать |
|
|
|
Модель можно запустить через HF Transformers: |
|
```python |
|
from transformers import AutoModelForCausalLM, AutoTokenizer |
|
|
|
|
|
MODEL_NAME = "yandex/YandexGPT-5-Lite-8B-pretrain" |
|
|
|
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, legacy=False) |
|
model = AutoModelForCausalLM.from_pretrained( |
|
MODEL_NAME, |
|
device_map="cuda", |
|
) |
|
|
|
input_text = "Кто сказал тебе, что нет на свете настоящей," |
|
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda") |
|
|
|
outputs = model.generate(**input_ids, max_new_tokens=19) |
|
print(tokenizer.decode(outputs[0], skip_special_tokens=True)) |
|
``` |
|
|