vorobyov01 commited on
Commit
c4e741b
·
1 Parent(s): 996558e

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +37 -5
README.md CHANGED
@@ -1,5 +1,37 @@
1
- ---
2
- license: other
3
- license_name: yandexgpt-5-lite-8b-pretrain
4
- license_link: LICENSE
5
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: other
3
+ license_name: yandexgpt-5-lite-8b-pretrain
4
+ license_link: LICENSE
5
+ ---
6
+ # YandexGPT-5-Lite-Pretrain
7
+
8
+ Pretrain-версия большой языковой модели YandexGPT 5 Lite на 8B параметров с длиной контекста 32k токенов. Обучение модели проходило в два этапа.
9
+
10
+ На первом этапе модель обучалась преимущественно на русскоязычных и англоязычных текстах общим объёмом 15T токенов с длиной контекста до 8k токенов. Состав датасета: 60% — веб-страницы, 15% — код, 10% — математика, остальное — другие специфичные данные, в том числе сгенерированная с помощью наших моделей синтетика и датасеты наших сервисов, например Яндекс Переводчика и база фактов Поиска.
11
+
12
+ На втором этапе, который мы назвали Powerup, модель обучалась на высококачественных данных объёмом 320B токенов. Состав Powerup-датасета: 25% — веб-страницы, 19% — математика, 18% — код, 18% — образовательные данные, остальное — синтетика, датасеты сервисов и прочие качественные тексты. На этом этапе мы увеличили длину контекста до 32k токенов. Более подробно — в нашей статье на Хабре.
13
+
14
+ ## Бенчмарки
15
+ В своей категории pretrain-версия YandexGPT 5 Lite достигает паритета с мировыми SOTA по ряду ключевых бенчмарков для pretrain-моделей.
16
+
17
+ ## Как использовать
18
+
19
+ Модель можно запустить через HF Transformers:
20
+ ```python
21
+ from transformers import AutoModelForCausalLM, AutoTokenizer
22
+
23
+
24
+ MODEL_NAME = "yandex/YandexGPT-5-Lite-8B-pretrain"
25
+
26
+ tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, legacy=False)
27
+ model = AutoModelForCausalLM.from_pretrained(
28
+ MODEL_NAME,
29
+ device_map="cuda",
30
+ )
31
+
32
+ input_text = "Кто сказал тебе, что нет на свете настоящей,"
33
+ input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
34
+
35
+ outputs = model.generate(**input_ids, max_new_tokens=19)
36
+ print(tokenizer.decode(outputs[0], skip_special_tokens=True))
37
+ ```