attn-signs commited on
Commit
ff1a642
·
verified ·
1 Parent(s): 97767f4

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +42 -0
README.md CHANGED
@@ -1,4 +1,46 @@
 
 
 
 
 
 
 
 
 
 
 
1
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2
 
3
  ### Usage:
4
  ```python
 
1
+ ---
2
+ library_name: transformers
3
+ license: apache-2.0
4
+ datasets:
5
+ - attn-signs/kolmogorov-3
6
+ - attn-signs/russian-code
7
+ language:
8
+ - ru
9
+ base_model:
10
+ - Qwen/Qwen3-8B
11
+ ---
12
 
13
+ # Qwen3-8B-ru
14
+
15
+ - [EN]
16
+ Qwen3-based model, adapted for russian text generation tasks.
17
+ - [RU]
18
+ Finetune версия Qwen3, адаптированная для генерации русского текста.
19
+
20
+ ## Model Details / Детализация модели
21
+ - [EN]
22
+ LoRA supervised finetuning was performed on 2xA100 NVIDIA GPUs for 12h for 1 epoch on datasets:
23
+ attn-signs/kolmogorov-3;
24
+ attn-signs/russian-code;
25
+
26
+ - [RU]
27
+ LoRA SFT цикл был выполнен на двух NVIDIA A100, обучение длилось около 12 часов.
28
+ Прогон полной эпохи датасетов:
29
+ attn-signs/kolmogorov-3;
30
+ attn-signs/russian-code;
31
+
32
+
33
+ ### Model Description / Описание модели
34
+
35
+ - **Developed by:** [Reisen Raumberg (Attention Signs team)]
36
+ - **Language(s) (NLP):** [RU/EN]
37
+ - **Finetuned from model:** [Qwen3]
38
+
39
+ Utilized DeepSpeed (Stage 3), HF.Accelerator for distributed training and fused AdamW.
40
+ **GPU hours**: 12h of NVIDIA A100
41
+
42
+ Для обучения использовались HuggingFace Accelerator с Microsoft DeepSpeed (Stage 3) для распределения параметров и стейта оптимизатора, а так же зафьюженный AdamW
43
+ **GPU часы**: 12 часов NVIDIA A100
44
 
45
  ### Usage:
46
  ```python