attn-signs
/

Qwen3-8b-ru

Text Generation

text-generation-inference

Model card Files Files and versions Community

attn-signs commited on 28 days ago

Commit

ff1a642

·

verified ·

1 Parent(s): 97767f4

Update README.md

Files changed (1) hide show

README.md +42 -0

README.md CHANGED Viewed

@@ -1,4 +1,46 @@
 ### Usage:
 ```python

+---
+library_name: transformers
+license: apache-2.0
+datasets:
+- attn-signs/kolmogorov-3
+- attn-signs/russian-code
+language:
+- ru
+base_model:
+- Qwen/Qwen3-8B
+---
+# Qwen3-8B-ru
+- [EN]
+Qwen3-based model, adapted for russian text generation tasks.
+- [RU]
+Finetune версия Qwen3, адаптированная для генерации русского текста.
+## Model Details / Детализация модели
+- [EN]
+LoRA supervised finetuning was performed on 2xA100 NVIDIA GPUs for 12h for 1 epoch on datasets:
+attn-signs/kolmogorov-3;
+attn-signs/russian-code;
+- [RU]
+LoRA SFT цикл был выполнен на двух NVIDIA A100, обучение длилось около 12 часов.
+Прогон полной эпохи датасетов:
+attn-signs/kolmogorov-3;
+attn-signs/russian-code;
+### Model Description / Описание модели
+- **Developed by:** [Reisen Raumberg (Attention Signs team)]
+- **Language(s) (NLP):** [RU/EN]
+- **Finetuned from model:** [Qwen3]
+Utilized DeepSpeed (Stage 3), HF.Accelerator for distributed training and fused AdamW.
+**GPU hours**: 12h of NVIDIA A100
+Для обучения использовались HuggingFace Accelerator с Microsoft DeepSpeed (Stage 3) для распределения параметров и стейта оптимизатора, а так же зафьюженный AdamW
+**GPU часы**: 12 часов NVIDIA A100
 ### Usage:
 ```python