--- library_name: transformers license: apache-2.0 datasets: - Vikhrmodels/GrandMaster-PRO-MAX language: - ru base_model: - t-tech/T-lite-it-1.0 --- # Watari 7B (V1) - [EN] Qwen2.5-based model, adapted for russian text generation tasks. This is a base SFT version for further reasoning development and alignment. - [RU] Finetune версия Qwen2.5, адаптированная для генерации русского текста. Является SFT базой для дальнейших ризонинг-оптимизаций с GRPO и алайнмента. ### Huge thanks to mradermacher for converting all models to GGUF format! The further conversions/upgrade are much appreciated and welcomed, feel free to join. [https://huggingface.co/mradermacher/Watari-7b-v0-GGUF] [https://huggingface.co/mradermacher/Watari-7b-v0.5-GGUF] [https://huggingface.co/mradermacher/Watari-7b-v1-GGUF] - **Repo id:** mradermacher/Watari-7b-v0-GGUF - **Repo id:** mradermacher/Watari-7b-v0.5-GGUF - **Repo id:** mradermacher/Watari-7b-v1-GGUF ### Previous model states (considering epoch %): - Watari-7b-v0 - Watari-7b-v0.5 ## Model Details / Детализация модели - [EN] Full supervised finetuning was performed on 2xA100 NVIDIA GPUs for ~7 days for 1 epoch on dataset: GrandMaster [Vikhrmodels/GrandMaster-PRO-MAX] - [RU] Полный SFT цикл (bfloat16, без низкоранговых адаптеров LoRa) был выполнен на двух NVIDIA A100, обучение длилось около 7 дней. Прогон полной эпохи датасета GrandMaster [Vikhrmodels/GrandMaster-PRO-MAX] ### Model Description / Описание модели - **Developed by:** [Reisen Raumberg (Attention Signs team)] - **Language(s) (NLP):** [RU/EN] - **Finetuned from model:** [Qwen2.5] Utilized DeepSpeed (Stage 3), HF.Accelerator for distributed training and fused AdamW. **GPU hours**: 336h of NVIDIA A100 Для обучения использовались HuggingFace Accelerator с Microsoft DeepSpeed (Stage 3) для распределения параметров и стейта оптимизатора, а так же зафьюженный AdamW **GPU часы**: 336 часов NVIDIA A100 ### Using the model / Как запустить? ```python from transformers import AutoTokenizer, AutoModelForCausalLM repo = 'attn-signs/Watari-7b-v1' model = AutoModelForCausalLM.from_pretrained(repo) tokenizer = AutoTokenizer.from_pretrained(repo) model.to('cuda') prompt = 'Что такое тензор Риччи?' messages = [ {"role": "system", "content": "Ты Ватари, ассистент и помощник в решении различных задач. Отвечай на вопросы пользователя, рассуждая."}, {"role": "user", "content": prompt} ] text = tokenizer.apply_chat_template( messages, tokenize=False, add_generation_prompt=True ) model_inputs = tokenizer([text], return_tensors="pt").to(model.device) generated_ids = model.generate( **model_inputs, max_new_tokens=1024 ) generated_ids = [ output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids) ] response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0] print(response) ``` ``` Тензор Риччи — это тензорная величина в дифференциальной геометрии, которая описывает кривизну многообразия. Он играет важную роль в общей теории относительности и других областях математики. В общем виде тензор Риччи \( R_{ij} \) определяется через тензор Римана \( R^k_{ijkj} \) следующим образом: \[ R_{ij} = R^k_{ijkj} \] Это уравнение показывает, что тензор Риччи является суммированием по индексу \( k \) компонент тензора Римана, которые соответствуют компонентам метрического тензора \( g_{ij} \). Таким образом, тензор Риччи учитывает информацию о кривизне во всех направлениях в каждой точке многообразия. Тензор Риччи также связан с скалярной кривизной \( R \), которая получается путем дальнейшего суммирования: \[ R = g^{ij}R_{ij} \] Скалярная кривизна является мерой того, насколько многообразие отличается от плоского (плоское многообразие имеет скалярную кривизну равную нулю). В контексте общей теории относительности, тензор Риччи связывает массу и энергию (описываемые тензором энергии-импульса) с геометрией пространства-времени (описываемой метрикой). Это выражается уравнением Эйнштейна: \[ G_{ij} = 8\pi T_{ij} \] где \( G_{ij} \) — тензор Эйнштейна, который является тензором Риччи, уменьшенным на константу, а \( T_{ij} \) — тензор энергии-импульса. Таким образом, тензор Риччи является ключевым понятием в изучении геометрии многообразий и их взаимодействия с материей и энергией. ``` ### Benchmarks: **MERA**: - **Overall: 0.423 (TOP 30 RU LLMs)** - LCS: 0.044 Accuracy - RCB: 0.484 / 0.401 Avg. F1 / Accuracy - USE: 0.16 Grade Norm - RWSD: 0.592 Accuracy - PARus: 0.774 Accuracy - ruTiE: 0.572 Accuracy - MultiQ: 0.298 / 0.17 F1-score/EM - CheGeKa: 0.11 / 0.084 F1 / EM - ruModAr: 0.441 EM - MaMuRAMu: 0.649 Accuracy - ruMultiAr: 0.219 EM - ruCodeEval: 0.001 / 0.005 / 0.006 pass@k - MathLogicQA: 0.455 Accuracy - ruWorldTree: 0.876 / 0.876 Avg. F1 / Accuracy - ruOpenBookQA: 0.788 / 0.787 Avg. F1 / Accuracy **RU Arena General** - **Overall: 69.49** ### LLM was trained using: https://github.com/Raumberg/myllm