File size: 6,485 Bytes
3c77f35 f6d36d4 3c77f35 41b2577 3c77f35 0b52b2f 3c77f35 0b52b2f b32b4dc ff8e41a b32b4dc 3c77f35 0b52b2f 3c77f35 0b52b2f 3c77f35 0b52b2f 3c77f35 0b52b2f 3c77f35 0b52b2f 3c77f35 0b52b2f 3c77f35 0b52b2f 3c77f35 0b52b2f 3c77f35 0b52b2f 3c77f35 0b52b2f 3c77f35 0b52b2f 3c77f35 fa2763f 0b52b2f 3c77f35 0b52b2f 3c77f35 0b52b2f 3c77f35 0b52b2f 3c77f35 0b52b2f 3c77f35 0b52b2f 3c77f35 0b52b2f 3c77f35 0b52b2f 3c77f35 0b52b2f 3c77f35 0b52b2f 3c77f35 0b52b2f 3c77f35 0b52b2f 3c77f35 0b52b2f 3c77f35 0b52b2f 3c77f35 0b52b2f 59e1a58 af21153 59e1a58 79496da af21153 79496da |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 |
---
library_name: transformers
license: apache-2.0
datasets:
- Vikhrmodels/GrandMaster-PRO-MAX
language:
- ru
base_model:
- t-tech/T-lite-it-1.0
---
# Watari 7B (V1)
- [EN]
Qwen2.5-based model, adapted for russian text generation tasks.
This is a base SFT version for further reasoning development and alignment.
- [RU]
Finetune версия Qwen2.5, адаптированная для генерации русского текста.
Является SFT базой для дальнейших ризонинг-оптимизаций с GRPO и алайнмента.
### Huge thanks to mradermacher for converting all models to GGUF format!
The further conversions/upgrade are much appreciated and welcomed, feel free to join.
[https://huggingface.co/mradermacher/Watari-7b-v0-GGUF]
[https://huggingface.co/mradermacher/Watari-7b-v0.5-GGUF]
[https://huggingface.co/mradermacher/Watari-7b-v1-GGUF]
- **Repo id:** mradermacher/Watari-7b-v0-GGUF
- **Repo id:** mradermacher/Watari-7b-v0.5-GGUF
- **Repo id:** mradermacher/Watari-7b-v1-GGUF
### Previous model states (considering epoch %):
- Watari-7b-v0
- Watari-7b-v0.5
## Model Details / Детализация модели
- [EN]
Full supervised finetuning was performed on 2xA100 NVIDIA GPUs for ~7 days for 1 epoch on dataset:
GrandMaster [Vikhrmodels/GrandMaster-PRO-MAX]
- [RU]
Полный SFT цикл (bfloat16, без низкоранговых адаптеров LoRa) был выполнен на двух NVIDIA A100, обучение длилось около 7 дней.
Прогон полной эпохи датасета GrandMaster [Vikhrmodels/GrandMaster-PRO-MAX]
### Model Description / Описание модели
- **Developed by:** [Reisen Raumberg (Attention Signs team)]
- **Language(s) (NLP):** [RU/EN]
- **Finetuned from model:** [Qwen2.5]
Utilized DeepSpeed (Stage 3), HF.Accelerator for distributed training and fused AdamW.
**GPU hours**: 336h of NVIDIA A100
Для обучения использовались HuggingFace Accelerator с Microsoft DeepSpeed (Stage 3) для распределения параметров и стейта оптимизатора, а так же зафьюженный AdamW
**GPU часы**: 336 часов NVIDIA A100
### Using the model / Как запустить?
```python
from transformers import AutoTokenizer, AutoModelForCausalLM
repo = 'attn-signs/Watari-7b-v1'
model = AutoModelForCausalLM.from_pretrained(repo)
tokenizer = AutoTokenizer.from_pretrained(repo)
model.to('cuda')
prompt = 'Что такое тензор Риччи?'
messages = [
{"role": "system", "content": "Ты Ватари, ассистент и помощник в решении различных задач. Отвечай на вопросы пользователя, рассуждая."},
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=1024
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)
```
```
Тензор Риччи — это тензорная величина в дифференциальной геометрии, которая описывает кривизну многообразия. Он играет важную роль в общей теории относительности и других областях математики.
В общем виде тензор Риччи \( R_{ij} \) определяется через тензор Римана \( R^k_{ijkj} \) следующим образом:
\[ R_{ij} = R^k_{ijkj} \]
Это уравнение показывает, что тензор Риччи является суммированием по индексу \( k \) компонент тензора Римана, которые соответствуют компонентам метрического тензора \( g_{ij} \). Таким образом, тензор Риччи учитывает информацию о кривизне во всех направлениях в каждой точке многообразия.
Тензор Риччи также связан с скалярной кривизной \( R \), которая получается путем дальнейшего суммирования:
\[ R = g^{ij}R_{ij} \]
Скалярная кривизна является мерой того, насколько многообразие отличается от плоского (плоское многообразие имеет скалярную кривизну равную нулю).
В контексте общей теории относительности, тензор Риччи связывает массу и энергию (описываемые тензором энергии-импульса) с геометрией пространства-времени (описываемой метрикой). Это выражается уравнением Эйнштейна:
\[ G_{ij} = 8\pi T_{ij} \]
где \( G_{ij} \) — тензор Эйнштейна, который является тензором Риччи, уменьшенным на константу, а \( T_{ij} \) — тензор энергии-импульса.
Таким образом, тензор Риччи является ключевым понятием в изучении геометрии многообразий и их взаимодействия с материей и энергией.
```
### Benchmarks:
**MERA**:
- **Overall: 0.423 (TOP 30 RU LLMs)**
- LCS: 0.044 Accuracy
- RCB: 0.484 / 0.401 Avg. F1 / Accuracy
- USE: 0.16 Grade Norm
- RWSD: 0.592 Accuracy
- PARus: 0.774 Accuracy
- ruTiE: 0.572 Accuracy
- MultiQ: 0.298 / 0.17 F1-score/EM
- CheGeKa: 0.11 / 0.084 F1 / EM
- ruModAr: 0.441 EM
- MaMuRAMu: 0.649 Accuracy
- ruMultiAr: 0.219 EM
- ruCodeEval: 0.001 / 0.005 / 0.006 pass@k
- MathLogicQA: 0.455 Accuracy
- ruWorldTree: 0.876 / 0.876 Avg. F1 / Accuracy
- ruOpenBookQA: 0.788 / 0.787 Avg. F1 / Accuracy
**RU Arena General**
- **Overall: 69.49**
### LLM was trained using:
https://github.com/Raumberg/myllm |