File size: 6,485 Bytes
3c77f35
 
f6d36d4
 
 
 
 
 
 
3c77f35
 
41b2577
3c77f35
0b52b2f
 
 
 
 
 
3c77f35
0b52b2f
 
 
 
b32b4dc
ff8e41a
 
b32b4dc
3c77f35
0b52b2f
 
 
3c77f35
0b52b2f
 
 
 
 
 
 
3c77f35
0b52b2f
3c77f35
0b52b2f
 
 
3c77f35
0b52b2f
 
3c77f35
0b52b2f
 
3c77f35
0b52b2f
3c77f35
0b52b2f
 
3c77f35
0b52b2f
3c77f35
0b52b2f
 
3c77f35
0b52b2f
3c77f35
fa2763f
0b52b2f
 
 
 
 
 
 
 
 
 
3c77f35
0b52b2f
 
 
 
 
 
 
3c77f35
0b52b2f
3c77f35
0b52b2f
 
3c77f35
0b52b2f
 
3c77f35
0b52b2f
3c77f35
0b52b2f
3c77f35
0b52b2f
3c77f35
0b52b2f
3c77f35
0b52b2f
3c77f35
0b52b2f
3c77f35
0b52b2f
3c77f35
0b52b2f
3c77f35
0b52b2f
3c77f35
0b52b2f
59e1a58
 
 
 
af21153
59e1a58
 
 
 
 
 
 
 
 
 
 
 
 
 
 
79496da
af21153
 
 
79496da
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
---
library_name: transformers
license: apache-2.0
datasets:
- Vikhrmodels/GrandMaster-PRO-MAX
language:
- ru
base_model:
- t-tech/T-lite-it-1.0
---

# Watari 7B (V1)

- [EN]  
Qwen2.5-based model, adapted for russian text generation tasks.  
This is a base SFT version for further reasoning development and alignment.  
- [RU]  
Finetune версия Qwen2.5, адаптированная для генерации русского текста.  
Является SFT базой для дальнейших ризонинг-оптимизаций с GRPO и алайнмента.

### Huge thanks to mradermacher for converting all models to GGUF format!
The further conversions/upgrade are much appreciated and welcomed, feel free to join.
[https://huggingface.co/mradermacher/Watari-7b-v0-GGUF]
[https://huggingface.co/mradermacher/Watari-7b-v0.5-GGUF]  
[https://huggingface.co/mradermacher/Watari-7b-v1-GGUF] 
- **Repo id:** mradermacher/Watari-7b-v0-GGUF
- **Repo id:** mradermacher/Watari-7b-v0.5-GGUF
- **Repo id:** mradermacher/Watari-7b-v1-GGUF

### Previous model states (considering epoch %):
- Watari-7b-v0
- Watari-7b-v0.5

## Model Details / Детализация модели
- [EN]  
Full supervised finetuning was performed on 2xA100 NVIDIA GPUs for ~7 days for 1 epoch on dataset:  
GrandMaster [Vikhrmodels/GrandMaster-PRO-MAX]
- [RU]  
Полный SFT цикл (bfloat16, без низкоранговых адаптеров LoRa) был выполнен на двух NVIDIA A100, обучение длилось около 7 дней.  
Прогон полной эпохи датасета GrandMaster [Vikhrmodels/GrandMaster-PRO-MAX]

### Model Description / Описание модели

- **Developed by:** [Reisen Raumberg (Attention Signs team)]
- **Language(s) (NLP):** [RU/EN]
- **Finetuned from model:** [Qwen2.5]

Utilized DeepSpeed (Stage 3), HF.Accelerator for distributed training and fused AdamW.  
**GPU hours**: 336h of NVIDIA A100

Для обучения использовались HuggingFace Accelerator с Microsoft DeepSpeed (Stage 3) для распределения параметров и стейта оптимизатора, а так же зафьюженный AdamW  
**GPU часы**: 336 часов NVIDIA A100

### Using the model / Как запустить?

```python
from transformers import AutoTokenizer, AutoModelForCausalLM

repo = 'attn-signs/Watari-7b-v1'

model = AutoModelForCausalLM.from_pretrained(repo)
tokenizer = AutoTokenizer.from_pretrained(repo)

model.to('cuda')

prompt = 'Что такое тензор Риччи?'
messages = [
    {"role": "system", "content": "Ты Ватари, ассистент и помощник в решении различных задач. Отвечай на вопросы пользователя, рассуждая."},
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=1024
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

print(response)
```

```
Тензор Риччи — это тензорная величина в дифференциальной геометрии, которая описывает кривизну многообразия. Он играет важную роль в общей теории относительности и других областях математики.

В общем виде тензор Риччи \( R_{ij} \) определяется через тензор Римана \( R^k_{ijkj} \) следующим образом:

\[ R_{ij} = R^k_{ijkj} \]

Это уравнение показывает, что тензор Риччи является суммированием по индексу \( k \) компонент тензора Римана, которые соответствуют компонентам метрического тензора \( g_{ij} \). Таким образом, тензор Риччи учитывает информацию о кривизне во всех направлениях в каждой точке многообразия.

Тензор Риччи также связан с скалярной кривизной \( R \), которая получается путем дальнейшего суммирования:

\[ R = g^{ij}R_{ij} \]

Скалярная кривизна является мерой того, насколько многообразие отличается от плоского (плоское многообразие имеет скалярную кривизну равную нулю).

В контексте общей теории относительности, тензор Риччи связывает массу и энергию (описываемые тензором энергии-импульса) с геометрией пространства-времени (описываемой метрикой). Это выражается уравнением Эйнштейна:

\[ G_{ij} = 8\pi T_{ij} \]

где \( G_{ij} \) — тензор Эйнштейна, который является тензором Риччи, уменьшенным на константу, а \( T_{ij} \) — тензор энергии-импульса.

Таким образом, тензор Риччи является ключевым понятием в изучении геометрии многообразий и их взаимодействия с материей и энергией.
```

### Benchmarks:
**MERA**:
- **Overall: 0.423 (TOP 30 RU LLMs)**
- LCS: 0.044	Accuracy
- RCB: 0.484 / 0.401	Avg. F1 / Accuracy
- USE: 0.16	Grade Norm
- RWSD: 0.592	Accuracy
- PARus: 0.774	Accuracy
- ruTiE: 0.572	Accuracy
- MultiQ: 0.298 / 0.17	F1-score/EM
- CheGeKa: 0.11 / 0.084	F1 / EM
- ruModAr: 0.441	EM
- MaMuRAMu: 0.649	Accuracy
- ruMultiAr: 0.219	EM
- ruCodeEval: 0.001 / 0.005 / 0.006	pass@k
- MathLogicQA: 0.455	Accuracy
- ruWorldTree: 0.876 / 0.876	Avg. F1 / Accuracy
- ruOpenBookQA: 0.788 / 0.787	Avg. F1 / Accuracy

**RU Arena General**
- **Overall: 69.49**

### LLM was trained using:
https://github.com/Raumberg/myllm