File size: 3,758 Bytes
c2d8e8d 4a90b18 c2d8e8d 4a90b18 c2d8e8d 4a90b18 c2d8e8d 4a90b18 c2d8e8d 4a90b18 c2d8e8d 4a90b18 c2d8e8d 4a90b18 c2d8e8d 4a90b18 c2d8e8d 4a90b18 c2d8e8d 4a90b18 c2d8e8d 4a90b18 c2d8e8d 4a90b18 c2d8e8d 4a90b18 c2d8e8d 4a90b18 c2d8e8d 4a90b18 c2d8e8d 4a90b18 c2d8e8d 4a90b18 c2d8e8d 4a90b18 c2d8e8d |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 |
### English Version 🇬🇧
---
#### **Model Performance Overview**
**Metrics**:
- **PESQ@200**: Perceptual Evaluation of Speech Quality (higher = better).
- **STOI@200**: Short-Time Objective Intelligibility (closer to 1 = better).
- **SI-SDR@200**: Scale-Invariant Signal-to-Distortion Ratio (higher = better).
- **SIM-O@200**: Similarity to ground truth (higher = better).
| Model | PESQ@200 | STOI@200 | SI-SDR@200 | SIM-O@200 |
|---------------------------|----------------|---------------|-------------------|----------------|
| Original (LibriSpeech) | 4.15 | 0.997 | 27.45 ±1.09 | — |
| Parler TTS Mini v1 | 1.29 ±0.49 | 0.15 ±0.12 | 25.0 ±2.9 | 0.88 ±0.03 |
| Fish Speech 1.5 | 1.26 ±0.38 | 0.17 ±0.12 | 25.0 ±3.2 | 0.91 ±0.02 |
| **Salt-ASR Wav-Uni 1-12k ** | **1.27 ±0.40** | 0.18 ±0.09 | 20.3 ±3.69 | 0.88 ±0.02 |
---
#### **Our Solution**
- **Method**: Extends a pre-trained LLM with audio tokens and fine-tunes on **TTS** and **ASR** tasks.
- **Training**:
- SpeechTokenizer (semantic + audio tokens) outperformed Encodec (loss explosions resolved with TF32 precision).
- Training time: **150 A100 GPU hours**.
- **Advantages**: Unified LM loss for dual tasks, minimal training overhead.
---
#### **Resources**
- Code: [GitHub Repo](https://github.com/VikhrModels/Vikhr4o)
- Inference Demo: [Google Colab](https://colab.research.google.com/drive/1Poz6jNJu7-HRIkRkPVTzEqjJ2qKn4eUt)
- Reference Papers: [Vitta](https://arxiv.org/pdf/2408.05211), [Valle](https://github.com/lifeiteng/vall-e)
---
### Русская Версия 🇷🇺
---
#### **Сравнение моделей**
**Метрики**:
- **PESQ@200**: Качество речи (чем выше, тем лучше).
- **STOI@200**: Разборчивость речи (ближе к 1 = лучше).
- **SI-SDR@200**: Соотношение сигнал-шум (выше = лучше).
- **SIM-O@200**: Сходство с эталоном (выше = лучше).
| Модель | PESQ@200 | STOI@200 | SI-SDR@200 | SIM-O@200 |
|--------------------------|----------------|---------------|-------------------|----------------|
| Original (LibriSpeech) | 4.15 | 0.997 | 27.45 ±1.09 | — |
| Parler TTS Mini v1 | 1.25 ±0.49 | 0.15 ±0.12 | 25.0 ±2.9 | 0.88 ±0.03 |
| Fish Speech 1.5 | 1.26 ±0.38 | 0.17 ±0.12 | 25.0 ±3.2 | 0.91 ±0.02 |
| **Salt-ASR Wav-Uni 1-12k ** | **1.27 ±0.40** | 0.18 ±0.09 | 20.3 ±3.69 | 0.88 ±0.02 |
---
#### **Наше решение**
- **Метод**: Расширение словаря LLM аудиотокенами + дообучение на **TTS** и **ASR**.
- **Обучение**:
- SpeechTokenizer (семитические + аудиотокены) показал лучшие результаты, чем Encodec.
- Время обучения: **150 часов на A100**.
- **Преимущества**: Единая функция потерь для двух задач, минимальные затраты.
---
#### **Ресурсы**
- Код: [GitHub](https://github.com/VikhrModels/Vikhr4o)
- Демо: [Google Colab](https://colab.research.google.com/drive/1Poz6jNJu7-HRIkRkPVTzEqjJ2qKn4eUt)
---
**Примечание**: Модель поддерживает генерацию коротких фраз на английском, немецком и французском. |