|
### English Version 🇬🇧 |
|
|
|
--- |
|
|
|
#### **Model Performance Overview** |
|
**Metrics**: |
|
- **PESQ@200**: Perceptual Evaluation of Speech Quality (higher = better). |
|
- **STOI@200**: Short-Time Objective Intelligibility (closer to 1 = better). |
|
- **SI-SDR@200**: Scale-Invariant Signal-to-Distortion Ratio (higher = better). |
|
- **SIM-O@200**: Similarity to ground truth (higher = better). |
|
|
|
| Model | PESQ@200 | STOI@200 | SI-SDR@200 | SIM-O@200 | |
|
|---------------------------|----------------|---------------|-------------------|----------------| |
|
| Original (LibriSpeech) | 4.15 | 0.997 | 27.45 ±1.09 | — | |
|
| Parler TTS Mini v1 | 1.29 ±0.49 | 0.15 ±0.12 | 25.0 ±2.9 | 0.88 ±0.03 | |
|
| Fish Speech 1.5 | 1.26 ±0.38 | 0.17 ±0.12 | 25.0 ±3.2 | 0.91 ±0.02 | |
|
| **Salt-ASR Wav-Uni 1-12k ** | **1.27 ±0.40** | 0.18 ±0.09 | 20.3 ±3.69 | 0.88 ±0.02 | |
|
|
|
--- |
|
|
|
#### **Our Solution** |
|
- **Method**: Extends a pre-trained LLM with audio tokens and fine-tunes on **TTS** and **ASR** tasks. |
|
- **Training**: |
|
- SpeechTokenizer (semantic + audio tokens) outperformed Encodec (loss explosions resolved with TF32 precision). |
|
- Training time: **150 A100 GPU hours**. |
|
- **Advantages**: Unified LM loss for dual tasks, minimal training overhead. |
|
|
|
|
|
--- |
|
|
|
#### **Resources** |
|
- Code: [GitHub Repo](https://github.com/VikhrModels/Vikhr4o) |
|
- Inference Demo: [Google Colab](https://colab.research.google.com/drive/1Poz6jNJu7-HRIkRkPVTzEqjJ2qKn4eUt) |
|
- Reference Papers: [Vitta](https://arxiv.org/pdf/2408.05211), [Valle](https://github.com/lifeiteng/vall-e) |
|
|
|
--- |
|
|
|
### Русская Версия 🇷🇺 |
|
|
|
--- |
|
|
|
#### **Сравнение моделей** |
|
**Метрики**: |
|
- **PESQ@200**: Качество речи (чем выше, тем лучше). |
|
- **STOI@200**: Разборчивость речи (ближе к 1 = лучше). |
|
- **SI-SDR@200**: Соотношение сигнал-шум (выше = лучше). |
|
- **SIM-O@200**: Сходство с эталоном (выше = лучше). |
|
|
|
| Модель | PESQ@200 | STOI@200 | SI-SDR@200 | SIM-O@200 | |
|
|--------------------------|----------------|---------------|-------------------|----------------| |
|
| Original (LibriSpeech) | 4.15 | 0.997 | 27.45 ±1.09 | — | |
|
| Parler TTS Mini v1 | 1.25 ±0.49 | 0.15 ±0.12 | 25.0 ±2.9 | 0.88 ±0.03 | |
|
| Fish Speech 1.5 | 1.26 ±0.38 | 0.17 ±0.12 | 25.0 ±3.2 | 0.91 ±0.02 | |
|
| **Salt-ASR Wav-Uni 1-12k ** | **1.27 ±0.40** | 0.18 ±0.09 | 20.3 ±3.69 | 0.88 ±0.02 | |
|
|
|
--- |
|
|
|
#### **Наше решение** |
|
- **Метод**: Расширение словаря LLM аудиотокенами + дообучение на **TTS** и **ASR**. |
|
- **Обучение**: |
|
- SpeechTokenizer (семитические + аудиотокены) показал лучшие результаты, чем Encodec. |
|
- Время обучения: **150 часов на A100**. |
|
- **Преимущества**: Единая функция потерь для двух задач, минимальные затраты. |
|
|
|
|
|
--- |
|
|
|
#### **Ресурсы** |
|
- Код: [GitHub](https://github.com/VikhrModels/Vikhr4o) |
|
- Демо: [Google Colab](https://colab.research.google.com/drive/1Poz6jNJu7-HRIkRkPVTzEqjJ2qKn4eUt) |
|
|
|
--- |
|
|
|
**Примечание**: Модель поддерживает генерацию коротких фраз на английском, немецком и французском. |