AlexWortega's picture
Update README.md
c2d8e8d verified
### English Version 🇬🇧
---
#### **Model Performance Overview**
**Metrics**:
- **PESQ@200**: Perceptual Evaluation of Speech Quality (higher = better).
- **STOI@200**: Short-Time Objective Intelligibility (closer to 1 = better).
- **SI-SDR@200**: Scale-Invariant Signal-to-Distortion Ratio (higher = better).
- **SIM-O@200**: Similarity to ground truth (higher = better).
| Model | PESQ@200 | STOI@200 | SI-SDR@200 | SIM-O@200 |
|---------------------------|----------------|---------------|-------------------|----------------|
| Original (LibriSpeech) | 4.15 | 0.997 | 27.45 ±1.09 | — |
| Parler TTS Mini v1 | 1.29 ±0.49 | 0.15 ±0.12 | 25.0 ±2.9 | 0.88 ±0.03 |
| Fish Speech 1.5 | 1.26 ±0.38 | 0.17 ±0.12 | 25.0 ±3.2 | 0.91 ±0.02 |
| **Salt-ASR Wav-Uni 1-12k ** | **1.27 ±0.40** | 0.18 ±0.09 | 20.3 ±3.69 | 0.88 ±0.02 |
---
#### **Our Solution**
- **Method**: Extends a pre-trained LLM with audio tokens and fine-tunes on **TTS** and **ASR** tasks.
- **Training**:
- SpeechTokenizer (semantic + audio tokens) outperformed Encodec (loss explosions resolved with TF32 precision).
- Training time: **150 A100 GPU hours**.
- **Advantages**: Unified LM loss for dual tasks, minimal training overhead.
---
#### **Resources**
- Code: [GitHub Repo](https://github.com/VikhrModels/Vikhr4o)
- Inference Demo: [Google Colab](https://colab.research.google.com/drive/1Poz6jNJu7-HRIkRkPVTzEqjJ2qKn4eUt)
- Reference Papers: [Vitta](https://arxiv.org/pdf/2408.05211), [Valle](https://github.com/lifeiteng/vall-e)
---
### Русская Версия 🇷🇺
---
#### **Сравнение моделей**
**Метрики**:
- **PESQ@200**: Качество речи (чем выше, тем лучше).
- **STOI@200**: Разборчивость речи (ближе к 1 = лучше).
- **SI-SDR@200**: Соотношение сигнал-шум (выше = лучше).
- **SIM-O@200**: Сходство с эталоном (выше = лучше).
| Модель | PESQ@200 | STOI@200 | SI-SDR@200 | SIM-O@200 |
|--------------------------|----------------|---------------|-------------------|----------------|
| Original (LibriSpeech) | 4.15 | 0.997 | 27.45 ±1.09 | — |
| Parler TTS Mini v1 | 1.25 ±0.49 | 0.15 ±0.12 | 25.0 ±2.9 | 0.88 ±0.03 |
| Fish Speech 1.5 | 1.26 ±0.38 | 0.17 ±0.12 | 25.0 ±3.2 | 0.91 ±0.02 |
| **Salt-ASR Wav-Uni 1-12k ** | **1.27 ±0.40** | 0.18 ±0.09 | 20.3 ±3.69 | 0.88 ±0.02 |
---
#### **Наше решение**
- **Метод**: Расширение словаря LLM аудиотокенами + дообучение на **TTS** и **ASR**.
- **Обучение**:
- SpeechTokenizer (семитические + аудиотокены) показал лучшие результаты, чем Encodec.
- Время обучения: **150 часов на A100**.
- **Преимущества**: Единая функция потерь для двух задач, минимальные затраты.
---
#### **Ресурсы**
- Код: [GitHub](https://github.com/VikhrModels/Vikhr4o)
- Демо: [Google Colab](https://colab.research.google.com/drive/1Poz6jNJu7-HRIkRkPVTzEqjJ2qKn4eUt)
---
**Примечание**: Модель поддерживает генерацию коротких фраз на английском, немецком и французском.