### English Version 🇬🇧 --- #### **Model Performance Overview** **Metrics**: - **PESQ@200**: Perceptual Evaluation of Speech Quality (higher = better). - **STOI@200**: Short-Time Objective Intelligibility (closer to 1 = better). - **SI-SDR@200**: Scale-Invariant Signal-to-Distortion Ratio (higher = better). - **SIM-O@200**: Similarity to ground truth (higher = better). | Model | PESQ@200 | STOI@200 | SI-SDR@200 | SIM-O@200 | |---------------------------|----------------|---------------|-------------------|----------------| | Original (LibriSpeech) | 4.15 | 0.997 | 27.45 ±1.09 | — | | Parler TTS Mini v1 | 1.29 ±0.49 | 0.15 ±0.12 | 25.0 ±2.9 | 0.88 ±0.03 | | Fish Speech 1.5 | 1.26 ±0.38 | 0.17 ±0.12 | 25.0 ±3.2 | 0.91 ±0.02 | | **Salt-ASR Wav-Uni 1-12k ** | **1.27 ±0.40** | 0.18 ±0.09 | 20.3 ±3.69 | 0.88 ±0.02 | --- #### **Our Solution** - **Method**: Extends a pre-trained LLM with audio tokens and fine-tunes on **TTS** and **ASR** tasks. - **Training**: - SpeechTokenizer (semantic + audio tokens) outperformed Encodec (loss explosions resolved with TF32 precision). - Training time: **150 A100 GPU hours**. - **Advantages**: Unified LM loss for dual tasks, minimal training overhead. --- #### **Resources** - Code: [GitHub Repo](https://github.com/VikhrModels/Vikhr4o) - Inference Demo: [Google Colab](https://colab.research.google.com/drive/1Poz6jNJu7-HRIkRkPVTzEqjJ2qKn4eUt) - Reference Papers: [Vitta](https://arxiv.org/pdf/2408.05211), [Valle](https://github.com/lifeiteng/vall-e) --- ### Русская Версия 🇷🇺 --- #### **Сравнение моделей** **Метрики**: - **PESQ@200**: Качество речи (чем выше, тем лучше). - **STOI@200**: Разборчивость речи (ближе к 1 = лучше). - **SI-SDR@200**: Соотношение сигнал-шум (выше = лучше). - **SIM-O@200**: Сходство с эталоном (выше = лучше). | Модель | PESQ@200 | STOI@200 | SI-SDR@200 | SIM-O@200 | |--------------------------|----------------|---------------|-------------------|----------------| | Original (LibriSpeech) | 4.15 | 0.997 | 27.45 ±1.09 | — | | Parler TTS Mini v1 | 1.25 ±0.49 | 0.15 ±0.12 | 25.0 ±2.9 | 0.88 ±0.03 | | Fish Speech 1.5 | 1.26 ±0.38 | 0.17 ±0.12 | 25.0 ±3.2 | 0.91 ±0.02 | | **Salt-ASR Wav-Uni 1-12k ** | **1.27 ±0.40** | 0.18 ±0.09 | 20.3 ±3.69 | 0.88 ±0.02 | --- #### **Наше решение** - **Метод**: Расширение словаря LLM аудиотокенами + дообучение на **TTS** и **ASR**. - **Обучение**: - SpeechTokenizer (семитические + аудиотокены) показал лучшие результаты, чем Encodec. - Время обучения: **150 часов на A100**. - **Преимущества**: Единая функция потерь для двух задач, минимальные затраты. --- #### **Ресурсы** - Код: [GitHub](https://github.com/VikhrModels/Vikhr4o) - Демо: [Google Colab](https://colab.research.google.com/drive/1Poz6jNJu7-HRIkRkPVTzEqjJ2qKn4eUt) --- **Примечание**: Модель поддерживает генерацию коротких фраз на английском, немецком и французском.