Este repositório contém um modelo de TTS (Text-to-Speech) treinado no modelo F5TTS, com foco em vozes brasileiras multilocutor.

📦 Dados utilizados

O treinamento utilizou uma combinação de datasets públicos e privados, totalizando:

⏱️ Total em horas: 390.78h

📄 Total de registros: 159,348 samples

📂 Dataset público: multispeaker-tts-ptbr

🚀 Treinamento

☁️ Cloud: Runpod

🛠️ Fases do treino:

    ~30h: segmentação e transição

    ~24h com GPU A40

    ~30h com GPU A4000

💸 Custo estimado: $50 USD

🔊 Samples de áudio

🎙️ Voz única (locutor único): single

👥 Múltiplas vozes (multilocutor): multi

⚠️ Aviso

Este projeto foi desenvolvido com fins educacionais e de pesquisa.
Não me responsabilizo pelo uso indevido ou aplicações comerciais sem o devido licenciamento.
Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for Tharyck/audios-multispeaker-refine

Base model

SWivid/F5-TTS
Finetuned
(39)
this model

Dataset used to train Tharyck/audios-multispeaker-refine