Este repositório contém um modelo de TTS (Text-to-Speech) treinado no modelo F5TTS, com foco em vozes brasileiras multilocutor.
📦 Dados utilizados
O treinamento utilizou uma combinação de datasets públicos e privados, totalizando:
⏱️ Total em horas: 390.78h
📄 Total de registros: 159,348 samples
📂 Dataset público: multispeaker-tts-ptbr
🚀 Treinamento
☁️ Cloud: Runpod
🛠️ Fases do treino:
~30h: segmentação e transição
~24h com GPU A40
~30h com GPU A4000
💸 Custo estimado: $50 USD
🔊 Samples de áudio
🎙️ Voz única (locutor único): single
👥 Múltiplas vozes (multilocutor): multi
⚠️ Aviso
Este projeto foi desenvolvido com fins educacionais e de pesquisa.
Não me responsabilizo pelo uso indevido ou aplicações comerciais sem o devido licenciamento.
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support
Model tree for Tharyck/audios-multispeaker-refine
Base model
SWivid/F5-TTS