|
--- |
|
license: cc-by-nc-4.0 |
|
language: |
|
- hu |
|
base_model: |
|
- SWivid/F5-TTS |
|
--- |
|
2025.01.27. |
|
v5 modell egy tisztított hangadatbázisra építve újra finomhangoltam a modellt.. |
|
|
|
V5 teszt: |
|
Petőfi Sándor: Anyám tyúkja |
|
<audio controls> |
|
<source src="https://huggingface.co/sarpba/F5-TTS-Hun/resolve/main/hun_v5/ej_mi_a_k%C5%91_v5_seed_555_speed_1.5.wav" type="audio/wav"> |
|
Your browser does not support the audio element. |
|
</audio> |
|
|
|
Az alap minta amivel generáltam, mint látszik, nem magyar nyelvű (Word of Warcraft - Male Orc): |
|
ref_text (fonetikusan megadva): "fókosz sztratedzsi vájlensz" |
|
<audio controls> |
|
<source src="https://huggingface.co/sarpba/F5-TTS-Hun/resolve/main/hun_v5/VO_92_Proto_Primus_09_M.ogg" type="audio/ogg"> |
|
Your browser does not support the audio element. |
|
</audio> |
|
|
|
V5+ teszt: |
|
Petőfi Sándor: A puszta, télen |
|
<audio controls> |
|
<source src="https://huggingface.co/sarpba/F5-TTS-Hun/resolve/main/hun_v5/A%20puszta%20t%C3%A9len.wav" type="audio/wav"> |
|
Your browser does not support the audio element. |
|
</audio> |
|
|
|
|
|
Update: |
|
v4 és v5 esetében szükséges használni a hozzájuk tartozó vocab filet is, anélkül csak haladzsát kapsz... |
|
|
|
Írtam egy kis scriptet, amivel könyebb futtatni a finetuningolt egyedi vocab fileal rendelkező modelleket. A script tömeges filefeldolgozásra készült és tartalmaz egy normalizáló réteget ami kijavítja a modell hibáinak egy jó részét a bemeneti szöveg igazításával. Kimondja a számokat, kicseréli az előzetesen a csv fileokban megadott szavakat a fonetikus változatára. |
|
https://github.com/sarpba/F5-TTS_scripts |
|
|
|
Tippek a használathoz: |
|
- A referencia hang maximum 15 sec legyen, inkább rövidebb, de semmiképp sem hoszabb. A hoszabb referencia hang torzulásokat okoz a generálás közben. Már pár másodperc is elegendő, hogy a modell felvegye a referencia hangtónusát. A hoszabb hang a beszéd ritmkájának az átvételében segít. |
|
- A "berregő" hangok elkerülése végett a referencia audió elején legyen 0,5-1 sec közti csendes szakasz. |
|
- Ha az első szót/szavakat nem ejti ki a modell akkor próbáj meg a gen_text elejére "..." tenni |
|
- ha hoszab szünetet akasz a generált szövegben, többnyire egy "," vagy "..." segít kialakítani a hoszabb csendes szakaszt |