Text-to-Speech
Turkish
audio
tts
turkish

Missing key(s) in state_dict: "ema_model.mel_spec.mel_stft.spectrogram.window", "ema_model.mel_spec.mel_stft.mel_scale.fb".

#14
by emircanerkul - opened

Selamlar, öncelikle teşekkürler, türk camiaya katkılarınızdan dolayı, malum her gelen model tüm dilleri desteklesede oyunlarda olduğu gibi bi türkçe yok :)

Sizin model garip bir şekilde 1200000 değil, 1m liği indirip model klasörüne attım kodda iki kısımda 1.2m olan yerleri 1m şeklinde değiştirdim. Vocab dosyasının da üzerine yazdım fakat şu hatayı almaktayım.

Missing key(s) in state_dict: "ema_model.mel_spec.mel_stft.spectrogram.window", "ema_model.mel_spec.mel_stft.mel_scale.fb".

https://github.com/AIFSH/F5-TTS-ComfyUI

Kullanıyorum, model ve kod ile oynamadan önce çalışıyordu fakat nedense sizin model buna uymadı. Acaba nereyi atlamış olabilirim?

Teşekkürler,

https://github.com/niknah/ComfyUI-F5-TTS/tree/main

kullanarak kurabildim ses karakteri klonlaması harika f5'in.

Fakat şöyle ki örneğin

bugün hava çok güzel ve güneşli. tömer’in öğrencileri
çubuk barajı’na pikniğe gidiyorlar. okuldan bir otobüse biniyorlar.
pikniğe 30 öğrenci ve 8 öğretmen gidiyor. orada yemek için
meyveler, peynir, ekmek ve salam alıyorlar. bir öğrencinin teybi
ve güzel kasetleri var. bazı öğrencilerin de topları var. otobüs saat
11’de kalkıyor ve 20 dakikada baraja gidiyor. orada tahta masalar ve
sıralar var. öğrenciler ve öğretmenler masalarda oturuyorlar, yemek
yiyorlar, müzik dinliyorlar ve konuşuyorlar. biraz da çalışıyorlar,
çünkü yarın onların türkçe sınavları var. onlar çok çalışıyorlar,
çünkü çabuk türkçe öğrenmek istiyorlar.
otobüs saat dörtte geliyor ve hepsi okula dönüyorlar. güzel
bir gün… ama şimdi yorgundurlar. artık dinlenmek istiyorla

bunu okuduğunda, ses dosyasını ekliyorum (telifi bana aittir kullanıma kapalıdır) bazı kısımlarda vızırtı oluyor ve epey azeri/kıbrıs türkçesi var.

Nasıl iyileştirebilirim, bu arada sadece 2sn Merhaba ses örneği ile ve lowercase olarak oluşturdum.

ek olarak biraz konu dışı fakat https://huggingface.co/fudan-generative-ai/hallo3 bunun türkçe modelini yapabilirmisiniz, tabii dataset videolardan oluşması gerektiği için daha zor olsa gerek.

Yukaridaki paylastigin örnekte her 30 saniyede bir cizirti sesi geliyor, Bunun anlamini tahmin edersin. Her iki batch birlestiriliken cross fading degeri yüksek. bunu 0 a ceksen bu cizirti mantik olarak yok olmali.

Suan vakit buldukca yeni bir model üzerinde calisiyorum. Simdiye kadar dataset olusturmak icin gereken speeker diarization bölümünü tamamen bitirdim. Tüm kodlamayi birebilmem icin toplamda yaklasik 40 saat kadar daha kodlamaya ihtiyaci var. Ayrica dataset transcription icin en kaliteli modeli kullanacagim. Kisaca tüm kodlama bittikten sonra birkac hafta dataset olusturma ve 1 hafta da training icin zaman gerekecek. Eger vaktiniz varsa yeni modeli bekleyebilirsiniz.

@marduk-ra hmm tamamdır, ilk başta da cızırtı olduğu için cross fade ile ilişkilendirmemiştim. Teşekkürler çalışmalarınız için. Bu modelde gayet kullanılabilir düzeyde fakat yeni modelinizi sabırla bekliyor olacağım.

This comment has been hidden
This comment has been hidden

Tamamdır örnek sesi mozillanın içerisinden alacağım çok mantıklı geldi, en usule uygun o olsa gerek, random dosyalara bakarken şununla karşılaştım

cidden çok profesyonel bir datasetiymiş :D

Veri setinin tümünü kullanmak yerine verisetini bir başka model ile sınıflandırıp formal/informal/bad gibi o şekilde ayrı ayrı eğitilerek çok daha fazla iyileştirilebilir, gerçi siz bunu yıllar önceden düşünmüşsünüzdür.

Mozillanın içerisinden güzel örnek ses bularak çok kaliteli sonuç elde ettim fakat "türk lirası" seslendirmesi hep "türk liras" olarak kesiliyor, fakat iki tane ı koyunca güzel söylüyor. Acaba eğitim ile ilgili olabilir mi?

Sign up or log in to comment