Review Model

#1
by Syams - opened

Sebelumnya, saya ucapkah terima kasih. Keren banget. Ini model Indonesian terbaik yang pernah saya unduh. Kalau boleh, saya mau menyampaikan beberapa review dan kritik. Semoga bisa jadi bahan evaluasi untuk lebih baik.

  1. Tidak membaca ordered number.
  2. Sebagian angka, terutama bilangan ratusan salah baca.
  3. Pindah paragraf terlalu cepet.

image.png

1, "Tajam" tidak dibaca.
2. "Cukup" dibaca "Kukup", harusnya CE bukan KA
3. "SPP" harusnya dibaca "Espepe" bukan "Espipi".

image.png

  1. Semua kotak hijau, ada tambahan kata yang tidak ada dalam teks. Entah awal paragraf, setelah titik ataupun koma.
  2. "nggak bisa tidur" tidak dibaca.
  3. "gede" kurang tepat cara bacanya. Harusnya pakai E Taling, bukan E Pepet.
  4. "Sampe" dibaca "Sempe".
  5. 20.000 dan 5.000 tidak dibaca dengan baik.
  6. "Iran" dibaca "Uran". Anehnya, di paragraf selanjutnya ketemu kata "Iran" lagi, tapi bacanya bener.
  7. "belok-belok" kesalahannya juga masih sama seperti nomer 3. Antara E Taling, dan E Pepet.

image.png

Bisa jadi bukan modelnya yang salah, tapi saya yang salah cara nulisnya. Mohon ada panduan terkait cara nulis ini, kalau bukan bug di model.

Teks yang sama, tapi pake Ijazah_Palsu_V2 dan Audio referensi SAMA.

Teks yang sama, tapi pake Ijazah_Palsu_V2 dan Audio referensi berbeda.

baik gan. terimakasih saran dan kritikannya.. dalam pembacaan memang masih dalam pelatihan... saat ini aslinya traning masih belum selesai untuk versi2, saat saya menulis ini masih 22 dari 34 epoch, (running 321409 steps)...
iya untuk versi1 banyak sekali kekurangaan, termasuk membaca nomor karena kekurangan data.. saya menambahkan 2400 wav pembacaan macam2 format nomor, sehingga total 4630 sample baca angka. semoga setelah selesai training berjalan sesuai harapan.. dan di versi1 model kehilangan kemampuan bahasa ingrisnya (Catastrophic Forgetting). di versi2 saya menambahkan 6K wav dengan bahasa ingris. kayaknya masih kurang karena hanya berjumlah 10% dari total data (84641 sample 10.8GB)..
running di colab bisa mas, tanpa download2 model yg besar, install jg cepet...
semoga di 500K step hasilnya bagus

Sebenarnya, yang mau dibikin sempurna itu V1 atau V2?

v2 . tampaknya tapi kayaknya memang kurang maximal karena kurang data & salah setting LR

wah... hasilnya kurang bagus bang. untuk baca angka, nominal, format nomor kurang bagus. karena datasetnya kemungkinan kurang LR kurang besar.

Apakah ada cara untuk menyempurnakan model ini?

dataset yang clear

mantap mas mas sekalian, tetap semangat dalam berkarya ya

oh iya kalo boleh tau ada kah sumber bacaan untuk membuat model seperti yang mas papaRazi buat

youtube bang Jarods Journey, dan juga di diskusi https://github.com/SWivid/F5-TTS/discussions
nah tapi itu, perlu riset percobaan2 juga sih. ayo bang train juga.... agar kita bisa sharing membuat model yg baik sesuai kebutuhan.
ini untuk bisa baca nomor2dan format indonesia saja harus buat dataset sintetis & berulang² kali finetuning lanjutan. sangat melelahkan 😮‍💨

dataset yang clear

Susah dapat datasheet yang clear kah gan?
Maaf saya gak paham IT, cuma ikut tutor di Youtube cara instal AI dan modelnya. Apakah ada yang bisa kami bantu?

youtube bang Jarods Journey, dan juga di diskusi https://github.com/SWivid/F5-TTS/discussions
nah tapi itu, perlu riset percobaan2 juga sih. ayo bang train juga.... agar kita bisa sharing membuat model yg baik sesuai kebutuhan.
ini untuk bisa baca nomor2dan format indonesia saja harus buat dataset sintetis & berulang² kali finetuning lanjutan. sangat melelahkan 😮‍💨

wah makasi banyak mas PapaRazi, ijin saya pelajari terlebih dahulu ya😁

Sign up or log in to comment