marduk-ra/F5-TTS-Turkish · Question on the Finetuned phase?

Nov 22, 2024

Merhabalar dostum . Yaşımda oldukça ileri ve bu alanlarda yeni birisiyim diyebilirim. Bu yüzden sorduğum soru saçma gelirse kusura bakma. Yaptığın çalışma çok güzel olmuş eline sağlık. Ben Azerbaycan dilini eklemeye çalışıyorum ama sürekli hata alıyorum. İlk başta ses dosyalarını derleyerek ile yapılacağını düşünmüştüm. İndirip toplam 4 saatlik ses çıktıları derledim ama finetuned arayüzünde error-file hatası aldım. Ben bu ses (dil) eğitmesini nasıl yapabilirim. Nasıl train edip wav dosyalarını hazırlamam gerekir acaba. Şimdiden teşekkür ederim.

marduk-ra

Owner Nov 23, 2024

•

edited Nov 23, 2024

4 saatlik veriseti cok az. Onlarca saatlik ses dosyasina gerek var. f5-tts github sayfasina gidip, oradan finetuning nasi yapilir öncelikle onu ögrenmelisin. Bu konuda yeniysen öncelikle birkac noktayi gözden kacirmaman gerekir. Bir model egitimindeki en önemli unsur verisetidir. Verisetin ne kadar kaliteli olursa model de ona göre kaliteli olur. Ikinci nokta, veriseti hazirlamak en zor kisimdir. Hem cok dikkat gerektirir hem de uzun zaman alir. Örnegin iyi bir ses klon modeli egitmek istiyorsan haftalarca tüm vaktini veriseti hazirlamaya ayirmalisin. Bunun icinde ya calismaya ihtiyacin olmayacak sekilde varlikli olman, ya da bununla para kazanmayi hedefliyor olman gerekir. Open source projeler ve modeller genelde fazla ugrasmadan yapilan projeler olduklari icin kalite bakimindan da pek birsey beklememek gerekir.

y4gmur

7 days ago

•

edited 5 days ago

Merhaba. Oldukça önemli bir çalışma yapmışsınız, bu alandaki katkılarınız için ne kadar teşekkür etsek az kalır. Ben de bu alanda oldukça yeniyim, konu hakkında birkaç sorum var, yanıtlayabilirseniz çok memnun olurum:
1)Veri seti oluşturabilmek için önerdiğiniz ideal ses dosyası süresini azaltmanın bir yolu yok mudur? Yüksek kalitede, telaffuz hataları bulunmayan audio dosyaları ile bunu sağlayamaz mıyız?
2)İşlediğimiz ses dosyaları tek bir kişiye mi ait olmalıdır? Ses kayıtları farklı kişilerin konuşmalarını içeriyorsa bizim için sıkıntı oluşturur mu.? Yoksa tam tersine farklı vokalleri kullanmamız fine tuning konusunda daha mı iyi sonuçlar almamızı sağlar?