Remove character limit and auto stop before reaching a comma or period.

#1
by phamhuyhung - opened

Hi, please remove the 500 character limit and do not auto stop before reaching a comma or period.

For example: "Đoạn trường tân thanh, thường được biết đến với cái tên đơn giản là Truyện Kiều, là một truyện thơ của đại thi hào Nguyễn Du.".

When processing this text, it will be speak into "Đoạn trường tân thanh, thường được biết đến với cái tên đơn giản, là Truyện Kiều, là một truyện thơ của đại, thi hào Nguyễn Du.". Listening to Vietnamese is very uncomfortable and not smooth.
Thanks.

Tác giả là người Việt đấy Bro ơi nên có thể trao đổi tiếng Việt được.
Việc bị ngắt câu (dừng) ở những chỗ không mong muốn đấy là nhược điểm của model chứ không phải tác giả khi xử lý đã thêm các "auto stop" vào đâu. Thường thì các model TTS chưa thể khắc phục hoàn toàn được việc ngắt nghỉ không đúng chỗ như con người.
Bro có thể tham khảo thêm model khác cũng của tác giả "ntt123", có vẻ "tự nhiên" hơn đấy: https://huggingface.co./spaces/ntt123/Vietnam-male-voice-TTS

Mình biết tác giả là người Việt, nhưng thấy ổng sinh sống và làm việc bên Singapore với cả thấy trên những môi trường như này thường sử dụng tiếng Anh là chính nên mình mới dùng Translate chứ mình kém tiếng Anh lắm.

Mình có dùng qua phiên bản Light Speed TTS rồi, bản đó đọc hơi khô khan hơi bản WaveGru này chút mỗi tội bản WaveGru nó hay ngắt câu không đúng lúc nên mình mới góp ý cho tác giả xem có thể loại bỏ cái tự động ngắt hơi mà
chỉ nên ngưng lúc đến các dấu chấm phẩy cho nó mượt hơn.

Mình thấy model https://huggingface.co./spaces/ntt123/Vietnam-male-voice-TTS đọc đã là khá ổn rồi, cũng không thể yêu cầu hơn với các mô hình TTS đâu bro ơi.
Model https://huggingface.co./spaces/ntt123/Vietnam-male-voice-TTS thiv có phần train cái model duration riêng (bằng dữ liệu TextGrid train bằng MFA) nên khả năng ngắt, nghỉ sẽ ổn ơn.

Với lại model này tín hiệu âm thanh là 24Khz (so với model https://huggingface.co./spaces/ntt123/Vietnam-male-voice-TTS chỉ có 16Khz) nên nghe có vẻ chất lượng âm thanh tốt hơn (sáng hơn).

Khả năng bác sn 82 đúng ko? Để e xưng hô lại cho chuẩn 😁.

Em đang gặp lỗi trong quá trình train thử model bên Light Speed TTS tại post này: https://huggingface.co./spaces/ntt123/Vietnam-male-voice-TTS/discussions/5

Bác xem biết lỗi ở đâu thì chỉ em với. Nếu được bác cho e xin cách liên hệ dễ hơn để em hỏi bác một số vấn đề về cách train model vì em muốn tạo giọng đọc miền Bắc cho tool Light Speed TTS mà em không biết code nên tự mò khó quá.

Mình sinh năm 82.
Bro đã có dữ liệu audio giọng miền bắc chưa? Quan trọng là chuẩn bị dữ liệu chứ không cần code gì mấy đâu, vì model đó của Bro Ntt123 có đã OK rồi.
Để huấn luyện model bro cần thực hiện các bước:
Bước 1: chuẩn bị dữ liệu audio và gán nhãn (tách thành từng đoạn ngắn <= 15s rồi gán nhãn text cho nó). Việc thu thập audio cần khoảng 50 giờ audio.
Bước 2: dùng công cụ mfa (Montreal Forced Aligner) để tạo text grid (canh chỉnh văn bản với audio)
Bước 3: Tạo dữ liệu huấn luyện từ audio, text và text grid
Bước 4: huấn luyện model duration
Bước 5: huấn luyện model sync (nặng nhất)

Cảm ơn bác, em đang tự gắn nhãn cho dataset ạ. Bác cho em hỏi là tầm 50 giờ audio này là bắt buộc 1 là từ một người nói hay có thể dùng dữ liệu nhiều người nói được ạ?

Model này là một giọng đọc thôi Bro.

phamhuyhung changed discussion status to closed

Sign up or log in to comment