ISSN: 1859-1531
BAN BIÊN TẬP

Tổng biên tập
GS.TSKH. Bùi Văn Ga

Phó Tổng biên tập
GS.TS. Trần Văn Nam

Trưởng ban biên tập
PGS.TS. Nguyễn Tấn Hưng

Cơ quan Đại học Đà Nẵng
41 Lê Duẩn, TP Đà Nẵng
Trường Đại học Bách khoa
54 Nguyễn Lương Bằng, Quận Liên Chiểu, TP Đà Nẵng
Trường Đại học Kinh tế
71 - Ngũ Hành Sơn - TP. Đà Nẵng
Trường Đại học Sư phạm
459 Tôn Đức Thắng - Liên Chiểu - Đà Nẵng
Trường Đại học Ngoại ngữ
131 Lương Nhữ Hộc, Đà Nẵng
Trường Đại học Sư phạm kỹ thuật
48 Cao Thắng - Đà Nẵng
Phân hiệu ĐHĐN tại KonTum
129 Phan Đình Phùng, Kon Tum
Khoa công nghệ thông tin và tuyền thông
Hòa Quý - Ngũ Hành Sơn - Đà Nẵng
Khoa Y Dược
Hòa Quý - Ngũ Hành Sơn - Đà Nẵng
Khoa Giáo dục Thể chất
62 Ngô Sỹ Liên, Liên Chiểu, Đà Nẵng
Khoa Quốc tế
41 Lê Duẩn, Đà Nẵng
Viện Nghiên cứu & Đào tạo Việt Anh
158A Lê Lợi
Trung tâm phát triển phần mềm
41 Lê Duẩn, Tp. Đà Nẵng
Trung tâm kiểm định chất lượng giáo dục
41 Lê Duẩn, Tp. Đà Nẵng
Trung tâm ngoại ngữ
131 Lương Nhữ Hộc, Tp Đà Nẵng
Trung tâm nghiên cứu phát triển quản trị và tư vấn doanh nghiệp
71 - Ngũ Hành Sơn - TP. Đà Nẵng
Tổng: 16,077,715
EVALUATION OF SPEAKER-DEPENDENT AND AVERAGE-VOICE VIETNAMESE STATISTICAL SPEECH SYNTHESIS SYSTEMS
 Author: Ninh Khánh Duy*
Đăng tại: Vol. 17, No. 12.1, 2019; Trang: 11-16
DOI: http://doi.org/10.31130/JST-UD2019-035E
Abstract:
This paper describes the development and evaluation of a Vietnamese statistical speech synthesis system using the average voice approach. Although speaker-dependent systems have been applied extensively, no average voice based system has been developed for Vietnamese so far. We have collected speech data from several Vietnamese native speakers and employed state-of-the-art speech analysis, model training and speaker adaptation techniques to develop the system. Besides, we have performed perceptual experiments to compare the quality of speaker-adapted (SA) voices built on the average voice model and speaker-dependent (SD) voices built on SD models, and to confirm the effects of contextual features including word boundary (WB) and part-of-speech (POS) on the quality of synthetic speech. Evaluation results show that SA voices have significantly higher naturalness than SD voices when the same limited contextual feature set excluding WB and POS is used. In addition, SA voices trained with limited contextual features excluding WB and POS still have better quality than SD voices trained with full contextual features including WB and POS. These results show the robustness of the average voice method over the speaker-dependent approach for Vietnamese statistical speech synthesis.
Key words: Vietnamese statistical speech synthesis; hidden Markov model; average voice approach; speaker-dependent approach; contextual features
Tài liệu tham khảo:
[1] K. Tokuda, Y. Nankaku, T. Toda, H. Zen, J. Yamagishi and K. Oura, “Speech Synthesis Based on Hidden Markov Models,” Proceedings of the IEEE, vol. 101, no. 5, pp. 1234–1252, May 2013.
[2] T. T. Vu, M. C. Luong, and S. Nakamura, “An HMM-based Vietnamese speech synthesis system,” Proc. Oriental COCOSDA, Urumqi, China, pp. 116–121, Aug. 2009.
[3] T. T. T. Nguyen, C. Alessandro, A. Rilliard, and D. D. Tran, “HMM-based TTS for Hanoi Vietnamese: issues in design and evaluation,” Proc. INTERSPEECH, Lyon, France, pp. 2311–2315, Aug. 2013.
[4] T. T. T. Nguyen, A. Rilliard, D. D. Tran, and C. Alessandro, “Prosodic phrasing modeling for Vietnamese TTS using syntactic information", Proc. INTERSPEECH, Singapore, pp. 2332–2336, Sept. 2014.
[5] T. S. Phan, T. C. Duong, A. T. Dinh, T. T. Vu, C. M. Luong, “Improvement of Naturalness for an HMM-based Vietnamese Speech Synthesis using the Prosodic information”, Proc. IEEE RIVF, Vietnam, pp. 276–281, 2013.
[6] D. K. Ninh and Y. Yamashita, “F0 parameterization of glottalized tones in HMM-based speech synthesis for Hanoi Vietnamese”, IEICE Transactions on Information and Systems, vol.E98-D, no.12, pp. 2280–2289, 2015.
[7] T.-N. Phung, “HMM-based Speech Synthesis with Multiple Individual Voices using Exemplar-based Voice Conversion”, International Journal of Computer Science and Network Security, vol.17, no.5, pp. 192–196, May 2017.
[8] J. Yamagishi, M. Tamura, T. Masuko, K. Tokuda, and T. Kobayashi, “A training method of average voice model for HMM-based speech synthesis,” IEICE Transactions on Fundamentals, vol.E86-A, no.8, pp. 1956–1963, Aug. 2003.
[9] J. Yamagishi and T. Kobayashi, “Average-voice-based speech synthesis using HSMM-based speaker adaptation and adaptive training,” IEICE Transactions on Information and Systems, vol. E90-D, no. 2, pp. 533–543, Feb. 2007.
[10] H. Zen, K. Tokuda, T. Masuko, T. Kobayashi, and T. Kitamura, “A hidden semi-Markov model-based speech synthesis system,” IEICE Transactions on Information and Systems, vol. E90-D, no. 5, pp. 825–834, May 2007.
[11] J. Yamagishi, T. Kobayashi, Y. Nakano, K. Ogata, and J. Isogai, “Analysis of speaker adaptation algorithms for HMM-based speech synthesis and a constrained SMAPLR adaptation algorithm,” IEEE Transactions on Audio, Speech and Language Processing, vol. 17, no. 1, pp. 66–83, Jan. 2009.
[12] J. Yamagishi, T. Nose, H. Zen, Z.-H. Ling, T. Toda, K. Tokuda, S. King, and S. Renals, “Robust Speaker-Adaptive HMM-Based Text-to-Speech Synthesis”, IEEE Transactions on Audio, Speech, and Language Processing, vol. 17, no. 6, pp. 1208–1230, Aug. 2009.
[13] S. Chomphan, T. Kobayashi, “Tone correctness improvement in speaker-independent average-voice-based Thai speech synthesis”, Speech Communication, vol. 51, no. 4, pp. 330–343, 2009.
[14] H. Zen, T. Toda, M. Nakamura, and K. Tokuda, “Details of Nitech HMM-based speech synthesis system for the Blizzard Challenge 2005,” IEICE Transactions on Information and Systems, vol. E90-D, no. 1, pp. 325–333, Jan. 2007.
[15] O. Shiohan, T. Myrvoll, and C. Lee, “Structural maximum a posteriori linear regression for fast HMM adaptation,” Computer Speech and Language, vol. 16, no. 3, pp. 5–24, 2002.
[16] T. Toda and K. Tokuda, “A speech parameter generation algorithm considering global variance for HMM-based speech synthesis,” IEICE Transactions on Information and Systems, vol. E90-D, no. 5, pp. 816–824, May 2007.
[17] E. Moulines and F. Charpentier, “Pitch synchronous waveform processing techniques for text-to-speech synthesis using diphones,” Speech Communication, vol. 9, pp. 453–467, 1990.
[18] H. Zen, T. Nose, J. Yamagishi, S. Sako, T. Masuko, A. W. Black, and K. Tokuda, “The HMM-based speech synthesis system version 2.0,” Proc. 6th ISCA Workshop on Speech Synthesis, Bonn, Germany, pp. 294–299, Aug. 2007.
[19] C.-T. Nguyen, X.-H. Phan, and T.-T. Nguyen, “JVnTextPro: A Java-based Vietnamese Text Processing Tool,” http://jvntextpro.sourceforge.net/, 2010.
[20] T. Dutoit, “An Introduction to Text-to-Speech Synthesis,” Springer, 1997.

BAN BIÊN TẬP

Tổng biên tập
GS.TSKH. Bùi Văn Ga

Phó Tổng biên tập
GS.TS. Trần Văn Nam

Trưởng ban biên tập
PGS.TS. Nguyễn Tấn Hưng

Cơ quan Đại học Đà Nẵng
41 Lê Duẩn, TP Đà Nẵng
Trường Đại học Bách khoa
54 Nguyễn Lương Bằng, Quận Liên Chiểu, TP Đà Nẵng
Trường Đại học Kinh tế
71 - Ngũ Hành Sơn - TP. Đà Nẵng
Trường Đại học Sư phạm
459 Tôn Đức Thắng - Liên Chiểu - Đà Nẵng
Trường Đại học Ngoại ngữ
131 Lương Nhữ Hộc, Đà Nẵng
Trường Đại học Sư phạm kỹ thuật
48 Cao Thắng - Đà Nẵng
Phân hiệu ĐHĐN tại KonTum
129 Phan Đình Phùng, Kon Tum
Khoa công nghệ thông tin và tuyền thông
Hòa Quý - Ngũ Hành Sơn - Đà Nẵng
Khoa Y Dược
Hòa Quý - Ngũ Hành Sơn - Đà Nẵng
Khoa Giáo dục Thể chất
62 Ngô Sỹ Liên, Liên Chiểu, Đà Nẵng
Khoa Quốc tế
41 Lê Duẩn, Đà Nẵng
Viện Nghiên cứu & Đào tạo Việt Anh
158A Lê Lợi
Trung tâm phát triển phần mềm
41 Lê Duẩn, Tp. Đà Nẵng
Trung tâm kiểm định chất lượng giáo dục
41 Lê Duẩn, Tp. Đà Nẵng
Trung tâm ngoại ngữ
131 Lương Nhữ Hộc, Tp Đà Nẵng
Trung tâm nghiên cứu phát triển quản trị và tư vấn doanh nghiệp
71 - Ngũ Hành Sơn - TP. Đà Nẵng
Tổng: 16,077,715