Issues in Thai Text-to-Speech Synthesis:
The NECTEC Approach


Pradit Mittrapiyanuruk, Chatchawarn Hansakunbuntheung,
Virongrong Tesprasit and Virach Sornlertlamvanich
Information R&D Division,
National Electronics and Computer Technology Center (NECTEC)
Gypsum Metropolitan Building, 22nd Floor,
539/2 Sri Ayudhaya Road, Rajthevi, Bangkok 10400, Thailand
(pmittrap, chatchawarnh)@notes.nectec.or.th, (virong, virach)@nectec.or.th


ABSTRACT -- This paper presents all the essential issues in developing the text-to-speech synthesis for Thai - text analysis, prosody generation and speech synthesis. In the text analysis, problems in Thai text processing can be decomposed into the models of sentence extraction, phrase boundary determination and grapheme-to-phoneme conversion. The syllable duration and F0 contour generation rules are included in the prosody generation. This is to realize the synthetic speech in the suprasegmental level. In the speech synthesis, the definition and the construction of acoustic inventory structure 'demisyllable' are presented. Furthermore, three signal-processing algorithms, amplitude normalization, the segment boundary smoothing and prosodic modification, are also presented in this topic.
Keywords -- Thai text-to-speech synthesis, text analysis, prosody generation, speech synthesis, demisyllable

บทคัดย่อ -- บทความนี้นำเสนอหัวข้อสำคัญในการวิจัยและพัฒนาระบบสังเคราะห์เสียงพูดจากข้อความภาษาไทย ประกอบด้วยการวิเคราะห์ข้อความ, การสังเคราะห์สัทสัมพันธ์และการสังเคราะห์สัญญาณเสียงพูด ในหัวข้อการวิเคราะห์ข้อความจะกล่าวถึงปัญหาที่สำคัญในการประมวลผลข้อความภาษาไทยและรายละเอียดของส่วนประกอบภายในซึ่งประกอบด้วย 3 ส่วน ได้แก่ การตัดประโยค การหาขอบเขตวลีเพื่อหยุดเว้นวรรคการอ่าน และการแปลงรูปเขียนเป็นรูปเสียงอ่าน ในหัวข้อการสังเคราะห์สัทสัมพันธ์จะกล่าวถึงกฎในการกำหนดช่วงเวลาของพยางค์และ F0 contour ซึ่งจะทำให้สามารถสังเคราะห์เสียงที่มีความสัมพันธ์ในระดับเหนือหน่วยเสียงได้ ส่วนหัวข้อการสังเคราะห์สัญญาณเสียงพูดจะกล่าวถึงโครงสร้างหน่วยเสียงแบบครึ่งพยางค์และอัลกอริทึมทางการประมวลผลสัญญาณในการปรับสัญญาณที่รอยต่อให้ต่อเนื่องและปรับสัญญาณให้มีสัทสัมพันธ์ตามที่ได้กำหนดมา
คำสำคัญ -- การสังเคราะห์เสียงพูดจากข้อความภาษาไทย, การวิเคราะห์ข้อความ, การสังเคราะห์สัทสัมพันธ์, การสังเคราะห์สัญญาณเสียงพูด, ครึ่งพยางค์

REPRINT --- This article is a reprint of the article appeared in the Proceedings of NECTEC Annual Conference 2000 : ECTI Technologies for New Economics, June 2000, pp.483-495. This paper wins a best paper award in category of "Best Presentation".


National Electronics and Computer Technology Center (NECTEC)
Copyright  © 2001 By Information System Service Section. All right reserved.