Text-dependent Speaker Identification Using Neural Network
On Distinctive Thai Tone Marks
Chularat Tanprasert1, Chai Wutiwiwatchai2,
Sutat Sae-tang3
Software and Language Engineering Laboratory,
22nd floor, Gypsum Metropolitan Tower, Sri-Ayudhaya Rd., Bangkok 10400, THAILAND
E-mail: 1chulak@nectec.or.th, 2cwutiwiw@notes.nectec.or.th, 3sutat@notes.nectec.or.th
ABSTRACT -- This paper presents a neural network based text-dependent speaker identification system for Thai language. Linear Prediction Coefficients (LPC) are extracted from speech signal and formed feature vectors. These features are fed into multilayer perceptron (MLP) neural network with backpropagation learning algorithm for training and identification processes. Five Thai tone marks are considered very closely in choosing the sentences in order to achieve the best speaker identification accuracy. Five speaking texts with each Thai tone and a mixed tone text are comparatively experimented. Average identification rate on 9 speakers achieves above 95% when using mixed tone text, and poor results occur with middle and low tone texts, which usually cause vagueness or unclear voices.
Keywords -- Text-dependent speaker identification, Linear prediction coefficients, Neural networks, Thai tone.
บทคัดย่อ -- บทความฉบับนี้นำเสนอระบบระบุผู้พูดสำหรับภาษาไทยแบบกำหนดคำพูด โดยใช้โครงข่ายประสาทเทียมเป็นระบบในการจดจำ ในขั้นต้นสัญญาณเสียงจะถูกนำมาผ่านกระบวนการสกัดค่าลักษณะสำคัญ ซึ่งคือค่าสัมประสิทธิ์การประมาณพันธะเชิงเส้น (Linear Prediction Coefficients) และใช้เป็นอินพุตสำหรับโครงข่ายประสาทเทียมประเภทเพอเซปตรอนหลายชั้น (Multilayer Perceptron) โดยใช้กระบวนการเรียนรู้แบบแพร่กระจายกลับหลัง (Backpropagation) จุดมุ่งหมายของการทดลองเพื่อพิจารณาผลกระทบของการใช้เสียงวรรณยุกต์ที่แตกต่างกันต่อการระบุผู้พูดจึงกำหนดให้ใช้ประโยคในการพูด 6 ประโยค 5 ประโยคแรกแต่ละประโยคมีเสียงวรรณยุกต์เดียวจาก 5 ระดับเสียงวรรณยุกต์ในภาษาไทย ส่วนประโยคสุดท้ายมีทั้ง 5 เสียงวรรณยุกต์ผสมกัน การทดลองเปรียบเทียบการพูดประโยคแต่ละประโยคเพื่อระบุผู้พูดจำนวน 9 คน ปรากฏว่าเมื่อใช้ประโยคที่มีเสียงวรรณยุกต์ผสมจะได้ผลการระบุผู้พูดสูงที่สุดซึ่งได้ผลมากกว่า 95 เปอร์เซ็นต์ และผลการระบุผู้พูดต่ำที่สุดเมื่อใช้ประโยคที่มีเสียงวรรณยุกต์เอกซึ่งเป็นเสียงที่ต่ำและไม่ชัดเจน
คำสำคัญ -- การระบุผู้พูดแบบขึ้นกับกำหนดคำพูด, ค่าสัมประสิทธิ์การประมาณพันธะเชิงเส้น, โครงข่ายประสาทเทียม, วรรณยุกต์ไทย
REPRINT --- This article is a reprint of the article appeared in the Proceedings of IEEE-INNS International Joint Conference on Neural Network, July, 1999.
|
|
|