PARTY: พาที ระบบรู้จำเสียงพูดภาษาไทย

เทคโนโลยีแปลงเสียงพูดเป็นข้อความ หรือรู้จำเสียงพูด เป็นนวัตกรรมที่กำลังเป็นที่สนใจ เริ่มนำมาใช้งานในการติดต่อสื่อสารกับสมาร์ทโฟน รวมถึงการถอดความเสียงพูดในโปรแกรมประยุกต์อื่นๆ ได้อย่างจริงจังมากขึ้นในปัจจุบัน จากผลการสำรวจของ Gartner เทคโนโลยีนี้กำลังเข้าสู่ยุคของการผลิตเชิงพาณิชย์ เชื่อว่าในอีกไม่เกิน 5 ปี จะกลายมาเป็นวิธีหลักในการสื่อสารกับสมาร์ทโฟน อุปกรณ์พกพาต่างๆ เช่น สมาร์ทวอช ตลอดจนเครื่องคอมพิวเตอร์พื้นฐาน

แม้ในประเทศไทยจะมีงานวิจัยด้านนี้ตั้งแต่ 20 ปีที่แล้ว งานวิจัยยังสามารถนำมาต่อยอดเชิงธุรกิจได้อย่างจำกัด เนื่องจากเป็นเทคโนโลยีที่ต้องลงทุนสูงเพื่อสร้างคลังข้อมูลที่ครอบคลุมการใช้งาน แต่ประสิทธิภาพและความถูกต้องของการรู้จำที่ได้ยังไม่คุ้มค่าต่อการลงทุน

ด้วยข้อจำกัดดังกล่าว การพัฒนาเทคโนโลยีให้ตอบสนองความต้องการในวงกว้างจึงเกิดขึ้นโดยบริษัทวิจัยข้ามชาติ อย่าง Nuance Communication หรือ Google Inc. เป็นต้น แม้เทคโนโลยีจากต่างประเทศจะให้ผลค่อนข้างดีแต่การประยุกต์ใช้งานก็ยังมีข้อจำกัดมาก อาทิ การปรับระบบให้รองรับสภาพแวดล้อมหรือผู้พูดเฉพาะ หรือการติดตั้งระบบให้ใช้งานแบบออฟไลน์ในหน่วยงาน อาจต้องจ้างพัฒนาในสนนราคาที่สูงมากจนไม่คุ้มค่าต่อการลงทุน เป็นต้น ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (เนคเทค) สวทช. ได้เล็งเห็นถึงความจำเป็นในการวิจัยให้เท่าทันเทคโนโลยีจากต่างชาติ โดยเฉพาะกับเทคโนโลยีที่ผลิตสำหรับภาษาไทย จะช่วยลดค่าใช้จ่ายในการนำเข้าเทคโนโลยีราคาสูง เปิดโอกาสให้คนไทยสามารถต่อยอดนวัตกรรมได้เองโดยไม่ต้องพึ่งพาต่างชาติ และเสริมสร้างขีดความสามารถในการแข่งขันของประเทศไทยเมื่อเข้าสู่ยุคเศรษฐกิจดิจิทัล

โครงการวิจัยและพัฒนาบริการระบบรู้จำเสียงพูดภาษาไทย โดยได้รับทุนสนับสนุนจากโปรแกรมเทคโนโลยีฐานของเนคเทค สวทช. เป็นระยะเวลา 2 ปี 6 เดือน จะเสร็จสิ้นโครงการในเดือนพฤษภาคม 2558 นี้ มีเป้าหมายเพื่อขยายงานวิจัยด้านเทคโนโลยีรู้จำเสียงพูดภาษาไทยที่เนคเทคได้ตั้งต้นขึ้นตั้งแต่ปี 2543 จากระบบที่มีข้อจำกัดมากมาย อาทิ จำกัดจำนวนคำศัพท์ จำกัดไวยากรณ์ จำกัดสภาวะแวดล้อมของการใช้งาน และจำกัดความสามารถในการขยายบริการ ไปสู่ระบบรู้จำเสียงพูดภาษาไทยแบบไม่จำกัดเนื้อหา ความถูกต้องของการรู้จำทัดเทียมเทคโนโลยีจากต่างชาติโดยเฉพาะการใช้งานผ่านสมาร์ทโฟน สามารถตอบสนองได้รวดเร็ว สามารถขยายขนาดของบริการ และต่อยอดไปเป็นระบบประยุกต์ได้ตามต้องการ

พื้นฐานเทคโนโลยีรู้จำเสียงพูด

ระบบรู้จำเสียงพูดประกอบด้วย 3 ส่วนสำคัญคือ

พจนานุกรมคำอ่าน บรรจุคำศัพท์ทั้งหมดที่ระบบรู้จักรและคำอ่านในรูปแบบหน่วยเสียง
แบบจำลองภาษา ใช้กำหนดว่าคำใดๆ ในพจนานุกรมของระบบจะต่อด้วยอีกคำหนึ่งได้ด้วยความน่าจะเป็นเท่าใด
แบบจำลองเสียง ใช้กำหนดว่าหน่วยเสียงแต่ละหน่วยสามารถออกเสียงได้อย่างไร

การทำงานของระบบมี 2 ขั้นตอนหลัก ขั้นแรกการสกัดค่าสำคัญ เป็นขั้นตอนการดึงค่าพารามิเตอร์ที่ใช้เป็นตัวแทนสัญญาณเสียง โดยจะตัดแบ่งสัญญาณเสียงออกเป็นช่วงย่อยๆ แต่ละช่วงจะถูกแปลงเป็นค่าทางความถี่ของสัญญาณเสียงซึ่งใช้เป็นตัวแทนของเสียงในช่วงนั้นๆ ขั้นที่สอง ระบบจะดึงคำศัพท์จากพจนานุกรมมาต่อกันเป็นโครงข่าย แต่ละคำในโครงข่ายจะถูกแปลงเป็นหน่วยเสียงตามที่ระบุในพจนานุกรมคำอ่าน ค่าสำคัญของเสียงที่ได้จากขั้นตอนแรกจะถูกป้อนเข้าสู่โครงข่ายพร้อมคำนวณความน่าจะเป็นที่เสียงอินพุตจะใกล้เคียงกับเส้นทางในโครงข่าย เส้นทางในโครงข่ายที่มีความน่าจะเป็นสูงสุดจะเป็นคำตอบของการรู้จำ

จากพื้นฐานการทำงานดังกล่าว ระบบจะมีความสามารถสูงหรือไม่ขึ้นอยู่กับความครอบคลุมของพจนานุกรมคำอ่าน ขึ้นอยู่กับขนาดของคลังข้อความที่นำมาสร้างแบบจำลองภาษาซึ่งจะต้องคำนวณความน่าจะเป็นของการต่อกันของคำในภาษาได้อย่างแม่นยำ และขึ้นอยู่กับความครอบคลุมของคลังข้อมูลเสียงที่นำมาสร้างแบบจำลองเสียงซึ่งจะต้องรองรับสภาวะแวดล้อมและผู้พูดที่หลากหลาย บริการรู้จำเสียงพูดภาษาไทยที่ใช้ใน Google Voice Search อาจครอบคลุมคำศัพท์ในภาษาไทยได้หลายแสนคำ ใช้คลังข้อความขนาดหลายร้อยล้านคำและคลังข้อมูลเสียงที่ครอบคลุมผู้พูดหลายพันคนในการสร้างแบบจำลองภาษาและแบบจำลองเสียง ความสามารถของระบบยังขึ้นอยู่กับการวิศวกรรมระบบให้ทำงานตอบสนองได้อย่างรวดเร็ว โดยอาจใช้การกระจายการคำนวณด้วย Cloud computing ขนาดใหญ่ ตลอดจนความก้าวหน้าของวิทยาการด้านการประมวลผลสัญญาณเสียงขั้นต้นเพื่อลดสัญญาณรบกวนที่อาจลดประสิทธิภาพของการรู้จำได้

สมรรถภาพ

ระบบรู้จำเสียงพูดภาษาไทย “พาที (PARTY)” เวอร์ชัน 1.0 มีคุณสมบัติสำคัญดังนี้

ไม่จำกัดเนื้อหา (Open domain) – พาที ได้ใช้วิทยาการใหม่ที่สร้างขึ้น โดยมีพจนานุกรมในระบบขนาดเพียง 40,000 คำ บรรจุหน่วยคำผสมกับหน่วยพยางค์ที่ใช้บ่อยในภาษาไทย หน่วยพยางค์สามารถผสมเป็นคำใหม่ๆ ที่ระบบไม่รู้จัก ส่งผลให้ครอบคลุมคำศัพท์ได้ใกล้เคียงกับระบบที่มีพจนานุกรมขนาดเกิน 140,000 คำ ทั้งยังช่วยลดปริมาณทรัพยากรที่ต้องใช้ในการคำนวณอย่างมากด้วยเช่นกัน
ความแม่นยำ 80% (Accuracy) – ภายใต้การทดสอบกับเสียงพูดผ่านช่องทางข้อมูล (data channel) ด้วยสมาร์ทโฟน โดยไม่กำหนดเนื้อหา ผู้พูด หรือรูปแบบการพูด ระบบให้ความถูกต้องของการรู้จำเกือบ 80% ซึ่งใกล้เคียงกับบริการจากต่างประเทศ (ทดสอบเมื่อพฤษภาคม 2557)
ตอบสนองภายใน 1.5xRT (Response time) – การทดสอบความเร็วในการตอบสนองภายใต้เครือข่าย WiFi และเครือข่าย 3G จำลอง พบว่าพาทีสามารถตอบสนองได้ภายในเวลาไม่เกิน 1.5 เท่าของความยาวของเสียงอินพุต ซึ่งใกล้เคียงกับการตอบสนองของบริการรู้จำเสียงพูดภาษาไทยจากต่างประเทศ
เว็บบริการพร้อมติดตั้งและปรับแต่งได้ (Customizable) – จุดเด่นสำคัญของ พาที คือความเชี่ยวชาญของทีมวิจัยและพัฒนาในการปรับแต่งระบบตามความต้องการ ปัจจุบันพาทีอยู่ในรูปแบบเว็บบริการพร้อมติดตั้งในหน่วยงานที่ต้องการใช้งาน สามารถขยายบริการตามปริมาณการใช้งาน และปรับแต่งระบบให้ถอดความได้ถูกต้องมากขึ้นในเนื้อหาหรือผู้พูดที่กำหนดได้

ประโยชน์

ระบบรู้จำเสียงพูดภาษาไทย พาที เป็นเครื่องมือพื้นฐานที่ประยุกต์ใช้ให้เกิดประโยชน์ได้หลากหลาย โดยเฉพาะอย่างยิ่งในยุคปัจจุบันที่ผู้คนสามารถติดต่อสื่อสารและเข้าถึงข้อมูลข่าวสารได้สะดวกรวดเร็วผ่านสมาร์ทโฟนและเครือข่ายอินเทอร์เน็ต ตัวอย่างการประยุกต์ใช้ ได้แก่

การสื่อสารโทรคมนาคม (Telecommunication) – ระบบรู้จำเสียงพูดใช้แปลงเสียงพูดลูกค้าที่ติดต่อเข้าที่ศูนย์บริการลูกค้าหรือ Contact center ผ่านทางโทรศัพท์อย่างกว้างขวางในต่างประเทศ แต่ในประเทศไทยมีการใช้งานระบบดังกล่าวในวงจำกัด เป้าหมายของนวัตกรรมนี้นอกจากต้องการวิเคราะห์ความต้องการของลูกค้า ลดค่าใช้จ่ายในการฝึกอบรมพนักงาน เพิ่มประสิทธิภาพของการให้บริการแล้ว ยังใช้ในการติดตามตรวจสอบการทำงานของพนักงานผู้ให้บริการด้วย บทความของ DMG Consulting LLC สำรวจการใช้งานในสหรัฐอเมริกา พบว่าสามารถเพิ่มการรับสายลูกค้าได้ 20-60% โดยที่ลูกค้าถึง 80% มีความพึงพอใจที่จะใช้ระบบดังกล่าว และในปัจจุบัน พาที กำลังอยู่ระหว่างการทดสอบภาคสนามร่วมกับบริษัทเอกชนที่ให้บริการศูนย์บริการลูกค้าในลักษณะดังกล่าว
สิ่งอำนวยความสะดวกในการป้อนข้อมูล (Voice data input) – เมื่อนโยบายภาครัฐให้ความสำคัญที่บริการต่างๆ โดยเฉพาะบริการจากภาครัฐจะต้องสามารถเข้าถึงได้อย่างทั่วถึงและเท่าเทียม เทคโนโลยีนี้จึงกลายเป็นส่วนประกอบสำคัญที่จะถูกนำไปต่อยอดเป็นนวัตกรรมสิ่งอำนวยความสะดวกแก่ผู้พิการ คนชรา และผู้ด้อยโอกาส เนคเทคมีแผนในการประยุกต์ใช้ระบบรู้จำเสียงพูดช่วยในศูนย์บริการถ่ายทอดการสื่อสารสำหรับผู้บกพร่องทางการได้ยิน (Thailand Telecommunication Relay Service หรือ TTRS) ซึ่งให้บริการอยู่ในปัจจุบัน นอกจากนี้ การป้อนข้อมูลด้วยเสียงพูดยังสามารถประยุกต์ใช้ในนวัตกรรมที่สร้างโอกาสทางธุรกิจได้อีกมาก เช่น ความต้องการป้อนข้อมูลอย่างรวดเร็วผ่านอุปกรณ์พกพาหรือสมาร์ทโฟนภายใต้สถานการณ์ฉุกเฉิน การป้อนข้อมูลเพื่อบริหารคลังสินค้าขนาดใหญ่ ตลอดจนการป้อนข้อมูลด้วยเสียงเพื่อสั่งการอุปกรณ์ต่างๆ ภายในอาคารบ้านเรือน ปัจจุบันเนคเทคอยู่ระหว่างการทดสอบภาคสนามกับบริษัทเอกชนเพื่อพัฒนาสมาร์ทโฟนให้เป็นรีโมทคอนโทรลแบบใหม่โดยใช้เสียงสั่งการผ่านไปบังกล่องรับทีวีในการเลือกช่องรายการ โดยเล็งเห็นถึงช่องทางในอนาคตที่นวัตกรรมนี้จะมาทดแทนการใช้รีโมทคอนโทรลที่ใช้อยู่ในปัจจุบัน
นอกจากนี้ การป้อนข้อมูลด้วยเสียงพูดยังสามารถประยุกต์ใช้ในนวัตกรรมที่สร้างโอกาสทางธุรกิจได้อีกมาก เช่น ความต้องการป้อนข้อมูลอย่างรวดเร็วผ่านอุปกรณ์พกพาหรือสมาร์ทโฟนภายใต้สถานการณ์ฉุกเฉิน การป้อนข้อมูลเพื่อบริหารคลังสินค้าขนาดใหญ่ ตลอดจนการป้อนข้อมูลด้วยเสียงเพื่อสั่งการอุปกรณ์ต่างๆ ภายในอาคารบ้านเรือน ปัจจุบันเนคเทคอยู่ระหว่างการทดสอบภาคสนามกับบริษัทเอกชนเพื่อพัฒนาสมาร์ทโฟนให้เป็นรีโมทคอนโทรลแบบใหม่โดยใช้เสียงสั่งการผ่านไปบังกล่องรับทีวีในการเลือกช่องรายการ โดยเล็งเห็นถึงช่องทางในอนาคตที่นวัตกรรมนี้จะมาทดแทนการใช้รีโมทคอนโทรลที่ใช้อยู่ในปัจจุบัน
การถอดความข้อมูลเสียง (Audio transcription) – ในขณะที่ข้อมูลเสียงขนาดใหญ่เกิดขึ้นในทุกวัน ความต้องการถอดความเพื่อนำข้อมูลข่าวสารไปใช้ประโยชน์ต่อก็ต้องมีการลงทุนเพิ่มขึ้นอย่างมากตามไปด้วย ตัวอย่างเช่น ความต้องการในการจัดทำรายงานการประชุมรัฐสภาของสำนักงานเลขาธิการรัฐสภาและวุฒิสภาที่ต้องสำเร็จออกเป็นร่างรายงานภายในเวลาอันสั้น ความต้องการจัดทำรายงานการไต่สวนคดีในศาลยุติธรรมเพื่อให้ผู้ที่เกี่ยวข้องลงนามรับรองหลังจบการไต่สวน ความต้องการถอดความเสียงบันทึกเทปต่างๆ เพื่อการสืบค้นย้อนหลังได้ง่ายขึ้น เป็นต้น ความต้องการเหล่านี้ล้วนมีความเป็นไปได้ในการประยุกต์ใช้เทคโนโลยีการรู้จำเสียงพูด พาที ในปัจจุบันเนคเทคได้รับการติดต่อจากหน่วยงานที่ให้ความสนใจดังกล่าว และอยู่ระหว่างศึกษาความเป็นไปได้ในการประยุกต์ใช้ให้มีประสิทธิภาพ

ทีมวิจัยและพัฒนา

ชัย วุฒิวิวัฒน์ชัย (ดร.) หัวหน้าโครงการ
วาทยา ชุณห์วิจิตรา (ดร.) นักวิจัยส่วนรู้จำเสียงพูด
อนันต์ลดา โชติมงคล (ดร.) นักวิจัยส่วนรู้จำเสียงพูด
ศิลา ชุณห์วิจิตรา (ดร.) นักวิจัยส่วนวิศวกรรมระบบ
ณัฐนันท์ ทัดพิทักษ์กุล (ดร.) นักวิจัยส่วนนวัตกรรม
ศวิต กาสุริยะ นักวิจัยส่วนถ่ายทอดเทคโนโลยี
ขวัญชีวา แตงไทย ผู้ช่วยนักวิจัยส่วนรู้จำเสียงพูด
พุทธพงศ์ เสริฐศรี ผู้ช่วยนักวิจัยส่วนนวัตกรรม
ณัฐพงษ์ เครือภักดี ผู้ช่วยนักวิจัยส่วนวิศวกรรมระบบ
ภัชริกา ชูตระกูล ผู้ช่วยนักวิจัยส่วนคลังข้อมูล

ห้องปฏิบัติการวิจัยเทคโนโลยีเสียง หน่วยวิจัยวิทยาการสารสนเทศ ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ

ข้อมูลเพิ่มเติม

Website: www.party.speech.in.th

นวัตกรรมพร้อมใช้