เทคโนโลยีแปลงเสียงพูดเป็นข้อความ หรือรู้จำเสียงพูด เป็นนวัตกรรมที่กำลังเป็นที่สนใจ เริ่มนำมาใช้งานในการติดต่อสื่อสารกับสมาร์ทโฟน รวมถึงการถอดความเสียงพูดในโปรแกรมประยุกต์อื่นๆ ได้อย่างจริงจังมากขึ้นในปัจจุบัน จากผลการสำรวจของ Gartner เทคโนโลยีนี้กำลังเข้าสู่ยุคของการผลิตเชิงพาณิชย์ เชื่อว่าในอีกไม่เกิน 5 ปี จะกลายมาเป็นวิธีหลักในการสื่อสารกับสมาร์ทโฟน อุปกรณ์พกพาต่างๆ เช่น สมาร์ทวอช ตลอดจนเครื่องคอมพิวเตอร์พื้นฐาน
แม้ในประเทศไทยจะมีงานวิจัยด้านนี้ตั้งแต่ 20 ปีที่แล้ว งานวิจัยยังสามารถนำมาต่อยอดเชิงธุรกิจได้อย่างจำกัด เนื่องจากเป็นเทคโนโลยีที่ต้องลงทุนสูงเพื่อสร้างคลังข้อมูลที่ครอบคลุมการใช้งาน แต่ประสิทธิภาพและความถูกต้องของการรู้จำที่ได้ยังไม่คุ้มค่าต่อการลงทุน
ด้วยข้อจำกัดดังกล่าว การพัฒนาเทคโนโลยีให้ตอบสนองความต้องการในวงกว้างจึงเกิดขึ้นโดยบริษัทวิจัยข้ามชาติ อย่าง Nuance Communication หรือ Google Inc. เป็นต้น แม้เทคโนโลยีจากต่างประเทศจะให้ผลค่อนข้างดีแต่การประยุกต์ใช้งานก็ยังมีข้อจำกัดมาก อาทิ การปรับระบบให้รองรับสภาพแวดล้อมหรือผู้พูดเฉพาะ หรือการติดตั้งระบบให้ใช้งานแบบออฟไลน์ในหน่วยงาน อาจต้องจ้างพัฒนาในสนนราคาที่สูงมากจนไม่คุ้มค่าต่อการลงทุน เป็นต้น ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (เนคเทค) สวทช. ได้เล็งเห็นถึงความจำเป็นในการวิจัยให้เท่าทันเทคโนโลยีจากต่างชาติ โดยเฉพาะกับเทคโนโลยีที่ผลิตสำหรับภาษาไทย จะช่วยลดค่าใช้จ่ายในการนำเข้าเทคโนโลยีราคาสูง เปิดโอกาสให้คนไทยสามารถต่อยอดนวัตกรรมได้เองโดยไม่ต้องพึ่งพาต่างชาติ และเสริมสร้างขีดความสามารถในการแข่งขันของประเทศไทยเมื่อเข้าสู่ยุคเศรษฐกิจดิจิทัล
โครงการวิจัยและพัฒนาบริการระบบรู้จำเสียงพูดภาษาไทย โดยได้รับทุนสนับสนุนจากโปรแกรมเทคโนโลยีฐานของเนคเทค สวทช. เป็นระยะเวลา 2 ปี 6 เดือน จะเสร็จสิ้นโครงการในเดือนพฤษภาคม 2558 นี้ มีเป้าหมายเพื่อขยายงานวิจัยด้านเทคโนโลยีรู้จำเสียงพูดภาษาไทยที่เนคเทคได้ตั้งต้นขึ้นตั้งแต่ปี 2543 จากระบบที่มีข้อจำกัดมากมาย อาทิ จำกัดจำนวนคำศัพท์ จำกัดไวยากรณ์ จำกัดสภาวะแวดล้อมของการใช้งาน และจำกัดความสามารถในการขยายบริการ ไปสู่ระบบรู้จำเสียงพูดภาษาไทยแบบไม่จำกัดเนื้อหา ความถูกต้องของการรู้จำทัดเทียมเทคโนโลยีจากต่างชาติโดยเฉพาะการใช้งานผ่านสมาร์ทโฟน สามารถตอบสนองได้รวดเร็ว สามารถขยายขนาดของบริการ และต่อยอดไปเป็นระบบประยุกต์ได้ตามต้องการ
พื้นฐานเทคโนโลยีรู้จำเสียงพูด
ระบบรู้จำเสียงพูดประกอบด้วย 3 ส่วนสำคัญคือ
- พจนานุกรมคำอ่าน บรรจุคำศัพท์ทั้งหมดที่ระบบรู้จักรและคำอ่านในรูปแบบหน่วยเสียง
- แบบจำลองภาษา ใช้กำหนดว่าคำใดๆ ในพจนานุกรมของระบบจะต่อด้วยอีกคำหนึ่งได้ด้วยความน่าจะเป็นเท่าใด
- แบบจำลองเสียง ใช้กำหนดว่าหน่วยเสียงแต่ละหน่วยสามารถออกเสียงได้อย่างไร
การทำงานของระบบมี 2 ขั้นตอนหลัก ขั้นแรกการสกัดค่าสำคัญ เป็นขั้นตอนการดึงค่าพารามิเตอร์ที่ใช้เป็นตัวแทนสัญญาณเสียง โดยจะตัดแบ่งสัญญาณเสียงออกเป็นช่วงย่อยๆ แต่ละช่วงจะถูกแปลงเป็นค่าทางความถี่ของสัญญาณเสียงซึ่งใช้เป็นตัวแทนของเสียงในช่วงนั้นๆ ขั้นที่สอง ระบบจะดึงคำศัพท์จากพจนานุกรมมาต่อกันเป็นโครงข่าย แต่ละคำในโครงข่ายจะถูกแปลงเป็นหน่วยเสียงตามที่ระบุในพจนานุกรมคำอ่าน ค่าสำคัญของเสียงที่ได้จากขั้นตอนแรกจะถูกป้อนเข้าสู่โครงข่ายพร้อมคำนวณความน่าจะเป็นที่เสียงอินพุตจะใกล้เคียงกับเส้นทางในโครงข่าย เส้นทางในโครงข่ายที่มีความน่าจะเป็นสูงสุดจะเป็นคำตอบของการรู้จำ
จากพื้นฐานการทำงานดังกล่าว ระบบจะมีความสามารถสูงหรือไม่ขึ้นอยู่กับความครอบคลุมของพจนานุกรมคำอ่าน ขึ้นอยู่กับขนาดของคลังข้อความที่นำมาสร้างแบบจำลองภาษาซึ่งจะต้องคำนวณความน่าจะเป็นของการต่อกันของคำในภาษาได้อย่างแม่นยำ และขึ้นอยู่กับความครอบคลุมของคลังข้อมูลเสียงที่นำมาสร้างแบบจำลองเสียงซึ่งจะต้องรองรับสภาวะแวดล้อมและผู้พูดที่หลากหลาย บริการรู้จำเสียงพูดภาษาไทยที่ใช้ใน Google Voice Search อาจครอบคลุมคำศัพท์ในภาษาไทยได้หลายแสนคำ ใช้คลังข้อความขนาดหลายร้อยล้านคำและคลังข้อมูลเสียงที่ครอบคลุมผู้พูดหลายพันคนในการสร้างแบบจำลองภาษาและแบบจำลองเสียง ความสามารถของระบบยังขึ้นอยู่กับการวิศวกรรมระบบให้ทำงานตอบสนองได้อย่างรวดเร็ว โดยอาจใช้การกระจายการคำนวณด้วย Cloud computing ขนาดใหญ่ ตลอดจนความก้าวหน้าของวิทยาการด้านการประมวลผลสัญญาณเสียงขั้นต้นเพื่อลดสัญญาณรบกวนที่อาจลดประสิทธิภาพของการรู้จำได้
สมรรถภาพ
ระบบรู้จำเสียงพูดภาษาไทย “พาที (PARTY)” เวอร์ชัน 1.0 มีคุณสมบัติสำคัญดังนี้
- ไม่จำกัดเนื้อหา (Open domain) – พาที ได้ใช้วิทยาการใหม่ที่สร้างขึ้น โดยมีพจนานุกรมในระบบขนาดเพียง 40,000 คำ บรรจุหน่วยคำผสมกับหน่วยพยางค์ที่ใช้บ่อยในภาษาไทย หน่วยพยางค์สามารถผสมเป็นคำใหม่ๆ ที่ระบบไม่รู้จัก ส่งผลให้ครอบคลุมคำศัพท์ได้ใกล้เคียงกับระบบที่มีพจนานุกรมขนาดเกิน 140,000 คำ ทั้งยังช่วยลดปริมาณทรัพยากรที่ต้องใช้ในการคำนวณอย่างมากด้วยเช่นกัน
- ความแม่นยำ 80% (Accuracy) – ภายใต้การทดสอบกับเสียงพูดผ่านช่องทางข้อมูล (data channel) ด้วยสมาร์ทโฟน โดยไม่กำหนดเนื้อหา ผู้พูด หรือรูปแบบการพูด ระบบให้ความถูกต้องของการรู้จำเกือบ 80% ซึ่งใกล้เคียงกับบริการจากต่างประเทศ (ทดสอบเมื่อพฤษภาคม 2557)
- ตอบสนองภายใน 1.5xRT (Response time) – การทดสอบความเร็วในการตอบสนองภายใต้เครือข่าย WiFi และเครือข่าย 3G จำลอง พบว่าพาทีสามารถตอบสนองได้ภายในเวลาไม่เกิน 1.5 เท่าของความยาวของเสียงอินพุต ซึ่งใกล้เคียงกับการตอบสนองของบริการรู้จำเสียงพูดภาษาไทยจากต่างประเทศ
- เว็บบริการพร้อมติดตั้งและปรับแต่งได้ (Customizable) – จุดเด่นสำคัญของ พาที คือความเชี่ยวชาญของทีมวิจัยและพัฒนาในการปรับแต่งระบบตามความต้องการ ปัจจุบันพาทีอยู่ในรูปแบบเว็บบริการพร้อมติดตั้งในหน่วยงานที่ต้องการใช้งาน สามารถขยายบริการตามปริมาณการใช้งาน และปรับแต่งระบบให้ถอดความได้ถูกต้องมากขึ้นในเนื้อหาหรือผู้พูดที่กำหนดได้
ประโยชน์
ระบบรู้จำเสียงพูดภาษาไทย พาที เป็นเครื่องมือพื้นฐานที่ประยุกต์ใช้ให้เกิดประโยชน์ได้หลากหลาย โดยเฉพาะอย่างยิ่งในยุคปัจจุบันที่ผู้คนสามารถติดต่อสื่อสารและเข้าถึงข้อมูลข่าวสารได้สะดวกรวดเร็วผ่านสมาร์ทโฟนและเครือข่ายอินเทอร์เน็ต ตัวอย่างการประยุกต์ใช้ ได้แก่
- การสื่อสารโทรคมนาคม (Telecommunication) – ระบบรู้จำเสียงพูดใช้แปลงเสียงพูดลูกค้าที่ติดต่อเข้าที่ศูนย์บริการลูกค้าหรือ Contact center ผ่านทางโทรศัพท์อย่างกว้างขวางในต่างประเทศ แต่ในประเทศไทยมีการใช้งานระบบดังกล่าวในวงจำกัด เป้าหมายของนวัตกรรมนี้นอกจากต้องการวิเคราะห์ความต้องการของลูกค้า ลดค่าใช้จ่ายในการฝึกอบรมพนักงาน เพิ่มประสิทธิภาพของการให้บริการแล้ว ยังใช้ในการติดตามตรวจสอบการทำงานของพนักงานผู้ให้บริการด้วย บทความของ DMG Consulting LLC สำรวจการใช้งานในสหรัฐอเมริกา พบว่าสามารถเพิ่มการรับสายลูกค้าได้ 20-60% โดยที่ลูกค้าถึง 80% มีความพึงพอใจที่จะใช้ระบบดังกล่าว และในปัจจุบัน พาที กำลังอยู่ระหว่างการทดสอบภาคสนามร่วมกับบริษัทเอกชนที่ให้บริการศูนย์บริการลูกค้าในลักษณะดังกล่าว
- สิ่งอำนวยความสะดวกในการป้อนข้อมูล (Voice data input) – เมื่อนโยบายภาครัฐให้ความสำคัญที่บริการต่างๆ โดยเฉพาะบริการจากภาครัฐจะต้องสามารถเข้าถึงได้อย่างทั่วถึงและเท่าเทียม เทคโนโลยีนี้จึงกลายเป็นส่วนประกอบสำคัญที่จะถูกนำไปต่อยอดเป็นนวัตกรรมสิ่งอำนวยความสะดวกแก่ผู้พิการ คนชรา และผู้ด้อยโอกาส เนคเทคมีแผนในการประยุกต์ใช้ระบบรู้จำเสียงพูดช่วยในศูนย์บริการถ่ายทอดการสื่อสารสำหรับผู้บกพร่องทางการได้ยิน (Thailand Telecommunication Relay Service หรือ TTRS) ซึ่งให้บริการอยู่ในปัจจุบัน นอกจากนี้ การป้อนข้อมูลด้วยเสียงพูดยังสามารถประยุกต์ใช้ในนวัตกรรมที่สร้างโอกาสทางธุรกิจได้อีกมาก เช่น ความต้องการป้อนข้อมูลอย่างรวดเร็วผ่านอุปกรณ์พกพาหรือสมาร์ทโฟนภายใต้สถานการณ์ฉุกเฉิน การป้อนข้อมูลเพื่อบริหารคลังสินค้าขนาดใหญ่ ตลอดจนการป้อนข้อมูลด้วยเสียงเพื่อสั่งการอุปกรณ์ต่างๆ ภายในอาคารบ้านเรือน ปัจจุบันเนคเทคอยู่ระหว่างการทดสอบภาคสนามกับบริษัทเอกชนเพื่อพัฒนาสมาร์ทโฟนให้เป็นรีโมทคอนโทรลแบบใหม่โดยใช้เสียงสั่งการผ่านไปบังกล่องรับทีวีในการเลือกช่องรายการ โดยเล็งเห็นถึงช่องทางในอนาคตที่นวัตกรรมนี้จะมาทดแทนการใช้รีโมทคอนโทรลที่ใช้อยู่ในปัจจุบัน
- นอกจากนี้ การป้อนข้อมูลด้วยเสียงพูดยังสามารถประยุกต์ใช้ในนวัตกรรมที่สร้างโอกาสทางธุรกิจได้อีกมาก เช่น ความต้องการป้อนข้อมูลอย่างรวดเร็วผ่านอุปกรณ์พกพาหรือสมาร์ทโฟนภายใต้สถานการณ์ฉุกเฉิน การป้อนข้อมูลเพื่อบริหารคลังสินค้าขนาดใหญ่ ตลอดจนการป้อนข้อมูลด้วยเสียงเพื่อสั่งการอุปกรณ์ต่างๆ ภายในอาคารบ้านเรือน ปัจจุบันเนคเทคอยู่ระหว่างการทดสอบภาคสนามกับบริษัทเอกชนเพื่อพัฒนาสมาร์ทโฟนให้เป็นรีโมทคอนโทรลแบบใหม่โดยใช้เสียงสั่งการผ่านไปบังกล่องรับทีวีในการเลือกช่องรายการ โดยเล็งเห็นถึงช่องทางในอนาคตที่นวัตกรรมนี้จะมาทดแทนการใช้รีโมทคอนโทรลที่ใช้อยู่ในปัจจุบัน
- การถอดความข้อมูลเสียง (Audio transcription) – ในขณะที่ข้อมูลเสียงขนาดใหญ่เกิดขึ้นในทุกวัน ความต้องการถอดความเพื่อนำข้อมูลข่าวสารไปใช้ประโยชน์ต่อก็ต้องมีการลงทุนเพิ่มขึ้นอย่างมากตามไปด้วย ตัวอย่างเช่น ความต้องการในการจัดทำรายงานการประชุมรัฐสภาของสำนักงานเลขาธิการรัฐสภาและวุฒิสภาที่ต้องสำเร็จออกเป็นร่างรายงานภายในเวลาอันสั้น ความต้องการจัดทำรายงานการไต่สวนคดีในศาลยุติธรรมเพื่อให้ผู้ที่เกี่ยวข้องลงนามรับรองหลังจบการไต่สวน ความต้องการถอดความเสียงบันทึกเทปต่างๆ เพื่อการสืบค้นย้อนหลังได้ง่ายขึ้น เป็นต้น ความต้องการเหล่านี้ล้วนมีความเป็นไปได้ในการประยุกต์ใช้เทคโนโลยีการรู้จำเสียงพูด พาที ในปัจจุบันเนคเทคได้รับการติดต่อจากหน่วยงานที่ให้ความสนใจดังกล่าว และอยู่ระหว่างศึกษาความเป็นไปได้ในการประยุกต์ใช้ให้มีประสิทธิภาพ
ทีมวิจัยและพัฒนา
- ชัย วุฒิวิวัฒน์ชัย (ดร.) หัวหน้าโครงการ
- วาทยา ชุณห์วิจิตรา (ดร.) นักวิจัยส่วนรู้จำเสียงพูด
- อนันต์ลดา โชติมงคล (ดร.) นักวิจัยส่วนรู้จำเสียงพูด
- ศิลา ชุณห์วิจิตรา (ดร.) นักวิจัยส่วนวิศวกรรมระบบ
- ณัฐนันท์ ทัดพิทักษ์กุล (ดร.) นักวิจัยส่วนนวัตกรรม
- ศวิต กาสุริยะ นักวิจัยส่วนถ่ายทอดเทคโนโลยี
- ขวัญชีวา แตงไทย ผู้ช่วยนักวิจัยส่วนรู้จำเสียงพูด
- พุทธพงศ์ เสริฐศรี ผู้ช่วยนักวิจัยส่วนนวัตกรรม
- ณัฐพงษ์ เครือภักดี ผู้ช่วยนักวิจัยส่วนวิศวกรรมระบบ
- ภัชริกา ชูตระกูล ผู้ช่วยนักวิจัยส่วนคลังข้อมูล
ห้องปฏิบัติการวิจัยเทคโนโลยีเสียง หน่วยวิจัยวิทยาการสารสนเทศ ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ
ข้อมูลเพิ่มเติม
Website: https://party.openservice.in.th
สนใจ / สอบถามเพิ่มเติม
- ฝ่ายพัฒนาธุรกิจและถ่ายทอดเทคโนโลยี (BTT)
- ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (เนคเทค)
- โทร. 0 2564 6900 ต่อ 2346, 2351-2354, 2357, 2382, 2383, 2399
- email : business[at]nectec.or.th