ทีมวิจัยการเข้าใจเสียงและข้อความ หรือ Speech and Text Understanding (STU) ดำเนินการค้นคว้าวิจัยและพัฒนาเทคโนโลยีที่เกี่ยวข้องกับ ภาษาพูดและภาษาเขียนของมนุษย์ ซึ่งถือเป็นสื่อพื้นฐานที่ขาดไม่ได้สำหรับการติดต่อสื่อสารของมนุษย์ แต่คงไว้ซึ่งความซับซ้อน ความหลากหลาย และความสวยงาม ที่เกิดจากการสร้างสรรค์และสืบทอดต่อกันมา เป็นองค์ความรู้และวัฒนธรรมที่แตกต่างกันในแต่ละภูมิภาค การประมวลผลภาษาจึงมีความน่าสนใจและท้าทาย ผลลัพธ์ของการวิจัยและพัฒนานี้ ถือเป็นนวัตกรรมที่ช่วยอำนวยความสะดวกในการติดต่อสื่อสารระหว่างมนุษย์กับเครื่องจักร และระหว่างมนุษย์ด้วยกัน ซึ่งสามารถนำไปประยุกต์ใช้ในงานต่างๆ ได้อย่างกว้างขวาง อาทิ การสั่งการด้วยเสียงในโทรศัพท์มือถือ การสืบค้นข้อมูลในเครือข่ายอินเตอร์เน็ต และการวิเคราะห์ข้อความบนโซเชียลมีเดีย เป็นต้น
สารบัญ
วิสัยทัศน์
ผู้นำทางด้านงานวิจัยและพัฒนาเทคโนโลยีภาษาพูดและภาษาเขียนสำหรับภาษาไทย
พันธกิจ
- ความเป็นเลิศด้านการวิจัยและพัฒนา
- สร้างเครือข่ายและขยายกลุ่มผู้ร่วมวิจัย พันธมิตรและผู้ใช้งาน
- สร้างสภาพแวดล้อมพื้นฐานเพื่องานวิจัยสำหรับประเทศ
- ถ่ายทอดงานวิจัยเพื่อสร้างผลกระทบด้านเศรษฐกิจและสังคมอย่างยั่งยืน
เทคโนโลยีหลัก
- เทคโนโลยีการประมวลผลเสียงพูด (Speech Processing Technology)
- เทคโนโลยีการรู้จำเสียงพูด (Speech Recognition)
- เทคโนโลยีการสังเคราะห์เสียงพูด (Speech Synthesis)
- เทคโนโลยีภาพและเสียง (Audio-visual technology)
- เทคโนโลยีการประมวลผลและวิเคราะห์ข้อความ (Text Processing and Mining Technology)
- เทคโนโลยีการตัดคำ (Word Segmentation)
- เทคโนโลยีการค้นคืนและสืบค้นข้อความ (Information Retrieval and Search Engine)
- เทคโนโลยีการวิเคราะห์ข้อความ (Text Mining)
ผลงานเด่น
- 1. วาจา (VAJA): โปรแกรมสังเคราะห์เสียงพูดภาษาไทย
- โปรแกรมสังเคราะห์เสียงพูดภาษาไทย ทำหน้าที่แปลงข้อความภาษาไทยให้เป็นเสียงพูด ซึ่งห้องปฏิบัติการวิจัยเทคโนโลยีเสียง ได้ดำเนินการวิจัยและพัฒนาวาจาอย่างต่อเนื่องมาตั้งแต่ปี พ.ศ. 2540 จนมาถึงเวอร์ชั่นล่าสุด วาจา 8.0 ซึ่งมีคุณสมบัติดังต่อไปนี้
- สามารถสร้างเสียงคำพูดได้ครอบคลุมคำในภาษาไทย เนื่องจากมีส่วนวิเคราะห์คำอ่านที่สามารถวิเคราะห์ได้แม้แต่คำที่ไม่ปรากฎในพจนานุกรม
- ผู้ใช้สามารถเพิ่มคำเฉพาะ เช่น ชื่อบุคคล พร้อมทั้งกำหนดคำอ่านได้อย่างอิสระ เพื่อให้ซอฟต์แวร์สามารถแปลงข้อความมาเป็นเสียงพูดได้ตรงกับความต้องการของผู้ใช้
- รองรับการอ่านแบบสองภาษาไทย-อังกฤษ โดยเป็นเสียงของคนเดียวกัน
- รองรับการทำงานบนหลายแพลตฟอร์ม เช่น Windows (Microsoft Speech APIs), Linux Enterprise (Web APIs) และ Android (Android APIs)
- 2. พาที (Partii): โปรแกรมรู้จำเสียงพูดภาษาไทย
- เป็นโปรแกรมที่แปลงเสียงพูดภาษาไทยให้เป็นข้อความ ซึ่งห้องปฏิบัติการวิจัยเทคโนโลยีเสียง ได้ดำเนินการวิจัยและพัฒนาพาทีมาตั้งแต่ปี พ.ศ. 2556 และในเวอร์ชั่นปัจจุบัน มีคุณสมบัติดังต่อไปนี้
- ไม่จำกัดเนื้อหา (Open domain)
- ความแม่นยำอยู่ที่ 80% (Accuracy) ภายใต้การทดสอบกับเสียงพูดผ่านช่องทางข้อมูล (data channel) ด้วยสมาร์ทโฟน โดยไม่กำหนดเนื้อหา ผู้พูด หรือรูปแบบการพูด
- การทดสอบความเร็วในการตอบสนองภายใต้เครือข่าย WiFi และเครือข่าย 3G จำลอง พบว่าพาทีสามารถตอบสนองได้ภายในเวลาไม่เกิน 1.5 เท่าของความยาวของเสียงอินพุต
- รองรับการทํางานแบบ Server/Client ซึ่งการติดต่อจาก Client ถึง Server จะทําผ่าน gRPC โปรโตคอล แบบสัญญาณเสียงต่อเนื่อง (Streaming)
- สามารถปรับแต่งระบบตามความต้องการของผู้ใช้งาน อาทิเช่น ขยายระบบเพื่อขยายการรองรับการเชื่อมต่อ พร้อมกัน (ความต้องการ CPU, RAM, Network เพิ่มเติม), เพิ่มความถูกต้องของการรู้จํา ในเนื้อหาและสภาพแวดลอมที่กําหนด โดยใช้คลังข้อมูลเพิ่มเติม
- 3. เอสเซนส์ (S-sense): โปรแกรมวิเคราะห์ข้อความโซเชียลมีเดีย
- เป็นระบบวิเคราะห์ความคิดเห็นของบุคคลทั่วไปหรือกลุ่มลูกค้าบน โซเชียลมีเดีย ว่ารู้สึกอย่างไรต่อผลิตภัณฑ์ บริการ และยี่ห้อสินค้า โดยระบบจะรวบรวมข้อความจาก โซเชียลมีเดีย แล้วนำมาประมวลผลทางภาษาเพื่อแยกแยะ วิเคราะห์และแสดงผลด้วยรูปแบบที่เข้าใจง่าย ซึ่งห้องปฏิบัติการวิจัยเทคโนโลยีเสียง ได้ดำเนินการวิจัยและพัฒนาระบบ S-Sense มาตั้งแต่ปี พ.ศ. 2555 และในเวอร์ชั่นปัจจุบัน S-Sense 2.0 มีคุณสมบัติดังต่อไปนี้
- วิเคราะห์คำสำคัญที่เกี่ยวข้อง คำบ่งบอกคุณลักษณะของสินค้าหรือบริการ หรือคำที่มีการกล่าวถึงบ่อยครั้ง
- วิเคราะห์จุดประสงค์ของข้อความที่รวบรวมมาเป็นข้อความประเภทใด เช่น สอบถามปัญหา ร้องขอ หรือแสดงความคิดเห็น
- วิเคราะห์ความคิดเห็นของข้อความว่าเป็นเชิงบวกหรือลบ
- วิเคราะห์ประโยคเชิงเปรียบเทียบ
- 4. CopyCatch: โปรแกรมตรวจความเหมือนของข้อความในเอกสาร
- CopyCatch เป็นระบบตรวจสอบการคัดลอกและลอกเลียนเอกสารอิเล็กทรอนิกส์แบบอัตโนมัติ ซึ่งมีคุณสมบัติของระบบดังต่อไปนี้
- สนับสนุนการตรวจสอบเอกสารที่อยู่ในรูปแบบของ Plain Text (txt), Microsoft Word Document (doc, docx), Portable Document Format (pdf)
- สนับสนุนการตรวจสอบเอกสารท้ังภาษาไทยและภาษาอังกฤษ
- สามารถตรวจสอบเอกสารท่ีถูกเปลี่ยนแปลงบางส่วนได้ เช่น ลบคำ เพิ่มคำ หรือการสลับประโยค เป็นต้น
- สามารถตรวจสอบกับคลังเอกสารจำเพาะได้
- สามารถแสดงแถบสีของข้อความที่คล้ายกันพร้อมท้ังเปอร์เซ็นต์ความคล้าย
บุคลากรและความเชี่ยวชาญ
- ดร.วาทยา ชุณห์วิจิตรา : Automatic Speech Recognition, HMM-based Speech Synthesis
- ดร.ชัยอนันต์ ดำรงรัตน์ : Information Retrieval, Computer Vision, Augmented Reality, Knowledge Management, Mobile Application, Location-Based technology
- ดร.อัษฎางค์ แตงไทย : Speech processing, Thai Text processing, Audiovisual Speech Synthesis
- ดร.ขวัญชีวา แตงไทย : Multi-Modal Speech Recognition, Statistical Language Modeling
- นางสาว พรพิมล ผลินกูล : Linguistics, Corpus Linguistics, Lexicography
- นางสุมนมาศ ทัดพิทักษ์กุล : ภาษาศาสตร์และสัทศาสตร์
- นายศราวุธ คงยัง : Big Data Analytic, Text Mining and Machine Learning, Sentiment Analysis and Opinion Mining, Information Retrieval and Search Engine, Natural Language Processing, Software Engineering, Visualization
- นายสุพล ไกลถิ่น : Database Management System, Web Programming, Natural Language Processing
- ดร.สุรศักดิ์ บุญกล้า : Speech Processing, Voice Biometrics
- นายชัชวาล สังคีตตระการ : Information Retrieval, Search Engine, Question- Answering, Natural Language Processing, Mobile Application
- นางสาวกนกอร ตระกูลทวีคูณ : Web Programming and Design, Database Management System, Visualization
- นายสิทธิพงษ์ สายชุม : Speech Synthesis Technology, Text analysis, Natural Language Processing, Embedded software development
- นายพุทธพงศ์ เสริฐศรี : Speech Recognition, Computer Programming, Mobile App Development
- นายณัฐพงษ์ เครือภักดี : Speech Synthesis, Text analysis, Computer Programming, Business Software Development, System and Database Administrator
- ดร.วัฒนศักดิ์ เจียมวัฒนชัย : Smart Agent
ติดต่อ
ทีมวิจัยการเข้าใจเสียงและข้อความ(STU)
กลุ่มวิจัยปัญญาประดิษฐ์ (AINRG)
ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (เนคเทค)
อีเมล : stu[at]nectec.or.thโทร. 0 2564 6900 ext. 2232