การสื่อสารด้วยเสียงพูดเป็นรูปแบบการสื่อสารพื้นฐานที่สำคัญที่ทำให้ผู้รับสารสามารถเข้าถึงข่าวสารที่ต้องการสื่อได้ง่ายและมีประสิทธิภาพ โดยไม่ต้องพึ่งพาจอภาพ เทคโนโลยีสร้างเสียงพูดจากข้อความ (Text-to-Speech synthesis: TTS) จึงเป็นเทคโนโลยีสำคัญที่จะเป็นเครื่องมือช่วยประชาสัมพันธ์ข่าวสารได้ในทุกพื้นที่ โดยสามารถสื่อสารเข้าถึงได้ทั้งกรณีเฉพาะบุคคลหรือการประกาศแบบวงกว้างในที่สาธารณะ โดยให้ระบบคอมพิวเตอร์สร้างเสียงคำพูดเพื่ออ่านข้อความตามที่กำหนดแบบอัตโนมัติเพื่อตอบสนองผู้รับสารหรือลูกค้าแบบทันทีทันใด ปรับเปลี่ยนได้ทันต่อแหตุการณ์ และเหมาะสมตามสถานการณ์ ซึ่งมีจุดเด่นที่เหนือกว่าการใช้เสียงที่บันทึกไว้ล่วงหน้า
เทคโนโลยีสังเคราะห์เสียง “วาจา (VAJA)” เป็นการประยุกต์เทคโนโลยีด้านการประมวลผลภาษาธรรมชาติ (Natural language processing) ร่วมกับเทคโนโลยีสังเคราะห์เสียงพูด (Speech synthesis) ที่ได้รับการพัฒนาอย่างต่อเนื่องโดยเนคเทคมามากกว่า 10 ปี โดยมุ่งเน้นที่คุณภาพในการอ่าน ทั้งในแง่ความถูกต้องในการอ่าน และคุณภาพของเสียงที่สร้างขึ้น โดยในปัจจุบันได้พัฒนามาถึง วาจา รุ่นที่ 7.0 ซึ่งเพิ่มความสามารถในการออกเสียงได้ทั้งภาษาไทยและภาษาอังกฤษ โดยใช้เทคนิควิเคราะห์วิธีการสะกดคำที่อยู่ภายในเพื่อรองรับการอ่านข้อความใดๆที่ต้องการได้ เช่น ชื่อบุคคล สถานที่ เป็นต้น โดยได้พัฒนาให้ใช้งานได้บนระบบปฏิบัติการ Microsoft Windows (นอกจากนี้เพื่อให้เข้าถึงกลุ่มผู้ใช้ที่หลากหลายจึงได้ขยายการใช้งานให้รองรับทั้งบนระบบปฏิบัติการ Linux และ Android อีกด้วย) ซึ่งผู้ใช้ทั่วไปหรือผู้พัฒนาซอฟต์แวร์สามารถเรียกใช้งานเพื่อให้ซอฟต์แวร์ที่ใช้งานอยู่ (ที่รองรับระบบ TTS) หรือที่พัฒนาขึ้นมีความสามารถในการสร้างเสียงพูดออกมากได้โดยง่าย นอกจากนี้สามารถปรับน้ำเสียง เช่น การปรับความเร็วในการอ่าน การปรับเสียงสูงต่ำ ให้เหมาะสมกับการใช้งานได้ผ่านส่วนตัวติดต่อผู้ใช้บนหน้าจอ (Graphic User Interface: GUI) หรือควบคุมผ่านชุดรหัสคำสั่งแบบ XML (XML Tags) ที่ใส่แทรกอยู่ในข้อความ และสามารถสร้างเสียงออกทางลำโพงหรือสร้างเป็นไฟล์เสียงเพื่อนำไปใช้งานต่อยอดในซอฟต์แวร์อื่นๆ ต่อไป
คุณสมบัติ:
- เสียงพูด 2 ภาษา : สร้างเสียงอ่านข้อความได้ทั้งภาษาไทยและอังกฤษ ด้วยเสียงผู้ประกาศที่เป็นสองภาษา
- ส่วนวิเคราะห์การอ่าน: รองรับการอ่านคำใดๆ เช่น ชื่อเฉพาะ หรือคำศัพท์ใหม่
- คุณภาพเสียงใกล้เคียงกับคน: มีการพัฒนาต่อเนื่องเพื่อให้ได้เสียงที่มีความใกล้เคียงคน
- การตอบสนองรวดเร็ว: ได้พัฒนาความเร็วในการสร้างเสียงอยู่ในระดับที่ใกล้เคียงระดับที่คนแยกแยะความล่าช้าในการตอบสนองไม่ได้
- การปรับรูปแบบการอ่าน : รองรับการปรับความเร็วในการอ่าน การปรับน้ำเสียงสูงต่ำ การปรับความดัง
- Microsoft SAPI 5.0 Text-to-Speech Interfaces: รองรับการทำงานผ่าน Microsoft Speech APIs ซึ่งมีซอฟต์แวร์ที่รองรับการทำงานจำนวนมาก และสามารถเขียนโปรแกรมเรียกใช้งานวาจาได้ง่าย
- รหัส XML กำกับรูปแบบการอ่าน: รองรับ SAPI 5 XML Tag สำหรับการควบคุมการอ่าน เช่น การปรับความเร็ว การเว้นวรรค การอ่านแบบสะกด เป็นต้น
- คุณสมบัติเสียง
- ชื่อโมเดลเสียง: นก
- ประเภทเสียง: เสียงผู้หญิง
- ภาษา: Bilingual (ไทย-อังกฤษ)
- รูปแบบเสียง: PCM, 22,050 Hz, 16 bits, Mono
- ลักษณะการพูด: แบบอ่านหนังสือ
ข้อกำหนดความต้องการของระบบที่จะติดตั้ง:
- Operating system: Windows 7, Windows 8.1, Windows 10
- RAM: 1 GB or higher
- Available storage space: 100 MB or higher
- Sound card: General sound card
ข้อกำหนดความต้องการของระบบด้านซอฟต์แวร์:
- Supported APIs
- Speech markup: SAPI 5 XML tags (2)
- Text processing: Thai and English text processing
ประโยชน์:
- ใช้สร้างระบบติดต่อผู้ใช้ด้วยเสียงตอบรับ
- ใช้อ่าน e-book, email, ไฟล์เอกสาร ให้ออกมาเป็นเสียง หรือเป็นไฟล์เสียงไว้ฟังภายหลัง
- ใช้สร้างระบบเรียกคิว ที่สามารถเรียกได้ทั้ง หมายเลข ชื่อ-นามสกุล และการแนะนำขั้นตอน
- ใช้สร้างระบบสื่อการสอนและอบรม ที่มีเสียงบรรยายได้ทั้งภาษาไทยและอังกฤษ
- ใช้เป็นเสียงประกาศของซอฟต์แวร์ผู้ช่วยอิเล็กทรอนิกส์
- ใช้เป็นเสียงอ่านหน้าจอคอมพิวเตอร์สำหรับผู้พิการทางสายตา ผู้มีสายตาเลือนลาง ผู้สูงอายุ
แนวทางการถ่ายทอดเทคโนโลยี:
- การอนุญาตให้ใช้สิทธิ์ (Licensing) เพื่อการใช้งาน โดยคิดราคา License ละ 1,800 บาท (ไม่รวม VAT)
ทีมวิจัยและพัฒนา:
- ดร. ชัชวาลย์ หาญสกุลบรรเทิง (หัวหน้าโครงการ)
- ห้องปฏิบัติการวิจัยเทคโนโลยีเสียง (SPT)
- chatchawarn.han@nectec.or.th
สนใจผลิตภัณฑ์/ผลงาน:
- ติดต่อ ฝ่ายพัฒนาธุรกิจและถ่ายทอดเทคโนโลยี
- ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (เนคเทค)
- 112 ถนนพหลโยธิน ตำบลคลองหนึ่ง
- อำเภอคลองหลวง จังหวัดปทุมธานี 12120
- อีเมล: business@nectec.or.th
- โทร. 0 2564 6900 ต่อ 2346, 2351-2354, 2357, 2382, 2383, 2399