รายงาน : ค่ายใหญ่ระเบิดศึก ชิงเจ้าตลาดเทคโนโลยีจดจำเสียง
ไมโครซอฟท์ นำทีมอินเทล ซัน และไอบีเอ็ม
มุ่งหน้าประดิษฐ์ ทั้งอินเทอร์เฟซสั่งงาน แบบผสมผสาน และซอฟต์แวร์จดจำคำพูด
เปิดฉากแข่งเดือด ชิงเค้กส่วนแบ่งตลาด เทคโนโลยีจดจำเสียง ขณะที่ชูธงเน้นประโยชน์ ใช้สังเกตการณ์ผู้ป่วย
และตรวจหาอาชญากรเป็นจุดขาย
แม้ว่าผู้ผลิตคอมพิวเตอร์หลายรายจะมีความพยายามในการพัฒนาระบบงานจดจำเสียงมาเป็นเวลานานแล้ว
แต่โครงการเหล่านี้ไม่ค่อยมีความคืบหน้ามากนัก เนื่องจากมีอุปสรรคเกี่ยวกับระบบประมวลผลพีซี
ซึ่งยังคงไม่มีกำลังมากพอที่จะรองรับชุดคำสั่ง รวมทั้งตัวซอฟต์แวร์ในระยะแรกๆ ก็ยังคงมีข้อจำกัดหลายอย่าง
แต่สถานการณ์ดังกล่าวเปลี่ยนแปลงไป เมื่อมีการพัฒนาเทคโนโลยีชิพประมวลผลขึ้นในระยะหลัง
โดยปัจจุบัน ชิพประมวลผลส่วนใหญ่รันด้วยความเร็วสูงกว่า 1.5 กิกะเฮิรตซ์
ขณะที่ชิพสำหรับคอมพิวเตอร์ระดับบนบางรุ่นมีความเร็วถึง 3.0
กิกะเฮิรตซ์
ไมโครซอฟท์ผุด"จีวินโดว์ส"นำร่อง
ส่งผลให้บริษัท ไมโครซอฟท์ คอร์ป
ยักษ์ใหญ่วงการซอฟต์แวร์ ประกาศเปิดตัวโปรแกรม จีวินโดว์ส (GWindows) ที่สร้างความตื่นตาตื่นใจให้แก่อุตสาหกรรมไอทีได้ไม่น้อย
เมื่อช่วงกลางเดือนเมษายนที่ผ่านมา นายแอนดี้ วิลสัน วิศวกรแห่งทีมวิจัยไมโครซอฟท์
รีเสิร์ช ผู้ออกแบบโปรแกรมดังกล่าว เปิดเผยว่า จีวินโดว์ส
เป็นโปรแกรมอินเทอร์เฟซรูปแบบใหม่ ซึ่งอาศัยการเคลื่อนไหวของมือในการสื่อสารกับหน้าจอวินโดว์สบนคอมพิวเตอร์
และทำงานได้ดีกว่าระบบจดจำคำพูดทั่วไป อาทิ เมื่อผู้ใช้เคลื่อนไหวมือตามรูปแบบที่กำหนดไว้
โปรแกรมวินโดว์สจะเปลี่ยนจากหน้าจอหนึ่งเป็นอีกหน้าจอหนึ่ง คล้ายกับฉากในภาพยนตร์
"ไมนอริตี้ รีพอร์ท" แต่ต่างกันที่อินเทอร์เฟซตัวนี้ไม่ต้องอาศัยถุงมือพิเศษแต่อย่างใด
นอกจากนี้ ยังทำให้กล้องวิดีโอที่เชื่อมต่อกับจอทีวีมองตามวัตถุที่เคลื่อนไหวภายในระยะ
20 นิ้ว เช่น มือหรือเครื่องชี้ จากนั้น
ระบบงานดังกล่าวจะแปลรูปแบบการเคลื่อนไหวเหล่านี้เป็นคำสั่งคอมพิวเตอร์ อาทิ
การวางนิ้วไว้บริเวณด้านบนของจอวินโดว์สและเคลื่อนนิ้วมือไปทางซ้าย ก็จะทำให้จอวินโดว์สเคลื่อนไปทางซ้าย
ถ้าหากมีการใช้คำสั่งเสียงร่วมด้วย เช่น การสั่งว่า "เลื่อน"
พีซีก็จะเชื่อมโยงคำสั่งนิ้วมือกับคำสั่งเสียงเข้าด้วยกันแล้วทำการเลื่อนจอภาพลง
อินเทลส่ง"ระบบโสตทัศนะ"ร่วมวง
หลังจากนั้นไม่นาน บริษัท อินเทล คอร์ป ก็ได้เปิดตัวซอฟต์แวร์จดจำคำพูดระบบโสตทัศนะ
"ออดิโอ วิช่วล สปีช รีคอกนิชั่น" หรือ เอวีเอสอาร์
(The Audio Visual Speech Recognition-AVSR) ออกมาเช่นกัน ซอฟต์แวร์ตัวนี้สามารถเชื่อมโยงลักษณะการเคลื่อนไหวกับคำพูดได้
ซึ่งจะมีคุณสมบัติพิเศษ คือช่วยให้คอมพิวเตอร์สามารถรับคำสั่งด้วยเสียงได้แม้ในบริเวณที่มีเสียงอึกทึก
ทางบริษัทได้เตรียมพัฒนาระบบงานข้อมูลภาพอื่นๆ ต่อยอดจากเทคโนโลยีเอวีเอสอาร์ อาทิ
ซอฟต์แวร์ที่ใช้กล้องถ่ายภาพในการสังเกตการณ์ผู้ป่วยในโรงพยาบาล และซอฟต์แวร์ที่ใช้ข้อมูลจากกล้องวงจรปิดเพื่อค้นหาผู้มีแนวโน้มเป็นอาชญากรตามที่จอดรถต่างๆ
โดยโปรแกรมเหล่านี้ ต่างอาศัยหลักการเดียวกัน คือ การกำหนดให้เครื่องคอมพิวเตอร์ส่งสัญญาณเตือนเมื่อเห็นสถานการณ์ผิดปกติ
เช่น เมื่อคลื่นสมองผู้ป่วยเริ่มเต้นช้าลง
หรือพบคนเดินจากรถคันหนึ่งไปยังรถอีกคันหนึ่ง แทนที่จะเดินตรงไปยังห้าง ตัวแทนบริษัท
เปิดเผยว่า โปรแกรมเอวีเอสอาร์เป็นส่วนหนึ่งของห้องสมุดโอเพ่น ซีวี ซึ่งเป็นศูนย์รวบรวมระบบงานโอเพ่นซอร์ส
และเครื่องมือที่ช่วยให้คอมพิวเตอร์สามารถแปลความหมายข้อมูลภาพได้ โดยซอฟต์แวร์ตัวนี้ได้รับการพัฒนาขึ้นในห้องทดลองสาขาประเทศจีนของอินเทล
ซันดัน"สฟิงค์"ตามติด
นอกจากนี้ บริษัท ซัน ไมโครซิสเต็มส์ ก็มีโครงการพัฒนาซอฟต์แวร์จดจำเสียงโดยใช้โปรแกรมภาษาจาวาของตน
โดยโครงการนี้เป็นการร่วมมือกับมหาวิทยาลัยคาร์เนกี เมลลอน เพื่อทดลองพัฒนาโปรแกรมจดจำเสียง
"สฟิงค์" ของทางมหาวิทยาลัย รวมทั้งยังมีนักวิจัยจากห้องทดลองบริษัท
มิตซูบิชิ อิเล็กทริก เข้าร่วมด้วย ทั้งนี้ ตัวแทนซัน กล่าวว่า
จุดมุ่งหมายของโครงการนี้ เพื่อแสดงให้เห็นว่าแพลตฟอร์มจาวาสามารถรองรับงานด้านการประมวลผลคอมพิวเตอร์
และโปรแกรมที่อาศัยหน่วยความจำสูงๆ ได้ ขณะที่ ตัวแทนทีมวิจัย เปิดเผยว่า สำหรับซอฟต์แวร์ที่พัฒนาขึ้นจะเป็นโปรแกรมโอเพ่นซอร์ส
ซึ่งสามารถจดจำคำศัพท์ได้ถึง 1,000 คำ อีกทั้งมีระดับความแม่นยำในการจดจำเสียงมากกว่าซอฟต์แวร์สฟิงค์เวอร์ชั่นอื่นๆ
ที่ผ่านมา และจัดว่ามีความเร็วปฏิบัติการอยู่ในระดับสูง แต่นายวิลลี่ วอลเคอร์
นักวิจัยของซัน ยังคงกล่าวว่า เขายังไม่ต้องการอวดอ้างคุณสมบัติใดๆ จนกว่าจะสามารถพัฒนาให้ซอฟต์แวร์ตัวนี้จดจำคำศัพท์ได้ถึง
64,000 เสียง พร้อมเปิดเผยว่า โครงการดังกล่าวจะมีประโยชน์ในการช่วยให้ผู้พิการสามารถเข้าถึงคอมพิวเตอร์ได้มากขึ้น
ไอบีเอ็มไม่น้อยหน้าเร่งพัฒนา"มาสทอร์"
ด้านบริษัท ไอบีเอ็ม เปิดตัวโครงการพัฒนา "มาสทอร์"
(MASTOR-Multilingual Automatic Speech-to-Speech Technology) ซอฟต์แวร์แปลภาษาเวอร์ชั่นทดสอบ
ที่ช่วยให้ผู้ใช้สามารถสื่อสารในอีกภาษาได้โดยไม่ต้องพิมพ์คำลงบนเครื่อง โดยมีหลักการทำงาน
คือ เมื่อคู่สนทนารายหนึ่งพูดภาษาของตนผ่านไมโครโฟนที่เชื่อมต่อกับเครื่อง ซอฟต์แวร์จะถ่ายทอดคำพูดเหล่านั้นเป็นตัวหนังสือ
ซึ่งจะปรากฏบนจอภาพ จากนั้นจะทำการแปลเป็นข้อความในอีกภาษาหนึ่ง
พร้อมกับถ่ายทอดออกมาเป็นเสียงพูด ช่วยให้คู่สนทนาที่ใช้ภาษาต่างกัน อาทิ
ภาษาอังกฤษและภาษาถิ่นเม็กซิกัน สามารถพูดคุยกันได้โดยตรงด้วยภาษาของตนเอง ทีมวิจัย
เชื่อว่า ซอฟต์แวร์ตัวนี้ จะมีประโยชน์สำหรับการใช้งานส่วนตัว, การใช้งานด้านธุรกิจ, การใช้พยากรณ์อากาศตามท้องถิ่นต่างๆ
ณ เวลาจริง และงานด้านสุขภาพ เช่น การใช้ในห้องฉุกเฉิน
ซึ่งผู้ป่วยไม่สามารถพูดภาษาท้องถิ่นได้
ที่มา : กรุงเทพธุรกิจ ฉบับวันที่ 6 พฤษภาคม
2546
|