โปรแกรมตัดคำภาษาไทยแบบอิงการเรียนรู้ของเครื่องทีเล็กซ์ (TLexPlus: Thai Lexeme Analyser)
TLexPlus คือ ระบบแบ่งคำภาษาไทย โดยใช้เทคนิคการเรียนรู้ด้วยเครื่องคอมพิวเตอร์ (Machine Learning) โดยอาศัยหลักการ Conditional Random Fields(CRFs) ร่วมกับคลังข้อมูลของ BEST2009 ขนาด 9 ล้านคำ ในการเรียนรู้
จุดเด่นของ TLexPlus คือ สามารถแบ่งคำที่เกิดขึ้นใหม่ คำในภาษาต่างประเทศ หรือคำแสลงใหม่ ได้อย่างถูกต้อง โดยไม่ต้องอาศัยพจนานุกรม เหมาะสำหรับนำไปแบ่งคำเพื่อหานิพจน์ระบุนาม (Named Entities) หรือชื่อเฉพาะต่างๆ
คุณสมบัติ
- สามารถทำงานได้กับทุกระบบปฏิบัติการ (Windows, Unix based, OSX)
- รองรับการทำงานในรูปแบบเซอร์วิส (REST Full Service)
- ประมวลผลได้อย่างรวดเร็ว
- รองรับการจัดการคำที่เกิดขึ้นใหม่ คำในภาษาต่างประเทศ หรือคำแสลงใหม่
- รองรับการจัดการคำที่ไม่อยู่ในพจนานุกรมอย่างชาญฉลาด
- เรียนรู้จากคลังข้อมูลของ BEST2009 ขนาด 9 ล้านคำ
- มีโมเดลการเรียนรู้ให้เลือกหลายขนาดตามความเหมาะสมของการใช้งาน
- มีระบบจัดการคำศัพท์เพื่อให้ TLexPlus สามารถแบ่งคำได้ตามที่ต้องการได้
ทดลองใช้งานโปรแกรมได้ที่ :
www.sansarn.com
วิจัยพัฒนาโดย :
ห้องปฏิบัติการวิจัยเทคโนโลยีเสียง (SPT)
ติดต่อสอบถามข้อมูลเพิ่มเติม :
- ฝ่ายพัฒนาธุรกิจและถ่ายทอดเทคโนโลยี (BTT)
โทร. 0 2564 6900 ต่อ 2346, 2351-2354, 2357, 2382, 2383, 2399
email : business[at]nectec.or.th