“OpenThaiGPT” แชทบอท AI ที่พูดภาษาไทยรู้เรื่อง ! สาระจากเสวนา “ความท้าทาย ความเป็นไปได้ และโอกาสของ ChatGPT สัญชาติไทย”

Facebook
Twitter

บทความ : วลัยลักษณ์ คงพระจันทร์
คลิปสรุปบรรยากาศ : อัครพล กายขุนทด และสุชานันท์ คุ้มมณี

กระแสของฉลาดของ ChatGPT ที่ถามอะไรก็ตอบได้ แต่ยังพูดภาษาไทยไม่ค่อยเคลียร์เท่าไหร่ จึงเกิดการรวมทีม ThaiOpenGPT หวังที่จะสร้าง AI Chatbot สัญชาติไทยที่มากกว่าพูดภาษาไทยรู้เรื่อง แต่วางโรดแมปการพัฒนาให้สอบผ่านโอเน็ตได้ และเปิดเป็น Open Soures ให้ทุกคนใช้ฟรี ไปติดตามเรื่องนี้ พร้อมกันกับสาระจากเสวนา “ความท้าทาย ความเป็นไปได้ และโอกาสของ ChatGPT สัญชาติไทย” โดยเนคเทค สวทช. ร่วมกับ สมาคมปัญญาประดิษฐ์ประเทศไทย (AIAT) สมาคมผู้ประกอบการปัญญาประดิษฐ์ประเทศไทย (AIEAT) และหน่วยงานเครือข่ายพันธมิตร จัดขึ้นเมื่อ 24 เม.ย. ที่ผ่านมา

บทบาทของเนคเทค สวทช. กับ ChatGPT

ดร.ชัย วุฒิวิวัฒน์ชัย ผู้อำนวยการเนคเทค สวทช. เปิดการเสวนา โดยกล่าวถึง บทบาทของเนคเทค สวทช. กับ ChatGPT “ หลายคนอาจตั้งคำถามว่า “ช้าไปไหม ?” สำหรับเนคเทคกับ ChatGPT ในฐานะหน่วยงานวิจัยและพัฒนาอาจไม่สามารถขยับตัวไปพร้อมกับกระแสของเทคโนโลยีใด ๆ ได้ในทันที หากต้องศึกษาทิศทาง โอกาสความเป็นไปได้ต่าง ๆ อย่างถี่ถ้วนก่อนลงมือทำ

ดร.ชัย กล่าวต่อไปว่า การพัฒนา AI ของไทย นอกเหนือจากเรื่องเทคโนโลยีแล้ว ต้องพัฒนาในส่วนอื่นไปพร้อมกันอย่างเป็นระบบ จึงเป็นที่มาของการจัดทำแผนปฏิบัติการด้ารปัญญาประดิษฐ์ฯ ของประเทศขึ้น ซึ่งกว่า 50 ประเทศชั้นนำของโลกได้มีการจัดทำแผนลักษณะนี้แล้ว เพื่อกำหนดทิศทางไปสู่เศรษฐกิจใหม่ด้วย AI ของแต่ละประเทศ สำหรับแผนปฏิบัติ AI ประเทศไทย ประกอบไปด้วย 5 ยุทธศาสตร์ ได้แก่ 1) เรื่องกฏหมายและจริยธรรม 2) โครงสร้างพื้นฐานสำหรับ AI 3) การพัฒนากำลังคน 4) การวิจัยและพัฒนา AI 5) การส่งเสริมการใช้งาน AI

ความคืบหน้าของแผนดังกล่าวในระยะเวลา 6 เดือน ดร.ชัย อธิบายว่า ในยุทธศาสตร์ด้านโครงสร้างพื้นฐานสำหรับ AI ปัจจุบัน ThaiSC สวทช. เรามี Supercomputer ที่มีประสิทธิภาพสูงที่สุดในอาเซียน และเป็นอันดับที่ 70 ของโลก ด้วยการมีประสิทธิภาพในการคำนวณสูงถึง 8.1 พันล้านคำสั่งต่อวินาที ที่จะช่วยยกระดับโครงสร้างพื้นฐานการวิจัยและพัฒนา AI ที่ต้องอาศัยการคำนวณขั้นสูง อีกทั้งเตรียมเปิดให้บริการ National AI Service Platform เป็น AI Portal & Platform ที่รวมรวบและเชื่อมโยงโซลูชันผลิตภัณฑ์และบริการด้าน AI จากแพลตฟอร์มต่าง ๆ โดยมี AI for Thai เป็นแพลตฟอร์มหลักอีกด้วย 

นอกจากยังสนับสนุนให้เกิด Medical Data Consortium ขับเคลื่อนให้เกิดการแชร์ข้อมูลด้านการแพทย์เพื่อใช้พัฒนา AI รวมถึงสนับสนุนงบประมาณในการพัฒนากำลังคนด้าน AI Engineer อย่างต่อเนื่อง

ศึกษาเพิ่มเติมได้ที่นี่ : www.ai.in.th

OpenThaiGPT คืออะไร ปัจจุบันก้าวหน้าแค่ไหน ?

ดร.กอบกฤตย์ วิริยะยุทธกร นายกสมาคมผู้ประกอบการปัญญาประดิษฐ์ประเทศไทย และ ดร.สุเมธ ยืนยง อาจารย์ประจำภาควิชาวิศวกรรมคอมพิวเตอร์ มหาวิทยาลัยมหิดล เล่าว่า ความสามารถของ ChatGPT เป็นหลักฐานประจักษ์ของความสามารถของ Large Language Model ที่สามารถช่วยให้ชีวิตมนุษย์ทำงานได้ง่ายขึ้น เรามองว่า Large Language Model สามารถขยายความสามารถไปได้อย่างไม่จำกัด หาก Model อย่าง ChatGPT เปิดให้ทุกคนใช้ได้โดยเสรี สามารถนำไปนำไปปรับปรุงต่อ (Finetuning) เพื่อสร้างการใช้งานหรือ Service ใหม่ ๆ จาก AI ย่อมเกิดประโยชน์มหาศาลโดยเฉพาะอย่างยิ่งการก้าวกระโดดทางเศรษฐกิจจากการปฏิวัติของ AI

อย่างไรก็ตามการสร้าง Large Language Model ที่มีความสามารถอย่าง ChatGPT นั้น ต้องมีการลงทุนอย่างมหาศาล ทั้งจำนวนผู้เชี่ยวชาญ จำนวน Dataset และปริมาณ GPU ที่ใช้ประมวลผล โดยไม่สามารถเกิดได้จากความพยายามของคนกลุ่มใดกลุ่มหนึ่ง ดังนั้น โครงการ OpenThaiGPT จึงเกิดขึ้นเพื่อร่วมกันพัฒนาระบบ Chatbot ภาษาไทย ให้มีความสามารถเทียบเท่า ChatGPT อีกทั้งยังสามารถเชื่อมต่อกับระบบภายนอก สามารถดึงข้อมูลได้อย่างยืดหยุ่น ขยายและปรับแต่งได้อย่างง่ายดาย พัฒนาขึ้นเป็นซอฟต์แวร์โอเพนซอร์สฟรีให้ทุกคนนำไปใช้งานได้อย่างเสรี

OpenThaiGPT วางแผนไว้ 3 เวอร์ชันหลัก 

  • OpenthaiGPT 0.0.4 พูดคุย Chat ได้อยู่บ้าง แต่ยังไม่สามารถตอบคำถามได้ตรงและยังไม่สามารถทำ Few Shot Learning ได้ 
  • OpenthaiGPT 0.1.0 แปลภาษา ไทย-อังกฤษ  ได้และทำ Few Shot Learning ได้บางส่วน สามารถพูดคุย Chat ได้เต็มรูปแบบ
  • OpenthaiGPT 1.0.0 สามารถทำ Few shot learningได้ แปลภาษา  ไทย-อังกฤษ พูดคุย Chat ได้เต็มรูปแบบ 

ดร.ปรัชญา บุญขวัญ หัวหน้าทีมวิจัยเทคโนโลยีภาษาธรรมชาติและความหมาย (LST) เนคเทค สวทช. กล่าวเสริมว่า OpenThaiGPT 0.1.0-alpha รุ่นนี้มีความสามารถในการตอบคำถามทั่วไป การแปลภาษา การอธิบายขั้นตอน การถอดความ การแปลงหน่วย การเขียนโค้ด และการเรียงลำดับตัวเลข สำหรับประสิทธิภาพในแง่ของพารามิเตอร์ หรือ เปรียบเสมือนเซลล์สมองของโมเดล ในเวอร์ชันปัจจุบันประกอบด้วย 3.74 พันล้านพารามิเตอร์ โดยเวอร์ชันถัดไปในอนาคตจำนวนของพารามิเตอร์จะเพิ่มขึ้นเพื่อปรับปรุงความเข้าใจภาษาและการโต้ตอบที่เป็นธรรมชาติมากขึ้น

OpenThaiGPT 1.0.0 มีแผนจะเปิดให้ใช้งานช่วงกลางปีนี้ จะเทรนด์ Language Model ใหญ่ขึ้นสู่ 1 หมื่นล้านพารามิเตอร์ และเปลี่ยนสถาปัตยกรรมของ Language Model จากเดิมที่เป็นการเรียนรู้ไวยากรณ์ระดับตัวอักษร สู่การเรียนรู้ในระดับเศษคำ (Subword) หรือ รากศัพท์ เพื่อให้เป็นภาษาธรรมชาติมากขึ้นโดยใช้ LLAMA Model หนึ่งโมเดลเบื้องหลังของ Open AI อีกด้วย “นอกจากนี้ทีม OpenThaiGPT ยังมองไปถึงการพัฒนา Multimodel ที่ไม่ได้มีเฉพาะเรื่องของภาษา แต่สามารถระบุ Physical Reference ได้” ดร.ปรัชญา อธิบาย

ด้าน คุณวันฉัตร ผดุงรัตน์ CEO Pantip.com เผยว่า ข้อมูลใน Pantip.com เป็นข้อมูลที่เปิดเผยสู่สาธารณะอยู่แล้ว รู้สึกยินดีอย่างยิ่งที่มีโอกาสเข้ามาทำให้งานวิจัยสะดวกขึ้น สำหรับเรื่อง ChatGPT ตอนนี้เป็นเรื่องท้าทายมาก เมื่อมนุษย์ต้องเผชิญหน้ากับเทคโนโลยีใหม่ ๆ จะมีพฤติกรรมที่ตั้งการ์ดสูง ดังนั้นในเฟสแรก ๆ หากเราสามารถวิจัยและพัฒนาให้มีคุณภาพ ปลอดภัย ให้สังคมยอมรับได้ การเดินต่อไปข้างหน้าจะง่ายขึ้น

GPT ภาษาไทยวัยอ้อแอ้ ถ้าขาดข้อมูลและซุปเปอร์คอมพิวเตอร์

ดร.ปรัชญา ช่วยอธิบายศัพท์ด้าน AI ให้เข้าใจง่ายขึ้น โดยกล่าวว่า “Language Model หรือ แบบจำลองภาษา คือ โปรแกรมทายคำ การจะทายให้ถูกต้องให้ AI อ่านหนังสือเยอะ ๆ และเริ่มเรียนรู้ สำนวน วลี ไวยากรณ์ ส่วนพารามิเตอร์ (Paramiter) คือ จำนวนเส้นประสาทในสมอง ซึ่ง OpenThaiGPT มีแผนจะขยายจำนวนขึ้นไปเรื่อย ๆ ThaiGPT จะยิ่งพูดได้เก่งขึ้น” ดังนั้น ข้อมูลมหาศาลและโครงสร้างพื้นฐานที่จะใช้เทรนด์โมเดล AI จึงจำเป็นอย่างยิ่งที่จะเปลี่ยนจาก GPT ที่พูดภาษาไทยแบบอ้อแอ้ ได้เลื่อนชั้นเป็นนักเรียนประถม มัธยมตามลำดับ สำหรับ OpenThaiGPT มี pantip.com บริจาคข้อมูลสำหรับเทรนในโครงการนี้ด้วย ด้าน วันฉัตร ผดุงรัตน์ CEO Pantip.com เผยว่า “ข้อมูลใน Pantip.com เป็นข้อมูลที่เปิดเผยสู่สาธารณะอยู่แล้ว ยินดีอย่างยิ่งที่มีโอกาสเข้ามาทำให้งานวิจัยสะดวกขึ้น สำหรับเรื่อง ChatGPT ตอนนี้เป็นเรื่องท้าทายมาก เมื่อมนุษย์ต้องเผชิญหน้ากับเทคโนโลยีใหม่ ๆ จะมีพฤติกรรมที่ตั้งการ์ดสูง ดังนั้นในเฟสแรก ๆ หากเราสามารถวิจัยและพัฒนาให้มีคุณภาพ ปลอดภัย ให้สังคมยอมรับได้ การเดินต่อไปข้างหน้าจะง่ายขึ้น”

ด้าน ดร.วิวรรณ จรีรัตนชาติ หัวหน้าทีมสนับสนุนงานวิจัยทางวิทยาศาสตร์ (SSD) ศูนย์ทรัพยากรคอมพิวเตอร์เพื่อการคำนวณขั้นสูง (ThaiSC) กล่าวเสริมว่า การพัฒนา Large Language Model นอกเหนือจากข้อมูลมหาศาลแล้ว Computing Resource ก็มีความจำเป็นอย่างยิ่ง ปัจจุบันการพัฒนาโมเดลขนาดพันล้านพารามิเตอร์ (Paramiter) ต้องใช้ CPU Ram ประมาณ 30 GB ซึ่ง CPU ทั่วไปที่อยู่ตามท้องตลาดจะอยู่ที่ 6-8 GB เป็นเหตุผลว่าทำไมระบบคอมพิวเตอร์สมรรถนะสูง (High Performance Computing: HPC) จึงสำคัญต่อ OpenThaiGPT โดย ThaiSC ได้ติดตั้ง LANTA (ลันตา) ซุปเปอร์คอมพิวเตอร์ที่มีหน่วยประมวลผล GPU ทั้งหมด 704 การ์ด รุ่น NVIDIA A100 ที่เหมาะสมสำหรับการคำนวณด้าน AI ขั้นสูงและการจำลอง simulation รวมถึงมีเทคนิคที่เรียกว่า Pararel Computing ที่ช่วยในการกระจายข้อมูลและการจัดการเมมโมรี่ของ GPU Card ทำให้เราสามารถเทรนโมเดลขนาดใหญ่มากขึ้น ปริมาณข้อมูลที่มากขึ้น และรวดเร็วมากยิ่งขึ้นได้

AI จะเก่งกาจขนาดไหน ก็ขาด Trustworthyness ไม่ได้

ดร.อภิวดี ปิยธรรมรงค์ นักวิจัยกลุ่มวิจัยปัญญาประดิษฐ์ (AINRG) เนคเทค สวทช. กล่าวว่า การทำให้ AI มีความเชื่อถือได้ (Trustworthyness) ไม่ใช่เรื่องใหม่ในต่างประเทศมีการออกคู่มือ วิธีการจัดทำ Trustworthy หรือ AI Ethics อยู่บ้าง สำหรับประเทศไทย โดยกระทรวงดิจิทัลเพื่อเศรษฐกิจและสังคม (MDES) ได้มีการจัดทำคู่มือหลักการด้านจริยธรรมในการพัฒนา AI หรือ ‘Digital Thailand-AI Ethics Guideline’ ตั้งแต่ปี 2561 ที่ผ่านมา

ถัดมาตัวมาตรฐาน ISO ร่วมมือกับ IEC ออกมาตรฐานสากล ชื่อว่า Overview of trustworthiness in artificial intelligence (ISO/IEC TR 24028:2020) ในแง่มุมของการพัฒนาให้ระบบ AI มีความน่าเชื่อถือในหลายประเด็น หากกล่าวในบริบทของการพัฒา ChatGPT จะแบ่งออกเป็น 3 ประเด็นหลัก ๆ ได้แก่

1) ความปลอดภัย (Safety) การใช้ ChatGPT มีความเสี่ยงที่จะทำให้เกิดอันตรายต่อชีวิตและ ทรัพย์สินหรือไม่อย่างไร เราต้องมารีวิวร่วมกัน ยกตัวอย่าง หากว่ามีคำถามทางการแพทย์ จะดูแลอย่างไร
2) ความโปร่งใส (Transparency) OpenThaiGPT เรามีความพยายามให้เห็นที่มาที่ไปของข้อมูลและโมเดล โดยสิ่งที่ต้องรายงานถัดไปในอนาคตคือ ข้อมูลคุณภาพ ประสิทธิภาพของโมเดล หรือ ผลิตภัณฑ์
3) ความรับผิดชอบ และ ธรรมมาภิบาล (Responsibility Accountability and Governance) สำหรับโครงการ OpenThaiGPT แม้จะเป็นโครงการในลักษณะอาสาสมัคร แต่เราต้องมีการลงรายละเอียดความรับผิดชอบ เพราะระบบ AI มีการพัฒนาหลายขั้นตอน หากเกิดข้อผิดพลาดในขั้นตอนใดขั้นตอนหนึ่ง การที่ระบุให้ชัดเจนว่าความรับผิดชอบอยู่ที่ใครจะทำให้ผู้รับผิดชอบสามารถเข้าไปแก้ไขสถานการณ์ได้อย่างรวดเร็ว เกิดการเข้าไปดูแลสถานการณ์ ในลักษณะของ Human Oversight โดยมนุษย์ต้องเพิ่มความแม่นยำปลอดภัยให้กับระบบ AI และเป็นศูนย์กลางในการตัดสินใจ ซึ่ง Human Oversight เป็นกลไกสำคัญในการกำกับดูแล AI ทั่วโลก

ด้านดร.เทพชัย ทรัพย์นิธิ หัวหน้ากลุ่มวิจัยปัญญาประดิษฐ์ (AINRG) เนคเทค สวทช. กล่าวทิ้งท้ายการเสวนา ความว่า OpenThaiGPT เป็นความท้าทายอย่างหนึ่งของวงการ AI ประเทศไทยที่เราจะเปลี่ยนตัวเองจากเป็นผู้ใช้ที่ดีเป็นผู้สร้างที่ดี การรวมพลังแบบนี้จะทำให้เกิดก้าวแรกของการที่จะสร้าง AI ของไทย ซึ่งที่ผ่านมาเรายังไม่ได้ทำลักษณะแบบนี้อย่างจริงจังมากนัก อาจจะอยู่ในวงเล็กๆหรืออยู่ในวงวิชาการ โดยความตั้งใจของ OpenThaiGPT ไม่ได้จะพัฒนาแค่กลุ่มเล็ก ๆ แต่ต้องการให้เกิดการรวมกลุ่มกันเพราะงานด้าน AI มีความหลากหลายและท้าทาย ภายใต้จังหวะที่เหมาะสมมากทั้งด้านข้อมูลและทรัพยากร ทั้งข้อมูลขนาดใหญ่จาก Pantip และ การเปิดตัว Supercomputer อย่าง LANTA OpenThaiGPT หวังที่จะสร้าง Chatbot ภาษาไทย ทำให้เกิดการใช้ประโยชน์อย่างจริงจังและเป็นฐาน AI ของประเทศอย่างแท้จริง