posttoday

AI Singapore - Google ยกระดับชุดข้อมูลฝึกโมเดลภาษาขนาดใหญ่ ครอบคลุมภาษาไทย

13 มีนาคม 2567

AI Singapore (AISG) และ ทีมวิจัย Google เริ่ม Project SEALD (Southeast Asian Languages in One Network Data) ยกระดับชุดข้อมูลที่สามารถใช้ในการฝึก พัฒนา และประเมินโมเดลภาษาขนาดใหญ่ (Large Language Model - LLM) ในภาษาต่างๆ ที่ใช้พูดในเอเชียตะวันออกเฉียงใต้

AI Singapore (AISG) และ ทีมวิจัยของ Google ได้ริเริ่ม Project SEALD (Southeast Asian Languages in One Network Data) เป็นความร่วมมือด้านการวิจัยเพื่อยกระดับชุดข้อมูลที่สามารถใช้ในการฝึก พัฒนา และประเมินโมเดลภาษาขนาดใหญ่ (Large Language Model - LLM) ในภาษาต่างๆ ที่ใช้พูดในเอเชียตะวันออกเฉียงใต้ ความร่วมมือนี้มุ่งที่จะปรับปรุงการรับรู้บริบททางวัฒนธรรมและความสามารถของโมเดลภาษาขนาดใหญ่ในเอเชียตะวันออกเฉียงใต้ และการนำไปต่อยอดเพื่อสร้างประโยชน์ให้กับสังคมในวงกว้างทั่วทั้งภูมิภาค
 

AI Singapore - Google ยกระดับชุดข้อมูลฝึกโมเดลภาษาขนาดใหญ่ ครอบคลุมภาษาไทย

การพัฒนาโมเดลภาษาขนาดใหญ่ในเอเชียตะวันออกเฉียงใต้ให้มีความครอบคลุมยิ่งขึ้น

เบื้องต้น Project SEALD จะครอบคลุมภาษาไทย อินโดนีเซีย ทมิฬ ฟิลิปปินส์ และพม่า โดยการวิจัยภายใต้โครงการนี้จะช่วยสร้างคลังข้อมูลที่หลากหลายและมีคุณภาพสูงของภาษาที่ใช้พูดในเอเชียตะวันออกเฉียงใต้เพื่อสนับสนุนการฝึกโมเดลต่างๆ ที่อยู่ภายใต้ SEA-LION (Southeast Asian Languages in One Network) ซึ่งเป็นโครงการริเริ่มของ AISG ในการพัฒนากลุ่มโมเดลภาษาขนาดใหญ่ที่ได้รับการฝึกล่วงหน้าและปรับแต่งคำสั่งมาโดยเฉพาะเพื่อให้สามารถนำเสนอบริบททางวัฒนธรรมและความแตกต่างทางภาษาในเอเชียตะวันออกเฉียงใต้ได้ดียิ่งขึ้น รวมถึงโมเดลอื่นๆ ที่เป็นประโยชน์ต่อผู้ใช้ในเอเชียตะวันออกเฉียงใต้

“Google ภูมิใจที่ได้ร่วมมือกับ AISG เพื่อส่งเสริมและผลักดันการพัฒนาโมเดล AI ในสิงคโปร์และประเทศอื่นๆ ในเอเชียตะวันออกเฉียงใต้ ด้วยการมุ่งเน้นไปที่ภาษาที่พูดและใช้ในภูมิภาค และความเข้าใจทางวัฒนธรรม Project SEALD จะช่วยพัฒนาคลังข้อมูลที่มีอยู่และเกณฑ์มาตรฐานการประเมินผลสำหรับภาษาเหล่านี้อย่างมีนัยสำคัญ ซึ่งจะช่วยเปิดโอกาสใหม่ๆ และทำให้ AI ครอบคลุม เข้าถึงได้ และมีประโยชน์มากขึ้นสำหรับทุกคนและธุรกิจต่างๆ ทั่วทั้งภูมิภาคนี้" Yolyn Ang รองประธานฝ่ายพันธมิตรด้านความรู้และข้อมูลของ Google ประจำภูมิภาคเอเชียแปซิฟิก  กล่าว

AI Singapore - Google ยกระดับชุดข้อมูลฝึกโมเดลภาษาขนาดใหญ่ ครอบคลุมภาษาไทย
 

ความร่วมมือระหว่าง AISG และ ทีมวิจัยของ Google ในเอเชียแปซิฟิก ภายใต้ Project SEALD ครอบคลุมในด้านต่างๆ ดังนี้ 

  • การพัฒนาโมเดลสำหรับการแปลทั่วไปและการแปลให้เข้ากับบริบททางวัฒนธรรมของแต่ละพื้นที่
  • การสร้างแนวทางปฏิบัติแนะนำสำหรับชุดข้อมูลการปรับแต่งคำสั่ง
  • การสร้างเครื่องมือสำหรับการแปลให้เข้ากับบริบททางวัฒนธรรมของแต่ละพื้นที่ในวงกว้าง และ
  • การเผยแพร่สูตรสำหรับการฝึกล่วงหน้าสำหรับภาษาต่างๆ ในเอเชียตะวันออกเฉียงใต้

AISG และ Google จะเผยแพร่ชุดข้อมูลและเอาต์พุตจาก Project SEALD ในรูปแบบโอเพนซอร์สเพื่อพัฒนาความก้าวหน้าของระบบนิเวศโมเดลภาษาขนาดใหญ่ในเอเชียตะวันออกเฉียงใต้ และส่งเสริมความเชี่ยวชาญระดับภูมิภาคที่แข็งแกร่ง

AI Singapore - Google ยกระดับชุดข้อมูลฝึกโมเดลภาษาขนาดใหญ่ ครอบคลุมภาษาไทย

นอกจากนี้ Project SEALD ยังจะร่วมมือกับพาร์ทเนอร์ทั้งจากภาควิชาการ ภาคอุตสาหกรรม และภาครัฐ ในรูปแบบต่างๆ ซึ่งรวมถึงการทำงานร่วมกับภาคอุตสาหกรรมในการรวบรวม ดูแลจัดการ และตรวจสอบคุณภาพข้อมูล การร่วมมือกับสถาบันการศึกษาในประเทศต่างๆ ในเอเชียตะวันออกเฉียงใต้เพื่อใช้เทคนิคที่ล้ำสมัยในการประเมินและการเปรียบเทียบ และการร่วมมือกับผู้มีส่วนเกี่ยวข้องของภาครัฐในการส่งเสริมการพัฒนาต่อยอดเพื่อสาธารณประโยชน์

การพัฒนาความก้าวหน้าด้านโมเดลภาษาขนาดใหญ่ในเอเชียตะวันออกเฉียงใต้

เพื่อเป็นการต่อยอดความร่วมมือในโครงการนี้ AISG จึงได้ร่วมมือกับ Google Cloud ในการทำให้โมเดลภาษาขนาดใหญ่ที่อยู่ภายใต้โครงการ SEA-LION พร้อมใช้งานบน Model Garden บน Vertex AI ของ Google Cloud ซึ่งช่วยให้องค์กรต่างๆ สามารถเข้าถึงโมเดลของบุคคลที่หนึ่งและบุคคลที่สาม รวมถึงโมเดลแบบเปิด ที่มีคุณลักษณะตรงตามมาตรฐานด้านคุณภาพและความปลอดภัยขององค์กรที่เข้มงวดของ Google Cloud องค์กรต่างๆ สามารถใช้เครื่องมือที่ออกแบบมาเพื่อองค์กรผ่านทาง Vertex AI เพื่อปรับแต่งโมเดลเหล่านี้ได้อย่างง่ายดาย สามารถนำไปใช้งานตามที่ต้องการ และผสานรวมเข้ากับแอปพลิเคชันของตน นอกจากนี้ AISG จะยังคงเปิดให้ใช้งานโมเดลภาษาขนาดใหญ่ที่อยู่ภายใต้โครงการ SEA-LION บน Hugging Face ซึ่งได้ร่วมมือกับ Google Cloud เพื่อช่วยให้นักพัฒนาซอฟต์แวร์ฝึก ปรับแต่ง และให้บริการโมเดลแบบเปิดได้อย่างรวดเร็วและคุ้มค่า 

ไม่เพียงเท่านี้ AISG ยังได้นำร่องความร่วมมือกับประเทศอื่นๆ ในเอเชียตะวันออกเฉียงใต้ ตัวอย่างเช่น AISG ได้ร่วมมือกับพาร์ทเนอร์ในประเทศไทย ฟิลิปปินส์ และอินโดนีเซีย เพื่อสร้างทรัพยากรด้านไวยากรณ์และอรรถศาสตร์ของภาษาในระดับภูมิภาค นอกจากนี้ AISG ยังได้ลงนามในบันทึกข้อตกลงความร่วมมือ (Memorandum of Understanding - MOU) หรือหนังสือแสดงเจตจำนง (Letter of Intent - LOI) กับหน่วยงานต่างๆ ในอินโดนีเซีย มาเลเซีย และเวียดนาม ในการพัฒนาชุดข้อมูลและแอปพลิเคชันสำหรับโมเดลภาษาขนาดใหญ่ในระดับภูมิภาค 

ทีมวิจัยของ Google ในเอเชียแปซิฟิกเองก็มีโครงการส่งเสริมความครอบคลุมของโมเดลภาษาขนาดใหญ่ที่คล้ายคลึงกันนี้ ซึ่งกำลังดำเนินการอยู่ในประเทศอินเดียภายใต้ความร่วมมือกับสถาบันวิทยาศาสตร์แห่งอินเดีย (Indian Institute of Science) ผ่านทาง Project Vaani ซึ่งเป็นโครงการริเริ่มที่รวบรวม ถอดเสียง และจัดหาข้อมูลเสียงแบบโอเพนซอร์สจากทั่วทั้ง 773 อำเภอของอินเดีย

AI Singapore - Google ยกระดับชุดข้อมูลฝึกโมเดลภาษาขนาดใหญ่ ครอบคลุมภาษาไทย