Google DeepMind เปิดตัวหุ่นยนต์ Gemini ยกระดับ AI สู่โลกจริง
Google DeepMind เปิดตัวโมเดล AI สำหรับหุ่นยนต์อเนกประสงค์รุ่นใหม่ ยกระดับ AI ให้สามารถใช้งานได้จริงในชีวิตประจำวัน
Google DeepMind บริษัทวิจัยด้านปัญญาประดิษฐ์ (AI) ในเครือ Google ได้เปิดตัวโมเดล AI สำหรับหุ่นยนต์รุ่นใหม่ ซึ่งทางบริษัทขนานนามว่าเป็นหมุดหมายสำคัญในการพัฒนาหุ่นยนต์อเนกประสงค์ให้สามารถใช้งานได้จริงในชีวิตประจำวัน
โมเดลหุ่นยนต์รุ่นใหม่นี้มีชื่อว่า Gemini Robotics และ Gemini Robotics-ER ที่ถูกออกแบบมาเพื่อเสริมศักยภาพให้หุ่นยนต์สามารถปรับตัวเข้ากับสภาพแวดล้อมที่หลากหลายและซับซ้อน
โดยอาศัยขีดความสามารถในการใช้เหตุผลของแบบจำลองภาษาขนาดใหญ่ (Large Language Models หรือ LLMs) เพื่อปฏิบัติภารกิจในโลกจริงที่ท้าทาย
Google DeepMind เผยว่า หุ่นยนต์ที่ฝึกฝนด้วยโมเดลใหม่นี้ สามารถพับกระดาษโอริกามิเป็นรูปสุนัขจิ้งจอก จัดโต๊ะทำงานตามคำสั่งเสียง เก็บสายหูฟัง ไปจนถึงดังค์ลูกบาสขนาดจิ๋วลงห่วงได้
นอกจากนี้ บริษัทยังได้จับมือกับ Apptronik สตาร์ทอัพด้านหุ่นยนต์ เพื่อร่วมกันพัฒนาหุ่นยนต์ฮิวแมนนอยด์ (Humanoid Robots) ที่ใช้เทคโนโลยีดังกล่าว
ความก้าวหน้านี้เกิดขึ้นท่ามกลางการแข่งขันของกลุ่มบริษัทเทคโนโลยี ไม่ว่าจะเป็น Tesla, OpenAI รวมถึงสตาร์ทอัพต่างๆ ที่ต่างมุ่งมั่นพัฒนา "สมองกล" AI
เพื่อควบคุมหุ่นยนต์อัตโนมัติ ซึ่งถือเป็นก้าวสำคัญที่จะพลิกโฉมอุตสาหกรรมหลากหลายแขนง ตั้งแต่ภาคการผลิตไปจนถึงบริการด้านสุขภาพ
Jensen Huang ซีอีโอของ Nvidia ผู้ผลิตชิปประมวลผลชื่อดัง กล่าวว่า การนำ Generative AI มาใช้ในการพัฒนาหุ่นยนต์ในวงกว้าง ถือเป็นโอกาสทางธุรกิจมูลค่าหลายล้านล้านดอลลาร์
และจะเป็น "อุตสาหกรรมเทคโนโลยีที่ยิ่งใหญ่ที่สุดเท่าที่โลกเคยมีมา"
ในช่วงหลายปีที่ผ่านมา ความก้าวหน้าของหุ่นยนต์ขั้นสูงเป็นไปอย่างค่อยเป็นค่อยไป เนื่องจากนักวิทยาศาสตร์ต้องเขียนโปรแกรมควบคุมการเคลื่อนไหวของหุ่นยนต์แต่ละขั้นตอนด้วยตนเอง
อย่างไรก็ตาม เทคนิค AI ใหม่ๆ ทำให้การฝึกฝนหุ่นยนต์สามารถปรับตัวเข้ากับสภาพแวดล้อมและเรียนรู้ทักษะใหม่ๆ ได้รวดเร็วขึ้นอย่างมาก
หัวใจสำคัญของ Gemini Robotics คือการนำโมเดลภาษา Gemini 2.0 มาปรับใช้และฝึกฝนเพื่อควบคุมหุ่นยนต์โดยเฉพาะ
ทำให้หุ่นยนต์มีประสิทธิภาพเพิ่มขึ้นอย่างเห็นได้ชัด สามารถปรับตัวรับสถานการณ์ใหม่ๆ ได้ดี ตอบสนองต่อคำสั่งเสียงหรือการเปลี่ยนแปลงของสภาพแวดล้อมได้อย่างฉับไว และมีความคล่องแคล่วในการหยิบจับวัตถุต่างๆ
Google DeepMind อธิบายว่า Gemini Robotics ได้รับประโยชน์จากเทคโนโลยี LLMs ซึ่งเรียนรู้จากข้อมูลมหาศาลบนอินเทอร์เน็ต เช่น หุ่นยนต์สามารถใช้เหตุผลได้ว่าควรหยิบแก้วกาแฟด้วยสองนิ้ว
จุดเด่นที่น่าสนใจอีกประการของโมเดลหุ่นยนต์ใหม่นี้คือ การทำงานบนระบบคลาวด์ได้อย่างราบรื่น ซึ่งน่าจะเป็นผลมาจากการที่โมเดลสามารถเข้าถึง LLMs ของ Google ได้