DeepMind เปิดตัว Genie 3 โมเดล AI สร้างโลกเสมือนจริงแบบโต้ตอบได้ในเวลาจริง — ก้าวสำคัญสู่ AGI
DeepMind บริษัทในเครือ Google ประกาศเปิดตัว Genie 3 โมเดลปัญญาประดิษฐ์รุ่นใหม่ล่าสุดที่สามารถสร้างสภาพแวดล้อม 3 มิติแบบอินเตอร์แอคทีฟได้แบบเรียลไทม์ ที่ความละเอียด 720p 24 เฟรมต่อวินาที ความโดดเด่นของ Genie 3 คือการสร้างโลกเสมือนที่โต้ตอบได้อย่างต่อเนื่องจาก “Prompt” หรือคำสั่งที่เป็นข้อความธรรมดา และสามารถรักษาความสอดคล้องทางฟิสิกส์ของโลกเสมือนนั้นได้ต่อเนื่องยาวนานในระดับ “นาที” ตอบโจทย์ปัญหาโลกเสมือนเดิมที่อยู่ได้แค่เพียง 10-20 วินาที
เทคนิคเบื้องหลัง—ก้าวกระโดดของการจำลองโลก
Genie 3 ใช้วิธีที่เรียกว่า “auto-regressive” ในการสร้างเฟรมแต่ละภาพ โดยคำนึงถึงเนื้อหาในอดีตที่เพิ่งสร้างมาก่อนหน้าสูงสุดถึง 1 นาที ทำให้เกิดสิ่งที่ DeepMind เรียกว่า “world memory” หรือความต่อเนื่องของโลก ไม่ว่าเราจะเดินกลับไปที่เดิมในโลกเสมือน ฉากและวัตถุก็ยังคงอยู่ในสภาพเดิมอย่างสอดคล้องสมจริง
จุดเด่นอีกอย่างคือ “promptable world events” ที่ผู้ใช้สามารถเปลี่ยนแปลงสถานการณ์ในโลกเสมือนผ่านคำสั่งข้อความ เช่น เพิ่มสัตว์ เปลี่ยนสภาพอากาศ เติมตัวละคร ฯลฯ ระบบสามารถตอบสนองและปรับเปลี่ยนได้ทันทีแบบเรียลไทม์โดยไม่ต้องรันฟิสิกส์ใดๆ แบบ “แฮนด์เมด” เหมือนเอ็นจิ้นเกมรุ่นเดิม Genie 3 เรียนรู้การเคลื่อนไหวและปฏิสัมพันธ์ของวัตถุด้วยตัวเองจากข้อมูลภาพมหาศาล ทำให้มี “ฟิสิกส์เกิดขึ้นเอง” พวกการไหลของน้ำ แสงเงา หรือพฤติกรรมสัตว์เป็นต้น
ก้าวสำคัญสู่ปัญญาประดิษฐ์ทั่วไป (AGI)
DeepMind เชื่อว่าโมเดลจำลองโลก (World Model) เป็นกุญแจสำคัญของการสร้าง AGI โดยเฉพาะอย่างยิ่งสำหรับ “Embodied Agent” หรือเอเจนต์ที่ต้องฝึกฝนทักษะในสภาพแวดล้อมแบบโลกจริง (virtual, physical simulation) Genie 3 ได้ทำหน้าที่เป็นเวทีทดลองสำหรับ AI Agent เช่น SIMA (Scalable Instructable Multiworld Agent) ที่ทดสอบสำเร็จด้วยการเดินไปหาเป้าหมาย หญิงรู้งานในคลังสินค้า และอื่นๆ
นักวิจัยเปรียบว่า Genie 3 จะนำไปสู่ “Move 37 Moment” ของฝั่งปัญญาประดิษฐ์สายนี้ เหมือนที่ AlphaGo เคยสร้างปรากฏการณ์วางหมากที่ไม่มีมนุษย์คนไหนคิดได้มาก่อน
ข้อจำกัดและสถานะปัจจุบัน
ในขณะนี้ Genie 3 ยังเป็นเวอร์ชันวิจัยเฉพาะกลุ่ม มีไว้สำหรับนักวิชาการและผู้สร้างคอนเทนต์บางส่วน ข้อจำกัดหลักปัจจุบันคือระยะเวลาการโต้ตอบที่ยังสั้นหากเทียบกับความต้องการเทรน AI ที่แท้จริง และการจำลองโลกที่มีเอเจนต์หลายตัวพร้อมกัน ซับซ้อนสูง ๆ ยังทำได้จำกัด
สรุป
Genie 3 เป็นก้าวใหญ่ของวงการ AI ด้านการจำลองโลก โชว์ศักยภาพของโมเดลที่เรียนรู้จากข้อมูลมหาศาล ทำให้สามารถสร้างและควบคุมโลกเสมือนที่ซับซ้อนได้อย่างต่อเนื่องและยืดหยุ่น ถือเป็นรากฐานสำคัญสำหรับการสร้าง AGI ในอนาคต
ข้อมูล: Google| DeepMing
