NVIDIA เปิดตัว DreamDojo โมเดลโลกหุ่นยนต์แบบโอเพ่นซอร์ส ที่เรียนรู้จากวิดีโอมนุษย์จำนวนกว่า 4 หมื่นชั่วโมง
NVIDIA เดินเกมใหญ่ในสายหุ่นยนต์และปัญญาประดิษฐ์เชิงกายภาพ ด้วยการปล่อย DreamDojo, World model แบบโอเพ่นซอร์ส ซึ่งออกแบบมาเพื่อให้หุ่นยนต์เข้าใจ และคาดการณ์สภาพแวดล้อมรอบตัวจากข้อมูลวิดีโอมนุษย์มุมมองบุคคลที่หนึ่งจำนวนกว่า 44,000 ชั่วโมง กลายเป็นอีกหนึ่งหมุดหมายสำคัญของการสร้างสมองกลางให้หุ่นยนต์ยุคใหม่
เปลี่ยนจากจำลองฟิสิกส์ มาเรียนรู้จากโลกจริง
แนวคิดของ DreamDojo คือเลิกพึ่งแต่เอนจินฟิสิกส์ที่ต้องกำหนดกฎและพารามิเตอร์ต่าง ๆ ด้วยมือ แล้วหันมาใช้ข้อมูลจากโลกจริงปริมาณมหาศาลให้โมเดลเรียนรู้ความสัมพันธ์เชิงเวลาและผลลัพธ์ด้วยตัวเอง โมเดลจะรับสัญญาณการเคลื่อนที่หรือการกระทำของหุ่นยนต์เป็นอินพุต จากนั้นคาดการณ์ภาพในอนาคตออกมาเป็นพิกเซลทุกเฟรม ทำให้ระบบสามารถลองผิดลองถูกในหัวก่อนจะลงมือจริงบนฮาร์ดแวร์ได้
เบื้องหลังคือชุดข้อมูล DreamDojo-HV ซึ่งรวบรวมวิดีโอ egocentric ของมนุษย์ครอบคลุมหลายพันรูปแบบงาน และนับรวมเป็น trajectory กว่า 1 ล้าน เสนอความหลากหลายของสถานการณ์มากกว่าชุดข้อมูลหุ่นยนต์แบบเดิมมหาศาล เนื่องจากวิดีโอเหล่านี้ไม่มีคำสั่งมอเตอร์กำกับ ทีมวิจัยจึงออกแบบตัวแทนการกระทำในเชิง latent ต่อเนื่องขึ้นมา เพื่อให้โมเดลเรียนรู้การเปลี่ยนสถานะระหว่างเฟรม โดยไม่ต้องรู้รายละเอียดฮาร์ดแวร์ที่ใช้บันทึก

จากการดูคน ทำให้หุ่นยนต์ลงมือได้ดีขึ้น
หลังจากฝึกจากวิดีโอมนุษย์แล้ว โมเดลจะถูกนำไปปรับแต่งเพิ่มเติมด้วยข้อมูลจากหุ่นยนต์จริงของแพลตฟอร์มต่างๆ เช่น GR-1, G1 หรือ AgiBot เพื่อทำให้ความเข้าใจเชิงภาพเชื่อมโยงกับขีดความสามารถทางกลของแต่ละแพลตฟอร์ม การบีบอัดและกลั่นโมเดลทำให้ DreamDojo รันได้แบบใกล้เคียงเรียลไทม์ รักษาการจำลองล่วงหน้าได้นานเกินหนึ่งนาทีต่อเนื่อง ซึ่งเพียงพอสำหรับการวางแผนและควบคุมในหลายกรณีใช้งาน
ประสิทธิภาพดังกล่าวเปิดช่องให้ใช้ DreamDojo เป็นสนามซ้อมเสมือน ทั้งสำหรับทดสอบนโยบายควบคุมหุ่นยนต์โดยไม่ต้องเสี่ยงกับฮาร์ดแวร์จริง ใช้ช่วยวางแผนเส้นทางและการหยิบจับสิ่งของ ไปจนถึงการควบคุมจากระยะไกลผ่านอุปกรณ์ VR ให้ผู้ควบคุมมองเห็นผลลัพธ์ที่จำลองล่วงหน้า รายงานระบุว่าระบบช่วยเพิ่มอัตราความสำเร็จในงานลักษณะการแพ็กของ เช่น ผลไม้ ในสถานการณ์จริงได้อย่างมีนัยสำคัญ
โอเพ่นซอร์สเต็มชุด ชวนชุมชนร่วมต่อยอด
NVIDIA ปล่อย DreamDojo ออกมาให้ใช้งานสองขนาด ได้แก่รุ่นประมาณ 2 พันล้านพารามิเตอร์ และรุ่นใหญ่ราว 14 พันล้านพารามิเตอร์ ฝึกบนคลัสเตอร์การ์ด H100 จำนวนหลายร้อยใบ และสร้างบนสถาปัตยกรรม Cosmos-Predict2.5 ของบริษัท สิ่งที่น่าสนใจคือการเปิดไม่ใช่แค่ตัวโมเดล แต่รวมถึงโค้ด ชุดข้อมูลสำหรับช่วงปรับแต่ง และ benchmark สำหรับวัดผล ทำให้ทั้งนักวิจัยและนักพัฒนาฝั่งอุตสาหกรรมสามารถนำไปทดลอง ปรับใช้ และเปรียบเทียบได้อย่างโปร่งใส
ศึก world model สำหรับหุ่นยนต์กำลังเดือด
การขยับครั้งนี้เกิดขึ้นท่ามกลางการแข่งขันในสนาม “world model สำหรับหุ่นยนต์” ที่ดุเดือดขึ้นอย่างรวดเร็ว โดยมีทั้งงานอย่าง Genie 3 จาก Google DeepMind และ 1XWM จาก 1X Technologies เดินในทิศทางคล้ายกัน คือใช้โมเดลขนาดใหญ่เรียนรู้พลวัตของโลกจริงเพื่อเสริมสมองกลของหุ่นยนต์ Jensen Huang ซีอีโอ NVIDIA เคยส่งสัญญาณชัดเจนบนเวที CES ว่ายุค “ChatGPT ของหุ่นยนต์” กำลังเริ่มต้น และหุ่นยนต์ใช้งานทั่วไปจะเป็นคลื่นเทคโนโลยีถัดไปที่อุตสาหกรรมต้องจับตา
กระแสลงทุนในสตาร์ทอัปหุ่นยนต์ที่ทะยานแตะระดับหลายหมื่นล้านดอลลาร์ภายในปีเดียว ทำให้ DreamDojo ในฐานะโครงการโอเพ่นซอร์ส ถูกมองว่าเป็นยุทธศาสตร์ดึงดูดชุมชนให้มาอยู่ในระบบนิเวศซอฟต์แวร์และฮาร์ดแวร์ของ NVIDIA ตั้งแต่ต้นน้ำ ตั้งแต่การวิจัย ไปจนถึงการนำไปใช้เชิงพาณิชย์ในอนาคต
ข้อมูล: Humanoids Daily, DreamDojo