NVIDIA เปิดตัวแพลตฟอร์ม Cosmos World Foundation Model เพื่อเร่งการพัฒนา AI ทางกายภาพ

  • โมเดลที่ล้ำสมัยใหม่, Video Tokenizers และขั้นตอนการประมวลผลข้อมูลแบบเร่งความเร็ว ปรับแต่งมาสำหรับ NVIDIA data center GPU เพื่อพัฒนาหุ่นยนต์และยานพาหนะอัตโนมัติ
  • คลื่นลูกแรกของโมเดลแบบเปิดพร้อมให้ใช้งานแล้วสำหรับชุมชนนักพัฒนา
  • ผู้นำด้าน AI ทางกายภาพระดับโลก 1X, Agile Robots, Agility, Figure AI, Foretellix, Uber, Waabi, Wayve และ XPENG เป็นหนึ่งในกลุ่มแรก ๆ ที่นำมาใช้

ลาสเวกัส-CES-6 ม.ค, 2025—NVIDIA ประกาศในวันนี้ NVIDIA Cosmos™ ซึ่งเป็นแพลตฟอร์มที่ประกอบด้วย Generative World Foundation Model ที่ล้ำสมัย,โทเค็นไนเซอร์ขั้นสูง, การควบคุมพฤติกรรมของ AI และไปป์ไลน์เร่งการประมวลผลวิดีโอที่สร้างขึ้นเพื่อพัฒนาความก้าวหน้าของ AI ทางกายภาพ ระบบเช่น รถยนต์ขับเคลื่อนอัตโนมัติ (AV-Autonomous Vehicles) และ หุ่นยนต์

โมเดล AI ทางกายภาพมีค่าใช้จ่ายสูงในการพัฒนา และต้องใช้ข้อมูลและการทดสอบในโลกแห่งความเป็นจริงจำนวนมหาศาล Cosmos world foundation models หรือ WFM ช่วยให้นักพัฒนามีวิธีง่าย ๆ ในการสร้างภาพถ่ายเสมือนจริงและฟิสิกส์จำนวนมหาศาล ข้อมูลสังเคราะห์ เพื่อฝึกอบรมและประเมินโมเดลที่มีอยู่ นักพัฒนายังสามารถสร้างโมเดลที่กำหนดเองได้ด้วยการ fine-tuning

Cosmos models จะพร้อมใช้งานภายใต้ลิขสิทธิ์แบบเปิดเพื่อเร่งการทำงานของชุมชนหุ่นยนต์และ AV นักพัฒนาสามารถดูตัวอย่างรุ่นแรกได้ที่ NVIDIA API catalog หรือดาวน์โหลดตระกูลโมเดลและเฟรมเวิร์กการปรับแต่งจาก NVIDIA NGC™ catalog หรือที่ Hugging Face

บริษัทด้านหุ่นยนต์และยานยนต์ชั้นนำ ได้แก่ 1X, Agile Robots, Agility, Figure AI, Foretellix, Fourier, Galbot, Hillbot, IntBot, Neura Robotics, Skild AI, Virtual Incision, Waabi และ XPENG พร้อมด้วย Uber ยักษ์ใหญ่ด้านบริการรถร่วม เป็นหนึ่งในกลุ่มแรก ๆ ที่นำ Cosmos มาใช้

“ช่วงเวลาของ ChatGPT สำหรับวิทยาการหุ่นยนต์กำลังจะมาถึง เช่นเดียวกับโมเดลภาษาขนาดใหญ่ World Foundation Models เป็นพื้นฐานในการพัฒนาหุ่นยนต์และ AV ที่ก้าวหน้า แต่ไม่ใช่นักพัฒนาทุกคนจะมีความเชี่ยวชาญและทรัพยากรในการฝึกอบรมของตนเอง” Jensen Huang ผู้ก่อตั้งและ CEO ของ NVIDIA กล่าว “เราสร้าง Cosmos เพื่อให้ทุกคนมีสิทธิเข้าถึงโมเดล AI ทางกายภาพได้ง่ายขึ้น และนำหุ่นยนต์ทั่วไปไปไว้ในมือของนักพัฒนาทุกคน” 

Open World Foundation Model ช่วยเร่งการมาของ AI ในยุคถัดไป

ชุดโมเดลแบบเปิดของ NVIDIA Cosmos ช่วยให้นักพัฒนาสามารถทำได้ ปรับแต่ง WFM พร้อมชุดข้อมูล เช่น การบันทึกวิดีโอการเดินทาง AV หรือหุ่นยนต์นำทางในคลังสินค้า ตามความต้องการของแอปพลิเคชันเป้าหมาย

Cosmos WFM สร้างขึ้นโดยมีจุดประสงค์เพื่อการวิจัยและพัฒนา AI ทางกายภาพ และสามารถสร้างวิดีโอเชิงฟิสิกส์จากอินพุตต่าง ๆ เช่น ข้อความ รูปภาพ และวิดีโอ รวมถึงเซ็นเซอร์หุ่นยนต์หรือข้อมูลการเคลื่อนไหว แบบจำลองนี้สร้างขึ้นเพื่อการโต้ตอบทางกายภาพ ความคงทนของวัตถุ และการสร้างสภาพแวดล้อมทางอุตสาหกรรมจำลองคุณภาพสูง เช่น โกดังหรือโรงงาน และสภาพแวดล้อมในการขับขี่ รวมถึงสภาพถนนต่างๆ

Keynote ที่งาน CES ของ Jensen Huang ผู้ก่อตั้งและซีอีโอของ NVIDIA ได้แสดงให้เห็นถึงวิธีที่นักพัฒนา AI ทางกายภาพสามารถใช้โมเดล Cosmos ได้ รวมถึง: 

  • การค้นหาและทำความเข้าใจวิดีโอ – ช่วยให้นักพัฒนาสามารถค้นหาสถานการณ์การฝึกอบรมที่เฉพาะเจาะจงได้อย่างง่ายดาย เช่น สภาพถนนที่เต็มไปด้วยหิมะหรือความแออัดในคลังสินค้า จากข้อมูลวิดีโอ
  • การสร้างข้อมูลสังเคราะห์ 3D สู่อุปกรณ์จริงที่ควบคุมได้ – ใช้โมเดล Cosmos เพื่อสร้างวิดีโอเสมือนจริงจากสถานการณ์ 3D ที่มีการควบคุมซึ่งพัฒนาขึ้นในแพลตฟอร์ม NVIDIA Omniverse™ 
  • การพัฒนาและประเมินแบบจำลองทางกายภาพ AI – ไม่ว่าจะเป็นการสร้างโมเดลแบบกำหนดเองบนโมเดลพื้นฐาน การปรับปรุงโมเดลโดยใช้ Cosmos เพื่อเสริมการเรียนรู้ หรือทดสอบว่าโมเดลเหล่านั้นทำงานอย่างไรในสถานการณ์จำลองเฉพาะ
  • การวิเคราะห์เชิงคาดการณ์ – ความสามารถในการทำนายผลลัพธ์ของการดำเนินการที่เป็นไปได้ถัดไปของโมเดล AI ทางกายภาพ เพื่อช่วยเลือกการดำเนินการที่ดีที่สุดที่จะปฏิบัติตาม
  • การจำลองพหุจักรวาล (Multiverse simulation) – โดยใช้ Cosmos และ Omniverse เพื่อสร้างผลลัพธ์ในอนาคตที่เป็นไปได้ทั้งหมดที่โมเดล AI สามารถทำได้ เพื่อช่วยเลือกเส้นทางที่ดีที่สุดและแม่นยำที่สุด 

เครื่องมือพัฒนาแบบจำลองโลกขั้นสูง

การสร้างโมเดล AI ทางกายภาพต้องใช้ข้อมูลวิดีโอหลายเพตะไบต์และชั่วโมงประมวลผลนับหมื่นชั่วโมงในการประมวลผล ดูแลจัดการ และติดป้ายกำกับข้อมูลนั้น เพื่อช่วยประหยัดค่าใช้จ่ายมหาศาลในการดูแลจัดการข้อมูล การฝึกอบรม และการปรับแต่งโมเดล ฟีเจอร์ของ Cosmos:

  • ไปป์ไลน์การประมวลผลข้อมูลที่เร่งด้วย NVIDIA AI และ CUDA® ขับเคลื่อนโดย NVIDIA NeMo™ Curator – ซึ่งช่วยให้นักพัฒนาสามารถประมวลผล ดูแลจัดการ และติดป้ายกำกับวิดีโอ 20 ล้านชั่วโมงใน 14 วันโดยใช้แพลตฟอร์ม NVIDIA Blackwell แทนที่จะเป็น 3.4 ปีโดยใช้ไปป์ไลน์ที่ใช้ CPU เท่านั้น
  • NVIDIA Cosmos Tokenizer ซึ่งเป็นวิชวลโทเคนไนเซอร์ที่ล้ำสมัยสำหรับการแปลงรูปภาพและวิดีโอให้เป็นโทเคน มันให้การบีบอัดรวมมากกว่า 8 เท่าและการประมวลผลเร็วกว่า 12 เท่าเมื่อเทียบกับโทเค็นไนเซอร์ชั้นนำในปัจจุบัน 
  • ที่ NVIDIA NeMo มีเฟรมเวิร์คสำหรับการฝึกโมเดล การปรับแต่ง และการเพิ่มประสิทธิภาพที่มีประสิทธิภาพสูง

อุตสาหกรรม AI ทางกายภาพที่ใหญ่ที่สุดในโลกนำ Cosmos มาใช้ 

1X บริษัท AI และหุ่นยนต์ฮิวแมนนอยด์ เปิดตัว 1X World Model Challenge ชุดข้อมูลที่ใช้ Cosmos Tokenizer ในการจัดการ, XPENG จะใช้ Cosmos เพื่อเร่งการพัฒนาหุ่นยนต์ฮิวแมนนอยด์ Hillbot และ SkildAI กำลังใช้ Cosmos เพื่อติดตามการพัฒนาหุ่นยนต์เอนกประสงค์อย่างรวดเร็ว 

“ความขาดแคลนข้อมูลและความแปรปรวนเป็นความท้าทายสำคัญต่อการเรียนรู้ที่ประสบความสำเร็จในสภาพแวดล้อมของหุ่นยนต์” Pras Velagapudi ประธานเจ้าหน้าที่ฝ่ายเทคโนโลยีของ Agility กล่าว “ความสามารถด้านข้อความ รูปภาพ และวิดีโอในโลกของ Cosmos ช่วยให้เราสามารถสร้างและเพิ่มสถานการณ์เสมือนจริงในงานต่า งๆ ที่เราสามารถใช้เพื่อฝึกโมเดลโดยไม่จำเป็นต้องเก็บข้อมูลในโลกแห่งความเป็นจริงที่มีราคาแพงมากนัก”

ผู้นำด้านการขนส่งยังใช้ Cosmos เพื่อสร้าง AI ทางกายภาพสำหรับ AV 

  • Waabi บริษัทผู้บุกเบิก Generative AI สำหรับโลกทางกายภาพ จะใช้ Cosmos ในการค้นหาและจัดการข้อมูลวิดีโอสำหรับการพัฒนาและจำลองซอฟต์แวร์ AV
  • Wayve ซึ่งกำลังพัฒนาโมเดลพื้นฐาน AI สำหรับการขับขี่แบบอัตโนมัติกำลังประเมินอยู่Cosmos เป็นเครื่องมือในการค้นหาสถานการณ์การขับขี่แบบ Edge และ Corner Case ที่ใช้เพื่อความปลอดภัยและการตรวจสอบ 
  • ผู้ให้บริการ AV toolchain Foretellix จะใช้ Cosmos ควบคู่ไปกับ NVIDIA Omniverse Sensor RTX API เพื่อประเมินและสร้างสถานการณ์การทดสอบที่มีความเที่ยงตรงสูงและข้อมูลการฝึกอบรมในวงกว้าง 
  • Uber ยักษ์ใหญ่ด้านการแชร์รถระดับโลกกำลังร่วมมือกับ NVIDIA เพื่อเร่งการเคลื่อนที่แบบอัตโนมัติ ชุดข้อมูลการขับขี่ที่หลากหลายจาก Uber รวมกับฟีเจอร์ของแพลตฟอร์ม Cosmos และ NVIDIA DGX Cloud จะช่วยให้พันธมิตร AV สร้างโมเดล AI ที่แข็งแกร่งยิ่งขึ้นได้อย่างมีประสิทธิภาพยิ่งขึ้น

“Generative AI จะขับเคลื่อนอนาคตของการเดินทาง โดยต้องใช้ทั้งข้อมูลที่สมบูรณ์และการประมวลผลที่ทรงพลังมาก” Dara Khosrowshahi ซีอีโอของ Uber กล่าว “ด้วยการทำงานร่วมกับ NVIDIA เรามั่นใจว่าเราสามารถช่วยลดระยะเวลาการพัฒนาโซลูชันสำหรับการขับขี่อัตโนมัติที่ปลอดภัยและปรับขนาดได้สำหรับอุตสาหกรรม”

การพัฒนา AI แบบเปิด ปลอดภัย และมีความรับผิดชอบ

NVIDIA Cosmos ได้รับการพัฒนาตามหลักการ AI ที่น่าเชื่อถือของ NVIDIA ซึ่งให้ความสำคัญกับความเป็นส่วนตัว ความปลอดภัย ความมั่นคง ความโปร่งใส และการลดอคติที่ไม่พึงประสงค์

AI ที่น่าเชื่อถือเป็นสิ่งสำคัญสำหรับการส่งเสริมนวัตกรรมในชุมชนนักพัฒนาและการรักษาความไว้วางใจของผู้ใช้ NVIDIA มุ่งมั่นที่จะพัฒนา AI ที่ปลอดภัยและน่าเชื่อถือ สอดคล้องกับพันธะสัญญา AI โดยสมัครใจของทำเนียบขาวและโครงการริเริ่มด้านความปลอดภัยของ AI ระดับโลกอื่น ๆ

แพลตฟอร์ม Cosmos แบบเปิดประกอบด้วยการควบคุมพฤติกรรมของ AI ที่ออกแบบมาเพื่อลดข้อความและรูปภาพที่เป็นอันตราย และมีเครื่องมือเพื่อปรับปรุง Text Prompts เพื่อความแม่นยำ วิดีโอที่สร้างด้วยโมเดล Autoregressive และ Diffusion Models ของ Cosmos บน NVIDIA API catalog มี Invisible Watermarks เพื่อระบุเนื้อหาที่สร้างโดย AI ซึ่งช่วยลดโอกาสของข้อมูลที่ผิดและการระบุแหล่งที่มาที่ไม่ถูกต้อง

NVIDIA สนับสนุนให้นักพัฒนาใช้แนวปฏิบัติ AI ที่น่าเชื่อถือ และพัฒนาโซลูชันด้านการป้องกัน (guardrail) และลายน้ำ (watermarking) สำหรับแอปพลิเคชันของตนให้ดียิ่งขึ้น

ความพร้อมใช้งาน

Cosmos WFM  ตอนนี้ใช้ได้แล้ว ภายใต้ลิขสิทธิ์แบบเปิดของ NVIDIA บน Hugging Face และ NVIDIA NGC catalog, Cosmos model จะพร้อมใช้งานเร็ว ๆ นี้ในรูปแบบไมโครเซอร์วิส NVIDIA NIM ที่ได้รับการปรับปรุงอย่างเต็มรูปแบบ

นักพัฒนาสามารถเข้าถึงได้ NVIDIA NeMo Curator เพื่อเร่งการประมวลผลวิดีโอและปรับแต่ง World model ของตัวเองด้วย NVIDIA NeMo, NVIDIA DGX™ Cloud นำเสนอวิธีที่ง่ายและรวดเร็วในการปรับใช้โมเดลเหล่านี้ พร้อมการสนับสนุนระดับองค์กรผ่านทางแพลตฟอร์มซอฟต์แวร์  NVIDIA AI Enterprise

NVIDIA ยังประกาศถึง  โมเดลภาษาขนาดใหญ่ NVIDIA Llama Nemotron และโมเดล NVIDIA Cosmos Nemotron vision ที่นักพัฒนา AI ระดับองค์กรสามารถใช้งาน อาทิ ในด้านการดูแลสุขภาพ, บริการทางการเงิน, การผลิต และอื่นๆ อีกมากมาย

เกี่ยวกับ NVIDIA
NVIDIA (NASDAQ: NVDA) เป็นผู้นำระดับโลกด้านการประมวลผลแบบเร่งความเร็ว