NVIDIA เปิดตัว DGX SuperPOD ที่ขับเคลื่อนโดย Blackwell ซูเปอร์คอมพิวเตอร์สำหรับ Generative AI ระดับล้านล้านพารามิเตอร์

GTC 2024—NVIDIA ประกาศเปิดตัวซูเปอร์คอมพิวเตอร์ AI เจเนอเรชั่นถัดไปในวันนี้ NVIDIA DGX SuperPOD™ ขับเคลื่อนโดย NVIDIA GB200 Grace Blackwell Superchips — สำหรับการประมวลผลข้อมูลในระดับล้านล้านพารามิเตอร์พร้อมเวลาทำงานคงที่สำหรับการฝึกอบรม Generative AI ระดับซูเปอร์สเกลและเวิร์คโหลดสำหรับการอนุมาน

โดดเด่นด้วยสถาปัตยกรรมแบบ rack-scale พร้อมระบบระบายความร้อนด้วยของเหลวใหม่ที่มีประสิทธิภาพสูง DGX SuperPOD ใหม่สร้างขึ้นด้วยระบบ NVIDIA DGX™ GB200 และมอบซูเปอร์คอมพิวเตอร์ AI ระดับ 11.5 exaflops เมื่อใช้การประมวลผลแบบ FP4 precision และหน่วยความจำที่รวดเร็ว 240 เทราไบต์ – ปรับขนาดได้มากขึ้นด้วยการใส่ rack เพิ่มเติม

ระบบ DGX GB200 แต่ละระบบมี NVIDIA GB200 Superchips 36 ตัว ซึ่งประกอบด้วย NVIDIA Grace CPU 36 ตัว และ NVIDIA Blackwell GPU 72 ตัว เชื่อมต่อเป็นซูเปอร์คอมพิวเตอร์เครื่องเดียวผ่าน NVIDIA NVLink® รุ่นที่ห้า, GB200 Superchips ให้ประสิทธิภาพเพิ่มขึ้นถึง 30 เท่า เมื่อเทียบกับ NVIDIA H100 Tensor Core GPU สำหรับเวิร์กโหลดการอนุมานโมเดลภาษาขนาดใหญ่

“ซูเปอร์คอมพิวเตอร์ NVIDIA DGX AI เป็นโรงงานของการปฏิวัติอุตสาหกรรม AI” Jensen Huang ผู้ก่อตั้งและซีอีโอของ NVIDIA กล่าว “DGX SuperPOD ใหม่ผสมผสานความก้าวหน้าล่าสุดในการประมวลผล เครือข่าย และซอฟต์แวร์ที่เร่งความเร็วของ NVIDIA เพื่อให้ทุกบริษัท อุตสาหกรรม และประเทศสามารถปรับแต่งและสร้าง AI ของตนเองได้”

DGX SuperPOD ที่ขับเคลื่อนโดย Grace Blackwell ประกอบไปด้วยแปดหรือมากกว่าของระบบ DGX GB200 และสามารถปรับขนาดเป็น Superchips GB200 นับหมื่นที่เชื่อมต่อผ่าน NVIDIA Quantum InfiniBand สำหรับพื้นที่หน่วยความจำที่ใช้ร่วมกันขนาดใหญ่เพื่อขับเคลื่อนโมเดล AI รุ่นต่อไป ลูกค้าสามารถปรับใช้การกำหนดค่าที่เชื่อมต่อ GPU Blackwell 576 ตัวในระบบ DGX GB200 แปดตัวที่เชื่อมต่อผ่าน NVLink

สถาปัตยกรรม DGX SuperPOD แบบ rack-scale ใหม่สำหรับยุคของ Generative AI

DGX SuperPOD ใหม่พร้อมระบบ DGX GB200 มีโครงสร้างการประมวลผลแบบครบวงจร นอกเหนือจาก NVIDIA NVLink รุ่นที่ห้าแล้ว โครงสร้างยังรวมถึง NVIDIA BlueField®-3 DPU จะรองรับเครือข่าย NVIDIA Quantum-X800 InfiniBand ที่มีการประกาศตัวพร้อมกันในวันนี้ สถาปัตยกรรมนี้มอบแบนด์วิดธ์สูงสุด 1,800 GB/s ให้กับ GPU แต่ละตัวในแพลตฟอร์ม

นอกจากนี้เทคโนโลยี NVIDIA Scalable Hierarchical Aggregation and Reduction Protocol (SHARP)™ รุ่นที่สี่ ให้การประมวลผลในเครือข่าย 14.4 เทราฟลอป ซึ่งเพิ่มขึ้น 4 เท่าในสถาปัตยกรรม DGX SuperPOD รุ่นถัดไป เมื่อเทียบกับรุ่นก่อน

NVIDIA BlueField®-3 DPU

สถาปัตยกรรมแบบครบวงจรจับคู่กับซอฟต์แวร์ขั้นสูงเพื่อการทำงานอย่างต่อเนื่องที่ไม่เคยมีมาก่อน

 DGX SuperPOD ใหม่เป็นซูเปอร์คอมพิวเตอร์ AI ระดับศูนย์ข้อมูลที่สมบูรณ์ ซึ่งผสานรวมกับพื้นที่จัดเก็บข้อมูลประสิทธิภาพสูงจากพันธมิตรที่ได้รับการรับรองจาก NVIDIA เพื่อตอบสนองความต้องการของการประมวลผล Generative AI แต่ละเครื่องถูกสร้างขึ้น เชื่อมต่อสาย และทดสอบในโรงงานเพื่อเพิ่มความเร็วในการปรับใช้ที่ศูนย์ข้อมูลของลูกค้าได้อย่างมาก

DGX SuperPOD ที่ขับเคลื่อนโดย Grace Blackwell มีความสามารถในการจัดการเชิงคาดการณ์อัจฉริยะเพื่อตรวจสอบจุดข้อมูลนับพันอย่างต่อเนื่องทั่วทั้งฮาร์ดแวร์และซอฟต์แวร์ เพื่อคาดการณ์และสกัดกั้นแหล่งที่มาของการหยุดทำงานและความไร้ประสิทธิภาพ ซึ่งช่วยประหยัดเวลา พลังงาน และต้นทุนการประมวลผล

ซอฟต์แวร์สามารถระบุประเด็นที่น่ากังวลและวางแผนการบำรุงรักษา ปรับทรัพยากรคอมพิวเตอร์ได้อย่างยืดหยุ่น และบันทึกและดำเนินการต่องานโดยอัตโนมัติเพื่อป้องกันการหยุดทำงาน แม้ว่าจะไม่มีผู้ดูแลระบบก็ตาม

หากซอฟต์แวร์ตรวจพบว่าต้องการชิ้นส่วนทดแทน คลัสเตอร์จะเปิดใช้งานความจุสำรองเพื่อให้งานเสร็จทันเวลา การแทนที่ชิ้นส่วนฮาร์ดแวร์ที่จำเป็นสามารถกำหนดเวลาได้เพื่อหลีกเลี่ยงเวลาหยุดทำงานที่ไม่ได้วางแผนไว้ล่วงหน้าได้

ระบบ NVIDIA DGX B200 ซูเปอร์คอมพิวเตอร์ AI ขั้นสูงสำหรับอุตสาหกรรม

NVIDIA ยังได้เปิดตัวระบบ NVIDIA DGX B200 ซึ่งเป็นแพลตฟอร์มซูเปอร์คอมพิวเตอร์ AI แบบครบวงจรสำหรับการฝึกฝนโมเดล AI การปรับแต่งอย่างละเอียด และการอนุมาน

DGX B200 เป็นรุ่นที่ 6 ของการออกแบบ DGX แบบติดตั้งบน rack แบบระบายความร้อนด้วยอากาศที่ใช้โดยอุตสาหกรรมทั่วโลก ระบบ DGX B200 สถาปัตยกรรม Blackwell ใหม่ประกอบด้วย NVIDIA Blackwell GPU แปดตัว และ Intel® Xeon® เจนเนอร์เรชัน 5 สองตัว ลูกค้าก็สร้างได้เช่นกัน DGX SuperPOD ใช้ระบบ DGX B200 เพื่อสร้าง AI Centers ที่สมบูรณ์แบบสามารถขับเคลื่อนการทำงานของทีมนักพัฒนาขนาดใหญ่ที่ทำงานต่าง ๆ มากมาย

ระบบ DGX B200 มีคุณสมบัติความแม่นยำ FP4 ในสถาปัตยกรรม Blackwell ใหม่ โดยให้ประสิทธิภาพ AI สูงถึง 144 petaflops หน่วยความจำ GPU ขนาดใหญ่ 1.4TB และแบนด์วิดท์หน่วยความจำ 64TB/s ซึ่งให้การอนุมานแบบเรียลไทม์เร็วขึ้น 15 เท่าสำหรับโมเดลล้านล้านพารามิเตอร์เมื่อเทียบกับรุ่นก่อนหน้า

ระบบ DGX B200 มีเครือข่ายขั้นสูง NVIDIA ConnectX™-7 NIC ถึงแปดระบบ และสอง BlueField-3 DPU สิ่งเหล่านี้ให้แบนด์วิธสูงถึง 400 กิกะบิตต่อวินาที ต่อการเชื่อมต่อ — มอบประสิทธิภาพ AI ที่รวดเร็วด้วย NVIDIA Quantum-2 InfiniBand และแพลตฟอร์มเครือข่าย NVIDIA Spectrum™-X Ethernet 

การสนับสนุนซอฟต์แวร์และผู้เชี่ยวชาญเพื่อขยายขนาด AI การผลิต

แพลตฟอร์ม NVIDIA DGX ทั้งหมด NVIDIA AI Enterprise ซอฟต์แวร์สำหรับการพัฒนาและการปรับใช้ระดับองค์กร ลูกค้า DGX สามารถเร่งการทำงานของตนด้วยโมเดลพื้นฐาน เฟรมเวิร์ค ชุดเครื่องมือ และชุดเครื่องมือใหม่ ๆ ของ NVIDIA ที่ผ่านการฝึกอบรมมาแล้ว NVIDIA NIM ไมโครเซอร์วิสที่รวมอยู่ในแพลตฟอร์มซอฟต์แวร์

ผู้เชี่ยวชาญ NVIDIA DGX และการคัดเลือกพันธมิตรของ NVIDIA ที่ได้รับการรับรองเพื่อสนับสนุนแพลตฟอร์ม DGX สามารถช่วยเหลือลูกค้าตลอดทุกขั้นตอนของการใช้งาน เพื่อให้พวกเขาสามารถย้าย AI ไปสู่การใช้งานจริงได้อย่างรวดเร็ว เมื่อระบบใช้งานได้ ผู้เชี่ยวชาญ DGX จะยังคงสนับสนุนลูกค้าในการเพิ่มประสิทธิภาพไปป์ไลน์และโครงสร้างพื้นฐานของ AI

ความพร้อมใช้งาน

NVIDIA DGX SuperPOD พร้อมระบบ DGX GB200 และ DGX B200 คาดว่าจะวางจำหน่ายในปลายปีนี้จากพันธมิตรทั่วโลกของ NVIDIA

สำหรับข้อมูลเพิ่มเติม โปรดดูคีย์โน้ตย้อนหลังของ GTC หรือเยี่ยมชมบูธ NVIDIA ที่ GTC ซึ่งจัดขึ้นที่ San Jose Convention Center จนถึงวันที่ 21 มีนาคม