AMD ภูมิใจประกาศการผสานรวมโมเดล DeepSeek-V3 จาก DeepSeek เข้ากับ AMD Instinct™ GPUs ซึ่งได้รับการปรับแต่งเพื่อประสิทธิภาพสูงสุดด้วย SGLang การผสานรวมนี้จะช่วยเร่งการพัฒนาแอปพลิเคชันและประสบการณ์ AI ที่ทันสมัย DeepSeek-V3 เป็นโมเดล AI แบบมัลติโมดัล (Multimodal) แบบโอเพนซอร์ส ที่ออกแบบมาเพื่อมอบประสิทธิภาพและประสิทธิผลที่เหนือชั้นให้กับนักพัฒนา ด้วยความสามารถในการประมวลผลทั้งข้อมูลข้อความและภาพได้อย่างราบรื่น DeepSeek-V3 ได้กำหนดมาตรฐานใหม่สำหรับการเพิ่มผลผลิต ส่งเสริมนวัตกรรม และเปิดโอกาสให้นักพัฒนาสร้างแอปพลิเคชัน AI ที่ล้ำสมัย
DeepSeek-V3 เป็นโมเดลภาษาแบบ Mixture-of-Experts (MoE) ที่มีความแข็งแกร่ง โดยมีพารามิเตอร์ทั้งหมด 671B และเปิดใช้งาน 37B สำหรับแต่ละโทเค็น เพื่อให้การอนุมานและการฝึกอบรมมีประสิทธิภาพและประหยัดต้นทุน DeepSeek-V3 ใช้สถาปัตยกรรม Multi-head Latent Attention (MLA) และ DeepSeekMoE ซึ่งเป็นส่วนหนึ่งของรุ่นก่อนหน้าอย่าง DeepSeek-V2 นอกจากนี้ DeepSeek-V3 ยังเป็นผู้บุกเบิกกลยุทธ์การปรับสมดุลโหลดโดยไม่ใช้ auxiliary loss และกำหนดเป้าหมายการฝึกอบรมด้วยการทำนายหลายโทเค็นเพื่อประสิทธิภาพที่แข็งแกร่งยิ่งขึ้น DeepSeek-V3 ช่วยให้นักพัฒนาสามารถทำงานกับโมเดลขั้นสูง โดยใช้ความสามารถด้านหน่วยความจำเพื่อประมวลผลข้อมูลข้อความและภาพได้พร้อมกัน ช่วยให้เข้าถึงความก้าวหน้าล่าสุดได้อย่างกว้างขวาง และมอบคุณสมบัติที่มากขึ้นให้กับนักพัฒนา DeepSeek-V3 บรรลุประสิทธิภาพที่ดีที่สุดในมาตรฐานส่วนใหญ่ โดยเฉพาะในงานด้านคณิตศาสตร์และการเขียนโค้ด
AMD Instinct™ GPU Accelerators และ DeepSeek-V3
AMD Instinct™ GPU Accelerators กำลังเปลี่ยนโฉมหน้าของโมเดล AI แบบมัลติโมดัล เช่น DeepSeek-V3 ซึ่งต้องการทรัพยากรการคำนวณและแบนด์วิธหน่วยความจำมหาศาลเพื่อประมวลผลข้อมูลข้อความและภาพ AMD Instinct™ Accelerators ให้ประสิทธิภาพที่ยอดเยี่ยมในด้านเหล่านี้
การใช้ประโยชน์จากซอฟต์แวร์ AMD ROCm™ และ AMD Instinct™ GPU Accelerators ในขั้นตอนสำคัญของการพัฒนา DeepSeek-V3 ช่วยเสริมความร่วมมืออันยาวนานระหว่าง AMD และความมุ่งมั่นในแนวทางซอฟต์แวร์แบบเปิดสำหรับ AI โครงสร้างพื้นฐานที่ปรับขนาดได้จาก AMD ช่วยให้นักพัฒนาสามารถสร้างแอปพลิเคชันการให้เหตุผลและความเข้าใจด้านภาพที่มีประสิทธิภาพ
การสนับสนุน FP8 อย่างกว้างขวางใน ROCm สามารถปรับปรุงกระบวนการรันโมเดล AI ได้อย่างมีนัยสำคัญ โดยเฉพาะในด้านการอนุมาน ช่วยแก้ไขปัญหาสำคัญ เช่น คอขวดด้านหน่วยความจำและปัญหาความล่าช้าที่เกี่ยวข้องกับรูปแบบการอ่าน-เขียนที่มากขึ้น ช่วยให้สามารถประมวลผลโมเดลขนาดใหญ่หรือแบทช์ที่ใหญ่ขึ้นได้ภายใต้ข้อจำกัดด้านฮาร์ดแวร์เดียวกัน ส่งผลให้กระบวนการฝึกอบรมและอนุมานมีประสิทธิภาพมากขึ้น นอกจากนี้ การคำนวณด้วยความแม่นยำลดลงแบบ FP8 ยังช่วยลดความล่าช้าในการส่งข้อมูลและการคำนวณ AMD ROCm ขยายการสนับสนุน FP8 ในระบบนิเวศของตน ช่วยปรับปรุงประสิทธิภาพและประสิทธิผลในทุกอย่างตั้งแต่เฟรมเวิร์กไปจนถึงไลบรารี
การอนุมานด้วย SGLang บน AMD Instinct™ GPUs
SGLang: รองรับโหมดการอนุมานของโมเดล DeepSeek-V3 อย่างเต็มที่: https://github.com/sgl-project/sglang/releases
การสร้าง Docker Image แบบทั่วไปสำหรับ ROCm
เพื่อสร้าง Docker Image ที่รองรับ ROCm ให้ทำตามขั้นตอนต่อไปนี้:
- เรียกใช้ Docker Container:
docker run -it --ipc=host --cap-add=SYS_PTRACE --network=host \
--device=/dev/kfd --device=/dev/dri --security-opt seccomp=unconfined \
--group-add video --privileged -w /workspace lmsysorg/sglang:v0.4.1.post4-rocm620
- เริ่มต้นใช้งาน:
- ล็อกอินเข้า Hugging Face โดยใช้ CLI:
huggingface-cli login
- เริ่มต้นเซิร์ฟเวอร์ SGLang:
python3 -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V3 --port 8000 --tp 8 --trust-remote-code
- สร้างข้อความ:
เปิดเทอร์มินัลอีกอันและส่งคำขอเพื่อสร้างข้อความหลังจากที่เซิร์ฟเวอร์ทำงาน:curl http://localhost:30000/generate \ -H "Content-Type: application/json" \ -d '{ "text": "Once upon a time,", "sampling_params": { "max_new_tokens": 16, "temperature": 0 } }'
- การทดสอบประสิทธิภาพ:
- ทดสอบ throughput และ latency สำหรับหนึ่งแบทช์:
python3 -m sglang.bench_one_batch --batch-size 32 --input 128 --output 32 --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-code
- ทดสอบเซิร์ฟเวอร์:
python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-code
- ทดสอบความแม่นยำ:
python3 benchmark/gsm8k/bench_sglang.py --num-questions 2000 --parallel 2000 --num-shots 8
- ความแม่นยำ: 0.952
- ข้อผิดพลาด: 0.000
หมายเหตุ: เนื่องจากการฝึกอบรม FP8 ถูกนำมาใช้ในเฟรมเวิร์กของ DeepSeek-V3 ตั้งแต่แรก โมเดลนี้จึงมีน้ำหนักเฉพาะ FP8 เท่านั้น หากผู้ใช้ต้องการน้ำหนัก BF16 สำหรับการทดลอง สามารถใช้สคริปต์แปลงที่ให้มาเพื่อทำการแปลงได้ ตัวอย่างการแปลงน้ำหนัก FP8 เป็น BF16:
cd inference
python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights
ความร่วมมือระหว่าง AMD และ DeepSeek: การสนับสนุนตั้งแต่ Day 0
ด้วยการเปิดตัว DeepSeek-V3 AMD ยังคงสานต่อประเพณีการส่งเสริมนวัตกรรมผ่านความร่วมมืออย่างใกล้ชิดกับทีม DeepSeek ความร่วมมือนี้ช่วยให้นักพัฒนาสามารถใช้ประโยชน์จากโมเดล DeepSeek-V3 บน AMD Instinct™ GPUs ได้ทันทีตั้งแต่วันแรก โดยมีตัวเลือกฮาร์ดแวร์ GPU ที่หลากหลายและซอฟต์แวร์แบบเปิด ROCm™ เพื่อประสิทธิภาพและความสามารถในการปรับขนาดที่เหมาะสม AMD จะยังคงปรับปรุงประสิทธิภาพของ DeepSeek-V3 ด้วย CK-tile based kernels บน AMD Instinct™ GPUs และมุ่งมั่นที่จะร่วมมือกับผู้ให้บริการโมเดลโอเพนซอร์สเพื่อเร่งการสร้างนวัตกรรม AI และส่งเสริมให้นักพัฒนาสร้างประสบการณ์ AI รุ่นต่อไป
การขอบคุณ
เราขอขอบคุณการสนับสนุนอย่างยอดเยี่ยมและความร่วมมืออย่างใกล้ชิดจากทีม DeepSeek และ SGLang พิเศษสุดขอบคุณสมาชิกทีม AMD ได้แก่ Peng Sun, Bruce Xue, Hai Xiao, David Li, Carlus Huang, Mingtao Gu, Vamsi Alla, Jason F., Vinayak Gok, Wun-guo Huang, Caroline Kang, Gilbert Lei, Soga Lin, Jingning Tang, Fan Wu, George Wang, Anshul Gupta, Shucai Xiao, Lixun Zhang และทุกคนที่ร่วมสนับสนุนในความพยายามนี้
แหล่งข้อมูลเพิ่มเติม:
- AMD ROCm™ Software: สำรวจซอฟต์แวร์ AMD ROCm™ ซึ่งเป็นซอฟต์แวร์แบบเปิดที่รวมถึงโมเดลการเขียนโปรแกรม เครื่องมือ คอมไพเลอร์ ไลบรารี และรันไทม์สำหรับการพัฒนาโซลูชัน AI และ HPC บน AMD GPUs: https://www.amd.com/en/products/software/rocm.html
- AMD Instinct™ Accelerators: ค้นพบ AMD Instinct™ Accelerators ที่ออกแบบมาเพื่อมอบประสิทธิภาพที่ยอดเยี่ยมสำหรับงาน AI และ HPC: https://www.amd.com/en/products/accelerators/instinct.html
- DeepSeek-V3 บน Hugging Face: เรียนรู้เพิ่มเติมเกี่ยวกับ DeepSeek-V3 รวมถึงสถาปัตยกรรมและมาตรฐานประสิทธิภาพ: https://huggingface.co/deepseek-ai/DeepSeek-V3-Base
- แชทกับ DeepSeek-V3: สนทนากับ DeepSeek-V3 บนแพลตฟอร์มแชทอย่างเป็นทางการของ DeepSeek: chat.deepseek.com
- DeepSeek API: เข้าถึง DeepSeek’s OpenAI-compatible API เพื่อสร้างและผสานรวมแอปพลิเคชันของคุณบนแพลตฟอร์ม DeepSeek: platform.deepseek.com
แหล่งข้อมูลเหล่านี้จะช่วยให้ผู้ใช้สามารถเข้าถึงเครื่องมือและข้อมูลเพิ่มเติมเพื่อพัฒนาและใช้งานเทคโนโลยี AI บนแพลตฟอร์มของ AMD และ DeepSeek ได้อย่างเต็มประสิทธิภาพ
ข้อมูล: AMD