DeepSeek
|

DeepSeek เปิดตัวสถาปัตยกรรม AI โฉมใหม่ “Manifold‑Constrained Hyper‑Connections” ยกระดับประสิทธิภาพการเทรนโมเดลขนาดใหญ่ เตรียมเปิดตัวโมเดลรุ่นถัดไปในช่วงก่อนตรุษจีนปีนี้

DeepSeek เผยแพร่เอกสารวิจัยสถาปัตยกรรมใหม่ชื่อ Manifold‑Constrained Hyper‑Connections (mHC) ผ่าน arXiv โดยมี Zhenda Xie, Yixuan Wei, Huanqi Cao เป็นผู้เขียนนำ และ Wenfeng Liang ผู้ก่อตั้ง DeepSeek ร่วมเป็นผู้เขียน

เป้าหมายของ mHC คือแก้ปัญหา “ความไม่เสถียรในการเทรน” และ “คอขวดด้านสเกล” ที่เกิดกับสถาปัตยกรรม Hyper‑Connections (HC) เดิม เมื่อขยายขนาดโมเดลให้ใหญ่ขึ้น ทีมวิจัยระบุว่า mHC ช่วยเพิ่มประสิทธิภาพและการสเกลได้อย่างชัดเจน โดยยังคงใช้ทรัพยากรคอมพิวต์อย่างมีประสิทธิภาพ เหมาะกับยุคที่การแข่งขันด้านต้นทุนเทรน LLM ดุเดือดขึ้นเรื่อย ๆ

ต่อยอดแนวคิดจาก ByteDance

mHC ถูกออกแบบมาเป็น “ส่วนขยาย” ของสถาปัตยกรรม Hyper‑Connections (HC) ที่ ByteDance เสนอไว้ก่อนหน้านี้ในฐานะพัฒนาต่อจาก ResNet ซึ่งเป็นรากฐานของโครงข่ายแบบ residual สมัยใหม่

แม้ HC จะช่วยเพิ่มการไหลของสัญญาณในเน็ตเวิร์กได้ดี แต่ต้องแลกมากับปัญหาความไม่เสถียรของ identity mapping และภาระหน่วยความจำเมื่อสเกลโมเดลให้ใหญ่ขึ้น DeepSeek ใช้แนวคิด “manifold constraint” มาบังคับให้สัญญาณในส่วน residual ของ HC ถูกแมปไปยังแมนิโฟลด์ทางคณิตศาสตร์เฉพาะ เพื่อดึงคุณสมบัติ identity mapping กลับคืนมา ลดปัญหา gradient explode/vanish ในชั้นลึก ๆ

รายละเอียดเชิงเทคนิค: Manifold‑Constrained Hyper‑Connections

ในภาพรวม mHC คือเฟรมเวิร์กทั่วไปที่ “โปรเจกต์” space ของ residual connections ใน HC ไปบนแมนิโฟลด์ที่ออกแบบไว้ ทำให้โครงสร้างยังคงความยืดหยุ่น แต่ได้ความเสถียรเชิงทฤษฎีกลับมา

ทีมวิจัยระบุว่า มีการ “จูนโครงสร้างอินฟราสตรักเจอร์” เพื่อให้การคำนวณมีประสิทธิภาพ ไม่เพิ่มภาระคอมพิวต์เกินความจำเป็น เมื่อเทียบกับ HC เดิม จากผลการทดลอง mHC ให้ “tangible performance improvements” และ “superior scalability” เมื่อเทรนบนงานขนาดใหญ่ ซึ่งชี้ว่ามีศักยภาพจะกลายเป็นบล็อกพื้นฐานใหม่สำหรับโมเดลรุ่นถัดไป

สัญญาณโมเดลใหม่ก่อนตรุษจีน

PANews รายงานว่า DeepSeek มอง mHC เป็น “ส่วนขยายที่ยืดหยุ่นและใช้งานได้จริงของ HC” พร้อมคาดหวังว่าจะปูทางไปสู่ดีไซน์สถาปัตยกรรมเชิงทอพอโลยีรุ่นใหม่สำหรับโมเดลฐาน (foundation models)

DeepSeek มีประวัติใช้การปล่อยงานวิจัยเชิงเทคนิคเป็น “ตัวบอกทิศทาง” ของโมเดลหลัก เช่น ช่วงก่อนเปิดตัวโมเดล reasoning DeepSeek‑R1 ที่เน้นลดต้นทุนเทรนและคงประสิทธิภาพแข่งขันกับคู่แข่งสหรัฐ ด้วยแพทเทิร์นเดิมและไทมิงของเอกสาร mHC ทำให้วงการคาดว่า DeepSeek อาจเปิดตัวโมเดลรุ่นใหม่ที่ใช้สถาปัตยกรรมนี้ทันหรือก่อนเทศกาลตรุษจีนกลางเดือนกุมภาพันธ์ เพื่อช่วงชิงกระแสและโชว์ศักยภาพด้านประสิทธิภาพ/ต้นทุนอีกครั้ง

ความสำคัญต่ออุตสาหกรรม AI

การที่สตาร์ทอัปจีนอย่าง DeepSeek เลือกเผยแพร่งานวิจัยสถาปัตยกรรมระดับแกนกลางอย่างเปิดเผย สะท้อนวัฒนธรรมการร่วมมือและการแข่งขันเชิงเทคนิคที่เข้มข้นขึ้นในจีน

ในเชิงธุรกิจ mHC ตอบโจทย์โจทย์ใหญ่ของยุค LLM คือ “ทำอย่างไรให้เทรนโมเดลขนาดใหญ่ขึ้นได้ โดยไม่ทำให้ค่าใช้จ่ายพุ่งแบบทวีคูณ” หากใช้งานได้จริงในโปรดักชัน จะกลายเป็นจุดขายสำคัญของ DeepSeek ในการต่อกรกับบริษัทสหรัฐที่มีทุนหนากว่า

สำหรับนักพัฒนาและนักวิจัยด้านสถาปัตยกรรมเน็ตเวิร์ก mHC ยังเปิดมุมมองใหม่เรื่องการใช้โครงสร้างแมนิโฟลด์และแนวคิดทอพอโลยีมาช่วยออกแบบเส้นทางการไหลของสัญญาณในโมเดลขนาดใหญ่ ซึ่งอาจกลายเป็นเทรนด์สำคัญระลอกถัดไปของดีไซน์ LLM

ข้อมูล: Binance, HuggingFace