DeepSeek
|

DeepSeek-V3.1 เปิดตัวแล้ว มาพร้อม “โหมดการคิดแบบไฮบริด” และประสิทธิภาพที่เหนือกว่า

DeepSeek AI สตาร์ทอัพด้านปัญญาประดิษฐ์สัญชาติจีน ได้ประกาศเปิดตัว DeepSeek-V3.1 อย่างเป็นทางการ ซึ่งเป็นการอัปเกรดครั้งสำคัญของโมเดล V3 เรือธงของบริษัท DeepSeek-V3.1 ได้รับการออกแบบมาเพื่อตอบสนองความต้องการที่หลากหลาย โดยไม่เพียงแต่มาพร้อมกับประสิทธิภาพที่ได้รับการปรับปรุงอย่างก้าวกระโดด แต่ยังโดดเด่นด้วยนวัตกรรมล้ำสมัยอย่าง “โหมดการคิดแบบไฮบริด” และการเพิ่มประสิทธิภาพสำหรับการทำงานร่วมกับชิปที่ผลิตในประเทศจีน

มุ่งเน้นชิปในประเทศและความสามารถในการแข่งขันระดับโลก

การอัปเกรด DeepSeek-V3.1 ครั้งนี้มีความสำคัญเชิงกลยุทธ์อย่างยิ่ง เนื่องจากบริษัทระบุว่าโมเดลดังกล่าวมีคุณสมบัติที่สามารถปรับให้เหมาะสมกับชิปที่ผลิตในจีนได้ การมุ่งเน้นการรองรับชิปในประเทศนี้อาจเป็นสัญญาณว่าโมเดล AI ของ DeepSeek กำลังถูกวางตำแหน่งให้ทำงานร่วมกับระบบนิเวศเซมิคอนดักเตอร์ที่กำลังเกิดขึ้นในจีน ในขณะที่รัฐบาลปักกิ่งผลักดันให้มีการเปลี่ยนเทคโนโลยีของสหรัฐฯ ท่ามกลางข้อจำกัดการส่งออกของวอชิงตัน DeepSeek ได้ระบุในโพสต์บน WeChat ว่ารูปแบบความแม่นยำ UE8M0 FP8 ของ DeepSeek-V3.1 ได้รับการปรับให้เหมาะสมสำหรับ “ชิปในประเทศเจเนอเรชันถัดไปที่จะเปิดตัวในเร็วๆ นี้” แม้จะยังไม่มีการระบุรุ่นหรือผู้ผลิตชิปที่เฉพาะเจาะจง แต่รูปแบบ FP8 (8-bit floating point) นี้ช่วยให้โมเดล AI ทำงานได้อย่างมีประสิทธิภาพมากขึ้น ใช้หน่วยความจำน้อยลง และรันได้เร็วกว่าวิธีการแบบดั้งเดิม

ก่อนหน้านี้ DeepSeek ได้สร้างความประหลาดใจให้กับวงการเทคโนโลยีในปีนี้ ด้วยการเปิดตัวโมเดล AI ที่สามารถแข่งขันกับโมเดลตะวันตก เช่น ChatGPT ของ OpenAI ได้ ในขณะที่เสนอต้นทุนการดำเนินงานที่ต่ำกว่า การอัปเกรด V3.1 นี้เป็นการอัปเดตครั้งที่สามต่อจากรุ่น R1 ในเดือนพฤษภาคม และการปรับปรุง V3 ก่อนหน้านี้ในเดือนมีนาคม

คุณสมบัติเด่นและการปรับปรุงที่สำคัญ:

  • โหมดการคิดแบบไฮบริด (Hybrid Thinking Mode): DeepSeek-V3.1 เป็นโมเดลแรกและโมเดลเดียวที่สามารถรองรับการทำงานได้ทั้งในโหมดการคิด (thinking mode) และโหมดไม่คิด (non-thinking mode) เพียงแค่เปลี่ยน Chat Template ผู้ใช้สามารถสลับระหว่างโหมดเหล่านี้ได้โดยใช้ปุ่ม “deep thinking” บนแอปพลิเคชันและแพลตฟอร์มเว็บอย่างเป็นทางการของบริษัท ซึ่งขณะนี้รันด้วยเวอร์ชัน V3.1 แล้ว
  • การเรียกใช้เครื่องมือที่ชาญฉลาดขึ้น (Smarter Tool Calling): ผ่านการปรับแต่งหลังการฝึกอบรม (post-training optimization) ทำให้ประสิทธิภาพของโมเดลในการใช้งานเครื่องมือ (tool usage) และงานที่ต้องอาศัย Agent (agent tasks) ได้รับการปรับปรุงอย่างมีนัยสำคัญ
  • ประสิทธิภาพการคิดที่สูงขึ้น (Higher Thinking Efficiency): DeepSeek-V3.1-Think สามารถให้คุณภาพคำตอบที่เทียบเท่ากับ DeepSeek-R1-0528 แต่สามารถตอบสนองได้รวดเร็วกว่า
  • การขยายบริบทที่เหนือชั้น (Extended Context Length): DeepSeek-V3.1 สร้างขึ้นบนพื้นฐานของ DeepSeek-V3.1-Base ซึ่งมีการขยายชุดข้อมูลด้วยเอกสารขนาดยาวเพิ่มเติม และขยายระยะการฝึกอบรมอย่างมากตามระเบียบวิธีที่ระบุในรายงาน DeepSeek-V3 ดั้งเดิม
    • ระยะการขยายบริบท 32K ถูกเพิ่มขึ้น 10 เท่า เป็น 630 พันล้านโทเค็น (B tokens)
    • ระยะการขยายบริบท 128K ถูกขยายออกไป 3.3 เท่า เป็น 209 พันล้านโทเค็น
    • นอกจากนี้ DeepSeek-V3.1 ยังได้รับการฝึกอบรมโดยใช้รูปแบบข้อมูล UE8M0 FP8 เพื่อให้เข้ากันได้กับรูปแบบข้อมูลการปรับขนาดแบบไมโคร (microscaling data formats)

ข้อมูลทางเทคนิคของโมเดล:

  • จำนวนพารามิเตอร์ทั้งหมด: 671 พันล้านพารามิเตอร์
  • จำนวนพารามิเตอร์ที่เปิดใช้งาน: 37 พันล้านพารามิเตอร์
  • ความยาวบริบท (Context Length): 128K

แม่แบบการสนทนา (Chat Template) และการรองรับ Agent:

DeepSeek-V3.1 มีรายละเอียดของแม่แบบการสนทนาที่แตกต่างกันไปตามโหมดการใช้งาน:

  • โหมดไม่คิด (Non-Thinking): ใช้โทเค็น </think> ในการตอบสนอง
  • โหมดการคิด (Thinking): ใช้โทเค็น <think> และมีลักษณะคล้ายกับ DeepSeek-R1
  • ToolCall: รองรับในโหมดไม่คิด พร้อมรูปแบบเฉพาะสำหรับการเรียกใช้เครื่องมือ
  • Code-Agent: รองรับเฟรมเวิร์ก Code Agent ต่างๆ โดยอ้างอิงจากรูปแบบ ToolCall
  • Search-Agent: ออกแบบมาสำหรับโหมดการคิด เพื่อสนับสนุน Search Agent สำหรับคำถามที่ซับซ้อนที่ต้องเข้าถึงข้อมูลภายนอกหรือข้อมูลล่าสุด

ประสิทธิภาพที่โดดเด่นในการประเมิน:

DeepSeek-V3.1 แสดงให้เห็นถึงประสิทธิภาพที่น่าประทับใจในเกณฑ์มาตรฐานต่างๆ เมื่อเทียบกับ DeepSeek V3 และ DeepSeek R1:

  • ทั่วไป (General): DeepSeek V3.1-Thinking ทำคะแนน MMLU-Redux (EM) ได้ 93.7 และ GPQA-Diamond (Pass@1) ได้ 80.1 ซึ่งสูงกว่า DeepSeek V3 และเทียบเท่ากับ DeepSeek R1
  • Search Agent: DeepSeek V3.1-Thinking ทำคะแนน BrowseComp ได้ 30.0 และ BrowseComp_zh ได้ 49.2 ซึ่งสูงกว่า DeepSeek R1 อย่างมาก
  • โค้ด (Code): DeepSeek V3.1-Thinking ทำคะแนน LiveCodeBench (Pass@1) ได้ 74.8 และ Aider-Polyglot (Acc.) ได้ 76.3 ซึ่งดีกว่า DeepSeek V3 และ DeepSeek R1
  • คณิตศาสตร์ (Math): DeepSeek V3.1-Thinking มีประสิทธิภาพที่ยอดเยี่ยมใน AIME 2024 (Pass@1) ที่ 93.1 และ HMMT 2025 (Pass@1) ที่ 84.2 ซึ่งแสดงให้เห็นถึงความสามารถในการแก้ปัญหาที่ซับซ้อน
CategoryBenchmark (Metric)DeepSeek V3.1-NonThinkingDeepSeek V3 0324DeepSeek V3.1-ThinkingDeepSeek R1 0528
General
MMLU-Redux (EM)91.890.593.793.4
MMLU-Pro (EM)83.781.284.885.0
GPQA-Diamond (Pass@1)74.968.480.181.0
Humanity’s Last Exam (Pass@1)15.917.7
Search Agent
BrowseComp30.08.9
BrowseComp_zh49.235.7
Humanity’s Last Exam (Python + Search)29.824.8
SimpleQA93.492.3
Code
LiveCodeBench (2408-2505) (Pass@1)56.443.074.873.3
Codeforces-Div1 (Rating)20911930
Aider-Polyglot (Acc.)68.455.176.371.6
Code Agent
SWE Verified (Agent mode)66.045.444.6
SWE-bench Multilingual (Agent mode)54.529.330.5
Terminal-bench (Terminus 1 framework)31.313.35.7
Math
AIME 2024 (Pass@1)66.359.493.191.4
AIME 2025 (Pass@1)49.851.388.487.5
HMMT 2025 (Pass@1)33.529.284.279.4

หมายเหตุผลการทดสอบ:

  • ตัวแทนค้นหาถูกประเมินด้วยกรอบการค้นหาภายในของเรา ซึ่งใช้ API การค้นหาเชิงพาณิชย์ + ตัวกรองหน้าเว็บ + หน้าต่างบริบทขนาด 128K
  • ผลลัพธ์ของตัวแทนค้นหาในรุ่น R1-0528 ถูกประเมินด้วยขั้นตอนการทำงานที่กำหนดไว้ล่วงหน้า
  • SWE-bench ถูกประเมินด้วยกรอบการทำงานของตัวแทนโค้ดภายในของเรา
  • HLE ถูกประเมินด้วยชุดข้อมูลที่มีเฉพาะข้อความเท่านั้น

การเข้าถึงและผลกระทบต่อวงการ

DeepSeek V3.1 เผยแพร่ภายใต้ MIT License ทำให้สามารถใช้งานเชิงพาณิชย์ได้ฟรี และดาวน์โหลดผ่าน Hugging Face ได้ทั่วโลก การเปิดตัวครั้งนี้เกิดขึ้นอย่างเงียบ ๆ โดยไม่มีเอกสารประกอบหรือการโปรโมทมากนัก แต่กลับได้รับความสนใจอย่างรวดเร็ว โดยขึ้นสู่อันดับ 4 ของโมเดลยอดนิยมบน Hugging Face ในเวลาอันสั้น

การเปิดตัว V3.1 เกิดขึ้นหลังจากการเปิดตัว GPT-5 และ Claude 4 ไม่นาน สะท้อนถึงความท้าทายของ DeepSeek ต่อโมเดลธุรกิจแบบปิดของบริษัทอเมริกัน DeepSeek มุ่งเน้นให้ AI เป็น “สาธารณสมบัติ” เพื่อส่งเสริมการพัฒนานวัตกรรมทั่วโลก ซึ่งสร้างแรงกดดันให้กับคู่แข่งในแง่ของต้นทุนและการเข้าถึง

ความท้าทายและข้อกังวล

ถึงแม้ DeepSeek V3.1 จะมีประสิทธิภาพสูง แต่ก็ยังเผชิญกับข้อกังวลด้าน ความปลอดภัย โดยเฉพาะช่องโหว่จากการโจมตีแบบ jailbreak ซึ่งเคยพบในรุ่นก่อนหน้าอย่าง V3 และ R1 รวมถึง ความเป็นส่วนตัว เนื่องจากข้อมูลผู้ใช้ถูกเก็บในจีน ทำให้หลายประเทศ เช่น สหรัฐฯ ออสเตรเลีย และอินเดีย จำกัดการใช้งานในหน่วยงานภาครัฐ นอกจากนี้ V3.1 อาจมีการเซ็นเซอร์เนื้อหาที่อ่อนไหว เช่น เหตุการณ์เทียนอันเหมิน เพื่อให้สอดคล้องกับกฎระเบียบของจีน

อนาคตของ DeepSeek

นักวิเคราะห์คาดว่า DeepSeek V3.1 อาจเป็นรากฐานสำหรับ DeepSeek R2 โมเดลที่เน้นการใช้เหตุผล ซึ่งอาจเปิดตัวในอีกไม่กี่เดือนข้างหน้า การที่ DeepSeek สามารถพัฒนาโมเดลที่มีประสิทธิภาพสูงด้วยต้นทุนต่ำ ทำให้เกิดการถกเถียงถึงแนวทางการพัฒนา AI ที่เน้นประสิทธิภาพและการเข้าถึงในวงกว้าง ซึ่งอาจเปลี่ยนโฉมวงการ AI ในอนาคตสำหรับผู้ที่สนใจ DeepSeek V3.1 สามารถดาวน์โหลดได้ที่ Hugging Face หรือใช้งานผ่านแพลตฟอร์มของ DeepSeek การเปิดตัวครั้งนี้ไม่เพียงแต่เป็นก้าวสำคัญของ DeepSeek แต่ยังเป็นการย้ำเตือนถึงศักยภาพของ AI แบบโอเพนซอร์สที่พร้อมท้าทายผู้นำในอุตสาหกรรม

ข้อมูล: DeepSeek