Alibaba เปิดตัว Qwen3 โมเดลเอไอรุ่นใหม่ที่ปูทางไปสู่ AGI
Qwen3 สรุปย่อ: Qwen3 กลุ่มโมเดลปัญญาประดิษฐ์ (AI) รุ่นใหม่ล่าสุดที่ออกแบบมาเพื่อตอบโจทย์การใช้งานหลากหลาย ตั้งแต่การเขียนโค้ด การแก้ปัญหาคณิตศาสตร์ ไปจนถึงการประมวลผลภาษาธรรมชาติและงานมัลติโมดัล โดย Qwen3 ประกอบด้วย 6 โมเดลแบบ dense (0.6B, 1.7B, 4B, 8B, 14B, 32B) และ 2 โมเดลแบบ Mixture of Experts (MoE) (30B-A3B และ 235B-A22B) ซึ่งเป็นโมเดลเรือธงที่มีประสิทธิภาพสูงสุด โมเดลนี้รองรับ 119 ภาษา รวมถึงภาษาไทย และมีความสามารถในการสลับโหมดการทำงานระหว่าง “โหมดคิด” (think mode) และ “โหมดไม่คิด” เพื่อปรับการประมวลผลให้เหมาะสมกับงานที่แตกต่างกัน นอกจากนี้ Qwen3 ยังใช้สถาปัตยกรรม Mixture of Experts (MoE) ในบางโมเดล ซึ่งช่วยเพิ่มประสิทธิภาพการคำนวณโดยแบ่งงานย่อยให้โมเดลผู้เชี่ยวชาญเฉพาะด้านจัดการ
ทีม Qwen ของ Alibaba Cloud ได้เปิดตัว Qwen3 ซึ่งเป็นโมเดลภาษาขนาดใหญ่ (Large Language Model – LLM) รุ่นล่าสุดในตระกูล Qwen การเปิดตัวครั้งนี้ถือเป็นก้าวสำคัญในการพัฒนา AI และปูทางไปสู่ Artificial General Intelligence (AGI) หรือปัญญาประดิษฐ์ทั่วไป
โมเดลเรือธงคือ Qwen3-235B-A22B ซึ่งให้ผลลัพธ์ที่สามารถแข่งขันได้ในการประเมินประสิทธิภาพด้านการเขียนโค้ด คณิตศาสตร์ และความสามารถทั่วไป เมื่อเทียบกับโมเดลชั้นนำอื่น ๆ เช่น DeepSeek-R1, o1, o3-mini, Grok-3 และ Gemini-2.5-Pro นอกจากนี้ โมเดล MoE ขนาดเล็กอย่าง Qwen3-30B-A3B ยังมีประสิทธิภาพเหนือกว่า QwQ-32B โดยใช้พารามิเตอร์ที่ใช้งานจริงน้อยกว่าถึง 10 เท่า แม้แต่โมเดลขนาดเล็กอย่าง Qwen3-4B ก็สามารถเทียบเท่ากับประสิทธิภาพของ Qwen2.5-72B-Instruct ได้
ทีม Qwen ได้เปิดเผยโค้ดและน้ำหนักโมเดล (open-weighting) สำหรับโมเดล MoE สองรุ่น ได้แก่ Qwen3-235B-A22B ซึ่งเป็นโมเดลขนาดใหญ่ที่มีพารามิเตอร์รวม 235 พันล้านตัว และพารามิเตอร์ที่ใช้งานจริง 22 พันล้านตัว และ Qwen3-30B-A3B ซึ่งเป็นโมเดล MoE ขนาดเล็กกว่า มีพารามิเตอร์รวม 30 พันล้านตัว และพารามิเตอร์ที่ใช้งานจริง 3 พันล้านตัว นอกจากนี้ ยังมีโมเดล Dense อีกหกโมเดลที่ถูกเปิดเผยโค้ดภายใต้สัญญาอนุญาตแบบ Apache 2.0 ได้แก่ Qwen3-32B, Qwen3-14B, Qwen3-8B, Qwen3-4B, Qwen3-1.7B, และ Qwen3-0.6B


โมเดล Qwen3 มีพารามิเตอร์และคุณสมบัติที่หลากหลาย:
- Qwen3-0.6B: 28 Layers, 16/8 Heads, Context Length 32K
- Qwen3-1.7B: 28 Layers, 16/8 Heads, Context Length 32K
- Qwen3-4B: 36 Layers, 32/8 Heads, Context Length 32K
- Qwen3-8B: 36 Layers, 32/8 Heads, Context Length 128K
- Qwen3-14B: 40 Layers, 40/8 Heads, Context Length 128K
- Qwen3-32B: 64 Layers, 64/8 Heads, Context Length 128K
- Qwen3-30B-A3B (MoE): 48 Layers, 32/4 Heads, 128 Experts (Total) / 8 Experts (Activated), Context Length 128K
- Qwen3-235B-A22B (MoE): 94 Layers, 64/4 Heads, 128 Experts (Total) / 8 Experts (Activated), Context Length 128K
โมเดลที่ผ่านการฝึกอบรมแล้ว เช่น Qwen3-30B-A3B และเวอร์ชัน Pre-trained (Qwen3-30B-A3B-Base) พร้อมใช้งานแล้วบนแพลตฟอร์มต่าง ๆ เช่น Hugging Face, ModelScope, และ Kaggle สำหรับการนำไปใช้งาน (deployment) แนะนำให้ใช้เฟรมเวิร์กอย่าง SGLang และ vLLM ส่วนการใช้งานแบบโลคอล สามารถใช้เครื่องมือต่าง ๆ เช่น Ollama, LMStudio, MLX, llama.cpp, และ KTransformers ได้
คุณสมบัติหลักที่โดดเด่นของ Qwen3 ได้แก่:
- โหมดการคิดแบบไฮบริด (Hybrid Thinking Modes): โมเดล Qwen3 นำเสนอวิธีการแก้ปัญหาแบบไฮบริด โดยรองรับสองโหมด:
- Thinking Mode: ในโหมดนี้ โมเดลจะใช้เวลาในการคิดวิเคราะห์ทีละขั้นตอนก่อนให้คำตอบสุดท้าย เหมาะสำหรับปัญหาที่ซับซ้อนซึ่งต้องการการคิดที่ลึกซึ้งยิ่งขึ้น
- Non-Thinking Mode: ในโหมดนี้ โมเดลจะให้คำตอบที่รวดเร็ว เกือบจะทันที เหมาะสำหรับคำถามที่ง่ายกว่าซึ่งความเร็วมีความสำคัญมากกว่าความลึกซึ้ง ความยืดหยุ่นนี้ช่วยให้ผู้ใช้สามารถควบคุมปริมาณ “การคิด” ที่โมเดลใช้ตามงานที่ทำ สามารถกำหนดงบประมาณการคำนวณสำหรับการให้เหตุผลตามงานได้ง่ายขึ้น เพื่อสร้างความสมดุลที่เหมาะสมที่สุดระหว่างประสิทธิภาพด้านต้นทุนและคุณภาพของการอนุมาน (inference quality)
- การสนับสนุนหลายภาษา (Multilingual Support): โมเดล Qwen3 รองรับ 119 ภาษาและภาษาถิ่น ความสามารถด้านหลายภาษานี้เปิดโอกาสใหม่สำหรับการใช้งานในระดับสากล ทำให้ผู้ใช้ทั่วโลกสามารถได้รับประโยชน์จากพลังของโมเดลเหล่านี้ โดยครอบคลุมหลากหลายกลุ่มภาษา เช่น Indo-European, Sino-Tibetan (รวมถึงภาษาจีนตัวย่อ, ตัวเต็ม, กวางตุ้ง), Afro-Asiatic (รวมถึงภาษาอาหรับและฮีบรู), Austronesian (รวมถึงภาษาอินโดนีเซีย, มาเลย์, ตากาล็อก), Dravidian, Turkic, Tai-Kadai (รวมถึงภาษาไทย, ลาว), Uralic, Austroasiatic (รวมถึงภาษาเวียดนาม, เขมร) และอื่น ๆ (รวมถึงภาษาญี่ปุ่น, เกาหลี, จอร์เจีย)
- ความสามารถด้าน Agentic ที่ได้รับการปรับปรุง (Improved Agentic Capabilities): ทีมพัฒนาได้เพิ่มประสิทธิภาพโมเดล Qwen3 สำหรับการเขียนโค้ดและความสามารถด้าน agentic รวมถึงเสริมความแข็งแกร่งในการสนับสนุน MCP Qwen3 มีความสามารถในการเรียกใช้เครื่องมือ (tool calling) ได้ดีเยี่ยม และแนะนำให้ใช้ Qwen-Agent เพื่อใช้ประโยชน์จากความสามารถนี้อย่างเต็มที่
เบื้องหลังความสามารถเหล่านี้คือ การฝึกอบรม (Pre-training) ที่ได้รับการขยายขนาดอย่างมาก ชุดข้อมูลสำหรับการฝึกอบรม Qwen3 มีขนาดใหญ่ขึ้นเกือบสองเท่าเมื่อเทียบกับ Qwen2.5 โดยใช้ข้อมูลประมาณ 36 ล้านล้านโทเค็น ครอบคลุม 119 ภาษาและภาษาถิ่น ข้อมูลนี้ไม่ได้มาจากเว็บเท่านั้น แต่ยังมาจากเอกสารรูปแบบ PDF ด้วย มีการใช้ Qwen2.5-VL เพื่อแยกข้อความจากเอกสาร และ Qwen2.5 เพื่อปรับปรุงคุณภาพของเนื้อหาที่แยกออกมา นอกจากนี้ ยังมีการใช้ Qwen2.5-Math และ Qwen2.5-Coder เพื่อสร้างข้อมูลสังเคราะห์ด้านคณิตศาสตร์และโค้ด เช่น ตำราเรียน คู่ถาม-ตอบ และส่วนของโค้ด
กระบวนการฝึกอบรมล่วงหน้าประกอบด้วยสามขั้นตอน:
- ขั้นตอนที่ 1 (S1): ฝึกอบรมโมเดลด้วยข้อมูลมากกว่า 30 ล้านล้านโทเค็น พร้อมความยาวบริบท 4K โทเค็น เพื่อให้โมเดลมีทักษะภาษาพื้นฐานและความรู้ทั่วไป
- ขั้นตอนที่ 2 (S2): ปรับปรุงชุดข้อมูลโดยเพิ่มสัดส่วนข้อมูลที่เน้นความรู้ เช่น STEM, การเขียนโค้ด และงานที่ต้องใช้การให้เหตุผล จากนั้นฝึกอบรมโมเดลด้วยข้อมูลเพิ่มเติมอีก 5 ล้านล้านโทเค็น
- ขั้นตอนที่ 3 (S3): ใช้ข้อมูลบริบทขนาดยาวคุณภาพสูงเพื่อขยายความยาวบริบทเป็น 32K โทเค็น ทำให้โมเดลสามารถจัดการกับอินพุตที่ยาวขึ้นได้อย่างมีประสิทธิภาพ
ด้วยความก้าวหน้าของสถาปัตยกรรมโมเดล ข้อมูลการฝึกอบรมที่เพิ่มขึ้น และวิธีการฝึกอบรมที่มีประสิทธิภาพมากขึ้น ประสิทธิภาพโดยรวมของโมเดล Qwen3 Dense Base เทียบเท่าหรือเหนือกว่าโมเดล Qwen2.5 Base ที่มีพารามิเตอร์มากกว่า เช่น Qwen3-1.7B/4B/8B/14B/32B-Base มีประสิทธิภาพเทียบเท่ากับ Qwen2.5-3B/7B/14B/32B/72B-Base ตามลำดับ โดยเฉพาะอย่างยิ่งในด้าน STEM, การเขียนโค้ด และการให้เหตุผล โมเดล Qwen3 Dense Base ยังมีประสิทธิภาพเหนือกว่าโมเดล Qwen2.5 ที่ใหญ่กว่าด้วย สำหรับโมเดล Qwen3-MoE Base มีประสิทธิภาพคล้ายกับโมเดล Qwen2.5 Dense Base ในขณะที่ใช้พารามิเตอร์ที่ใช้งานจริงเพียง 10% ส่งผลให้ประหยัดทั้งต้นทุนการฝึกอบรมและการอนุมานอย่างมาก
สำหรับการพัฒนาโมเดลไฮบริดที่มีความสามารถในการให้เหตุผลแบบทีละขั้นตอนและการตอบสนองที่รวดเร็ว ทีมได้ใช้กระบวนการฝึกอบรมหลังการฝึกอบรม (Post-training) สี่ขั้นตอน:
- การเริ่มต้นด้วย Chain-of-Thought (CoT) แบบยาว: ปรับจูนโมเดลด้วยข้อมูล CoT แบบยาวที่หลากหลาย ครอบคลุมงานและโดเมนต่าง ๆ เพื่อเสริมสร้างความสามารถในการให้เหตุผลพื้นฐาน
- Reinforcement Learning (RL) ที่อิงตามการให้เหตุผล: ขยายทรัพยากรการคำนวณสำหรับ RL โดยใช้รางวัลที่อิงตามกฎ (rule-based rewards) เพื่อเพิ่มความสามารถในการสำรวจและใช้ประโยชน์ของโมเดล
- การรวมโหมดการคิด: ผสานความสามารถแบบ Non-Thinking เข้าไปในโมเดล Thinking โดยการปรับจูนด้วยข้อมูล CoT แบบยาวและข้อมูล instruction-tuning ที่สร้างขึ้นโดยโมเดล Thinking ขั้นตอนที่สอง
- RL ทั่วไป: ใช้ RL กับงานทั่วไปกว่า 20 งาน เพื่อเสริมสร้างความสามารถทั่วไปของโมเดลและแก้ไขพฤติกรรมที่ไม่ต้องการ
การเปิดตัวและการเปิดเผยโค้ด Qwen3 คาดว่าจะช่วยขับเคลื่อนการวิจัยและพัฒนาโมเดลพื้นฐานขนาดใหญ่ได้อย่างมาก เป้าหมายคือการเสริมศักยภาพนักวิจัย นักพัฒนา และองค์กรทั่วโลกในการสร้างสรรค์โซลูชันที่เป็นนวัตกรรมโดยใช้โมเดลที่ทันสมัยเหล่านี้
Qwen3 ถือเป็นหลักชัยสำคัญในการเดินทางสู่ AGI และ Artificial Superintelligence (ASI) ด้วยการขยายขนาดทั้ง Pre-training และ RL ทำให้บรรลุระดับสติปัญญาที่สูงขึ้น การผสานรวมโหมด Thinking และ Non-Thinking อย่างราบรื่นมอบความยืดหยุ่นให้ผู้ใช้ในการควบคุมงบประมาณการคิด นอกจากนี้ยังได้ขยายการสนับสนุนภาษาที่หลากหลายมากขึ้น เพื่อเพิ่มการเข้าถึงทั่วโลก
มองไปข้างหน้า ทีมพัฒนาตั้งเป้าที่จะพัฒนาโมเดลให้ดียิ่งขึ้นในหลายมิติ รวมถึงการปรับปรุงสถาปัตยกรรมและวิธีการฝึกอบรม เพื่อบรรลุวัตถุประสงค์หลักหลายประการ ได้แก่ การขยายขนาดข้อมูล การเพิ่มขนาดโมเดล การขยายความยาวบริบท การขยายรูปแบบโมเดล และการพัฒนา RL ขั้นสูงด้วยการตอบสนองจากสภาพแวดล้อม (environmental feedback) สำหรับการให้เหตุผลระยะยาว (long-horizon reasoning) ทีมเชื่อว่ากำลังเปลี่ยนผ่านจากยุคที่มุ่งเน้นการฝึกอบรมโมเดลไปสู่ยุคที่มุ่งเน้นการฝึกอบรม Agent การทำซ้ำครั้งถัดไปจะนำความก้าวหน้าที่มีความหมายมาสู่งานและชีวิตของทุกคน
ผู้ที่สนใจสามารถทดลองใช้ Qwen3 ได้ที่ Qwen Chat Web (chat.qwen.ai) และแอปพลิเคชันบนมือถือ และสำรวจวิธีการใช้งาน Qwen3 บนเฟรมเวิร์กต่าง ๆ เช่น Hugging Face, SGLang, vLLM รวมถึงเครื่องมือสำหรับการใช้งานแบบโลคอล นอกจากนี้ ยังมีกลไก Soft Switch ที่ให้ผู้ใช้ควบคุมพฤติกรรมของโมเดลแบบไดนามิกได้ด้วยการใส่แท็ก /think และ /no_think ในข้อความแจ้งเตือน (prompt) และสำหรับความสามารถด้าน Agentic แนะนำให้ใช้ Qwen-Agent ซึ่งช่วยลดความซับซ้อนในการเขียนโค้ดสำหรับการเรียกใช้เครื่องมือ
ที่มาข้อมูล: https://qwenlm.github.io/blog/qwen3/

You must be logged in to post a comment.