IBM พรีวิว Granite 4.0 Tiny ใช้งานได้บน RTX 3060 12GB

IBM ได้ประกาศเปิดตัว IBM Granite 4.0 Tiny Preview ซึ่งเป็นเวอร์ชันพรีวิวเบื้องต้นของโมเดลภาษาขนาดเล็กที่สุดในตระกูล Granite 4.0 ที่กำลังจะมาถึง เพื่อเผยแพร่สู่ชุมชนโอเพนซอร์ส การพรีวิวครั้งนี้ชี้ให้เห็นถึงก้าวสำคัญของ IBM ในการพัฒนาโมเดลภาษาขนาดใหญ่ (LLM) ที่เน้นประสิทธิภาพและความคุ้มค่าในระดับองค์กร

Granite 4.0 Tiny Preview ถูกออกแบบมาให้มีขนาดกะทัดรัดอย่างยิ่งและมีประสิทธิภาพในการประมวลผลสูง ที่ความแม่นยำระดับ FP8 โมเดลนี้สามารถรองรับการทำงานหลายเซสชันพร้อมกันสำหรับงานที่ใช้บริบทขนาดยาว (128K) บนฮาร์ดแวร์ระดับผู้บริโภค รวมถึง GPU ที่มีจำหน่ายทั่วไปในราคาต่ำกว่า 350 ดอลลาร์สหรัฐฯ ได้อย่างดี ตัวอย่างเช่น RAM ที่ใช้สำหรับการทำงาน 5 เซสชันพร้อมกันที่บริบทสูงสุด 128K นั้นเหมาะสมสำหรับ GPU อย่าง NVIDIA GeForce RTX 3060 ที่มี VRAM 12GB ดังนั้นกราฟิกการ์ดรุ่นใหม่ ๆ ที่มี VRAM ในระดับ 16GB ก็สามารถรันโมเดลนี้ได้เช่นกัน

แม้โมเดลในเวอร์ชันพรีวิวนี้จะยังอยู่ระหว่างการฝึกฝน (โทเค็นเพียง 2.5 ล้านล้านโทเค็น จากแผนการฝึกฝน 15 ล้านล้านโทเค็นขึ้นไป) แต่ประสิทธิภาพเบื้องต้นก็ทัดเทียมกับ IBM Granite 3.3 2B Instruct อยู่แล้ว ทั้งที่ใช้พารามิเตอร์ที่ทำงานอยู่น้อยกว่า และ ลดความต้องการหน่วยความจำลงประมาณ 72% (การลดหน่วยความจำนี้คำนวณจากการทำงานที่บริบท 128K และ 16 เซสชันพร้อมกัน) IBM คาดการณ์ว่าเมื่อ Granite 4.0 Tiny ฝึกฝนเสร็จสมบูรณ์ ประสิทธิภาพจะทัดเทียมกับ Granite 3.3 8B Instruct

หนึ่งในจุดเด่นสำคัญของ Granite 4.0 Tiny Preview คือ สถาปัตยกรรมไฮบริด Mamba-2/Transformer ใหม่ล่าสุด ซึ่งแตกต่างจากโมเดล Granite รุ่นก่อนๆ ที่ใช้สถาปัตยกรรม Transformer ทั่วไป สถาปัตยกรรมใหม่นี้ผสานรวมความเร็วและประสิทธิภาพของ Mamba เข้ากับความแม่นยำของกลไก self-attention แบบ Transformer โดยเฉพาะอย่างยิ่ง Granite 4.0 Tiny-Preview เป็น โมเดลแบบ Mixture of Experts (MoE) ที่มีความละเอียดแบบ fine-grained มีพารามิเตอร์ทั้งหมด 7 พันล้านตัว แต่มีพารามิเตอร์ที่ทำงานจริง (active parameters) เพียง 1 พันล้านตัวในขณะที่ inference

นวัตกรรมจำนวนมากในสถาปัตยกรรม Granite 4 เกิดจากการทำงานร่วมกันระหว่าง IBM Research และผู้สร้าง Mamba ดั้งเดิม ในโครงการ Bamba ซึ่งเป็นโมเดลไฮบริดโอเพนซอร์สเชิงทดลอง Mamba เป็นโมเดลประเภท state space model (SSM) ที่ถูกพัฒนาขึ้นในปี 2023 แตกต่างจากกลไก self-attention ของ Transformer SSMs ดั้งเดิมไม่มีความสามารถในการเลือกโฟกัสหรือละเว้นข้อมูลบริบทบางส่วนอย่างชัดเจน จนกระทั่งการพัฒนา S6 (Mamba) ในปี 2023 ที่เพิ่มกลไกการเลือก (selection) และวิธีการสแกน (scan) เข้ามา ทำให้ได้ผลลัพธ์ที่แข่งขันกับ Transformer ได้

ข้อได้เปรียบหลักของ Mamba เหนือโมเดลที่ใช้ Transformer คือเรื่องประสิทธิภาพและความเร็ว ในขณะที่ความต้องการคำนวณของ self-attention ใน Transformer เพิ่มขึ้นแบบกำลังสอง (quadratic) ตามความยาวของบริบท ความต้องการคำนวณของ Mamba เพิ่มขึ้นแบบเชิงเส้น (linear) Mamba จะรักษา “สรุป” บริบทก่อนหน้าที่มีขนาดคงที่ไว้ และอัปเดตสรุปนั้นตามความเกี่ยวข้องของโทเค็นใหม่แต่ละตัวที่อ่าน ในทางตรงกันข้าม Transformer ต้องคำนวณความเกี่ยวข้องของทุกโทเค็นก่อนหน้ากับโทเค็นใหม่ทุกครั้ง อย่างไรก็ตาม Transformer ยังคงมีข้อได้เปรียบในงานที่ต้องการ in-context learning (เช่น few-shot prompting), การคัดลอก หรือการให้เหตุผลในบริบทขนาดยาว

สถาปัตยกรรม MoE ของ Granite 4.0 ใช้บล็อก Mamba 9 บล็อก ต่อบล็อก Transformer 1 บล็อก โดยกลไกการเลือกของบล็อก Mamba จะจับบริบทแบบ Global อย่างมีประสิทธิภาพ ซึ่งจะส่งต่อไปยังบล็อก Transformer เพื่อการวิเคราะห์บริบทแบบ Local ที่ซับซ้อนยิ่งขึ้น ผลที่ได้คือ การลดการใช้หน่วยความจำและ latency ลงอย่างมาก โดยไม่มีการลดทอนประสิทธิภาพที่เห็นได้ชัด Granite 4.0 Tiny เพิ่มประสิทธิภาพนี้ด้วยการใช้เฟรมเวิร์ก MoE ขนาดกะทัดรัดแบบ fine-grained

Granite 4.0 Tiny Preview มีความสามารถที่น่าสนใจคือ ความสามารถในการรองรับบริบทได้ยาวอย่างไม่จำกัดในเชิงทฤษฎี ซึ่งเป็นคุณสมบัติของโมเดลที่ใช้ SSMs ข้อจำกัดหนึ่งที่มักพบคือ Positional Encoding (PE) ที่ใช้ในการแสดงข้อมูลลำดับของคำ การวิจัยแสดงให้เห็นว่าโมเดลที่ใช้ PE มีปัญหาในการทำงานกับลำดับที่ยาวกว่าที่เคยเห็นในการฝึกฝน (อ้างอิงจาก arXiv, 6 พฤศจิกายน 2023) อย่างไรก็ตาม สถาปัตยกรรม Granite 4.0 ไม่ใช้ Positional Encoding (NoPE) การทดสอบแสดงให้เห็นว่าสิ่งนี้ไม่ส่งผลเสียต่อประสิทธิภาพในบริบทขนาดยาว ในปัจจุบัน IBM ได้ยืนยันประสิทธิภาพของ Tiny Preview ในบริบทที่ยาวถึง อย่างน้อย 128K โทเค็น และคาดว่าจะยืนยันประสิทธิภาพที่คล้ายกันในความยาวบริบทที่ยาวขึ้นอย่างมีนัยสำคัญเมื่อโมเดลฝึกฝนเสร็จสมบูรณ์ ข้อจำกัดในทางปฏิบัติอีกประการคือการคำนวณ แต่ NoPE และประสิทธิภาพของโมเดลช่วยให้ Granite 4.0 Tiny มีพื้นที่ฮาร์ดแวร์เพียงพอสำหรับการ scaling แบบเชิงเส้น กล่าวโดยสรุป สถาปัตยกรรม Granite 4.0 MoE เองไม่ได้มีข้อจำกัดด้านความยาวบริบท ข้อจำกัดอยู่ที่ฮาร์ดแวร์ของคุณ

Granite 4.0 Tiny Preview เวอร์ชันเบื้องต้นนี้พร้อมให้ใช้งานแล้วบน Hugging Face ภายใต้ไลเซนส์มาตรฐาน Apache 2.0 แม้จะยังไม่แนะนำให้ใช้ในระดับองค์กร แต่จุดประสงค์คือเพื่อให้แม้แต่นักพัฒนาที่มี GPU จำกัดก็สามารถทดลองและใช้งานโมเดลนี้บน GPU ระดับผู้บริโภคได้ IBM คาดว่าจะมีการสนับสนุนสถาปัตยกรรมใหม่นี้ใน Hugging Face transformers และ vLLM ในไม่ช้า และจะมีการสนับสนุนอย่างเป็นทางการในการเรียกใช้โมเดลนี้แบบ Local ผ่านพาร์ทเนอร์แพลตฟอร์ม เช่น Ollama และ LMStudio ทันเวลาสำหรับการเปิดตัวโมเดลเวอร์ชันเต็มในช่วงฤดูร้อนปีนี้

IBM รู้สึกตื่นเต้นที่จะดำเนินการฝึกฝน Granite 4.0 Tiny ต่อไป เนื่องจากเห็นผลลัพธ์ที่น่าพอใจตั้งแต่ช่วงเริ่มต้น นอกจากนี้ยังจะนำบทเรียนจากการ post-training Granite 3.3 โดยเฉพาะอย่างยิ่งในด้านความสามารถในการให้เหตุผลและการทำตามคำสั่งที่ซับซ้อน มาใช้กับโมเดลใหม่นี้ เช่นเดียวกับรุ่นก่อนหน้าใน Granite 3.2 และ 3.3, Granite 4.0 Tiny Preview มีฟังก์ชัน “thinking on” และ “thinking off” ที่สามารถสลับได้ แม้ว่าการ post-training ที่เน้นการให้เหตุผลจะยังไม่สมบูรณ์

ข้อมูลเพิ่มเติมเกี่ยวกับการพัฒนาใหม่ในตระกูล Granite Series จะนำเสนอที่งาน IBM Think 2025 รวมถึงในอีกไม่กี่สัปดาห์และเดือนข้างหน้า คุณสามารถตรวจสอบ Granite 4.0 Tiny Preview ได้บน Hugging Face


ข้อมูล IBM

Scroll to Top