Google เผยเทคนิคใหม่ ‘Speculative Cascades’ ปลดล็อกศักยภาพ LLM ให้เร็ว-แรง-ถูกลงกว่าเดิม
นับตั้งแต่ปี 2022 ที่ OpenAI เปิดตัว GPT-3 และ ChatGPT เทคโนโลยีโมเดลภาษาขนาดใหญ่ หรือ Large Language Models (LLMs) ก็เข้ามามีบทบาทในชีวิตประจำวันของเราอย่างรวดเร็ว ไม่ว่าจะเป็นการช่วยเขียนโค้ด การค้นหาข้อมูล หรือการสร้างสรรค์เนื้อหา แต่เบื้องหลังความสามารถอันน่าทึ่งนั้น คือความท้าทายด้านประสิทธิภาพ เนื่องจากกระบวนการสร้างคำตอบ (Inference) ของ LLM นั้นทั้งช้าและใช้พลังการประมวลผลมหาศาล เมื่อมีผู้ใช้งานเพิ่มขึ้น การทำให้ LLM ทำงานได้เร็วขึ้นและมีราคาถูกลง โดยที่คุณภาพไม่ลดลง จึงเป็นโจทย์ใหญ่ที่ทุกบริษัทกำลังพยายามแก้ไข
2 แนวทางเดิมและข้อจำกัด ก่อนหน้านี้ มีเทคนิคที่ใช้เพื่อเร่งความเร็ว LLM อยู่ 2 แนวทางหลัก ได้แก่
Cascades (การทำงานแบบขั้นบันได): ใช้วิธีให้โมเดลขนาดเล็กที่ทำงานเร็วกว่าประมวลผลก่อน หากโมเดลเล็กไม่มั่นใจในคำตอบ จึงจะส่งต่อไปให้โมเดลขนาดใหญ่ที่ซับซ้อนกว่าจัดการต่อ วิธีนี้ช่วยลดต้นทุนการประมวลผลได้ แต่ก็มีข้อเสียคือเกิดปัญหา “คอขวด” (Bottleneck) ที่ต้องรอการตัดสินใจตามลำดับขั้น ซึ่งอาจทำให้กระบวนการโดยรวมช้าลงได้หากโมเดลเล็กไม่สามารถให้คำตอบที่น่าเชื่อถือได้บ่อยครั้ง
Speculative Decoding (การถอดรหัสเชิงคาดเดา): ใช้วิธีให้โมเดลเล็กที่เรียกว่า “Drafter” ทำการ “ร่าง” คำตอบหรือโทเค็น (Token) ออกมาล่วงหน้าหลายๆ คำในคราวเดียว จากนั้นจึงให้โมเดลใหญ่เข้ามาตรวจสอบความถูกต้องอย่างรวดเร็ว แม้วิธีนี้จะเน้นความเร็วเป็นหลัก แต่มีจุดอ่อนสำคัญคือ หากมีโทเค็นที่ร่างมาผิดพลาดแม้แต่ตัวเดียว ร่างคำตอบทั้งหมดจะถูกปฏิเสธ ทำให้เสียความเร็วที่อุตส่าห์ทำมาไปโดยเปล่าประโยชน์และไม่ช่วยประหยัดต้นทุนการประมวลผลเลย
‘Speculative Cascades’ นวัตกรรมใหม่จาก Google
เมื่อเห็นข้อจำกัดของทั้งสองวิธี ทีมวิจัยของ Google จึงได้พัฒนาแนวทางใหม่ที่ชื่อว่า Speculative Cascades ซึ่งเป็นการผสานจุดเด่นของทั้งสองเทคนิคเข้าไว้ด้วยกันอย่างชาญฉลาด
หัวใจสำคัญของเทคนิคนี้คือ “กฎการส่งต่อที่ยืดหยุ่น” (Flexible Deferral Rule) ที่จะคอยตัดสินใจแบบไดนามิกว่าจะยอมรับร่างคำตอบจากโมเดลเล็ก หรือจะส่งต่อให้โมเดลใหญ่ประมวลผลต่อดี ความยืดหยุ่นนี้ช่วยกำจัดปัญหาคอขวดของวิธี Cascades และแก้ปัญหาการปฏิเสธร่างคำตอบทั้งชุดของ Speculative Decoding ได้อย่างสิ้นเชิง
จุดเด่นที่สุดคือ ระบบสามารถ ยอมรับคำตอบที่ดีจากโมเดลเล็กได้ แม้ว่าคำตอบนั้นจะไม่ตรงกับผลลัพธ์ของโมเดลใหญ่แบบ 100% ซึ่งเป็นข้อจำกัดที่เคยเกิดขึ้นในวิธีแบบเดิม
ผลลัพธ์ที่น่าพอใจ
ทีมวิจัยของ Google ได้ทำการทดลองเทคนิคนี้กับโมเดลอย่าง Gemma และ T5 ในงานด้านภาษาที่หลากหลาย เช่น การสรุปความ, การใช้เหตุผล และการเขียนโค้ด ผลลัพธ์ที่ได้แสดงให้เห็นว่า Speculative Cascades สามารถสร้างสมดุลระหว่างต้นทุนและคุณภาพ (Cost-Quality Trade-offs) ได้ดีกว่า และเพิ่มความเร็วได้สูงกว่าเทคนิคพื้นฐานอย่างมีนัยสำคัญ นอกจากนี้ยังสามารถสร้างคำตอบที่ถูกต้องได้เร็วกว่าวิธี Speculative Decoding อีกด้วย
ในปัจจุบัน เทคนิคนี้ยังคงอยู่ในขั้นตอนการวิจัย แต่หากได้รับการพิสูจน์แล้วว่ามีประสิทธิภาพและพร้อมใช้งานจริง เราก็อาจจะได้เห็นการนำไปปรับใช้ในวงกว้าง ซึ่งจะมอบประสบการณ์การใช้งาน AI ที่ดีขึ้น เร็วขึ้น และมีราคาที่เข้าถึงง่ายขึ้นสำหรับผู้ใช้งานทุกคนในอนาคตอันใกล้นี้
ข้อมูล: Paul Hill Google’s new method makes LLMs faster and more powerful, and cheaper too, NeoWin