Inception เปิดตัว Mercury โมเดลแบบ DLM ที่อาจเปลี่ยนวงการ GenAI

วงการ AI กำลังตื่นเต้นกับการเปิดตัวของ Inception บริษัทสตาร์ทอัพจากพาโลอัลโตที่ก่อตั้งโดยศาสตราจารย์ Stefano Ermon จากมหาวิทยาลัยสแตนฟอร์ด หลังจากซุ่มพัฒนามานาน Inception ได้เผยโฉมโมเดลที่มีชื่อว่า Mercury โดยใช้หลักการแบบ “Diffusion-based Large Language Model” เรียกย่อ ๆ ว่า DLM หรือ dLLM

โมเดล AI ใหม่ที่อ้างว่าสามารถทำงานได้เร็วกว่าโมเดลภาษาขนาดใหญ่ (LLM) แบบดั้งเดิมถึง 10 เท่า และลดต้นทุนการประมวลผลลงอย่างมาก โมเดลนี้ถูกยกย่องจากหลายฝ่ายว่าเป็น “อนาคตของ Generative AI” แต่ DLM คืออะไรกันแน่? มันแตกต่างจากโมเดลอื่นอย่างไร? และทำไมถึงมีศักยภาพที่จะปฏิวัติวงการ? บทความนี้จะพาคุณไปสำรวจคำตอบ

DLM คืออะไร

DLM เป็นโมเดลภาษาขนาดใหญ่ที่ใช้เทคโนโลยีการแพร่กระจาย (diffusion technology) ซึ่งเดิมเคยถูกนำมาใช้ในงานสร้างภาพและวิดีโอ เช่น Midjourney หรือ Stable Diffusion แต่ Inception ได้นำแนวคิดนี้มาปรับใช้กับงานด้านภาษา (NLP) เป็นครั้งแรก โมเดลนี้สามารถสร้างข้อความ โค้ด และตอบคำถามได้เหมือน LLM ทั่วไป แต่จุดเด่นคือความเร็วและประสิทธิภาพ โดยสามารถประมวลผลได้มากกว่า 1,000 โทเค็นต่อวินาทีบนชิป NVIDIA H100 ซึ่งเป็นความเร็วที่สูงกว่ามาตรฐานของโมเดล LLM ที่เน้นการสร้างแบบเรียงลำดับ (autoregressive) อย่าง GPT หรือ LLaMA

Inception ยังเปิดตัว “Mercury Coder” โมเดลย่อยแรกในตระกูล Mercury ที่ออกแบบมาเพื่อการสร้างโค้ดโดยเฉพาะ และมีแผนจะปล่อยโมเดลสำหรับการสนทนาในอนาคตอันใกล้ บริษัทระบุว่า DLM ไม่เพียงแค่เร็ว แต่ยังประหยัดพลังงานและทรัพยากร ทำให้เหมาะกับการใช้งานในวงกว้าง ตั้งแต่แอปพลิเคชันที่ต้องการความเร็วสูง ไปจนถึงการปรับใช้ในองค์กรขนาดใหญ่

วิธีการทำงานที่แตกต่างจากโมเดลอื่น

โมเดล LLM แบบดั้งเดิม เช่น ChatGPT ทำงานแบบ autoregressive คือสร้างข้อความทีละโทเค็น โดยแต่ละโทเค็นต้องรอการประมวลผลจากโทเค็นก่อนหน้า ส่งผลให้ใช้เวลานานและกินทรัพยากรสูงเมื่อต้องสร้างข้อความยาวๆ หรือทำงานที่ซับซ้อน แต่ DLM ของ Inception ใช้แนวทาง “coarse-to-fine” ที่มาจาก diffusion models แทนที่จะสร้างข้อความแบบเรียงลำดับ มันเริ่มจาก “สัญญาณรบกวน” (noise) แล้วค่อยๆ ปรับแต่งให้กลายเป็นข้อความที่มีความหมายในขั้นตอนการ “กำจัดสัญญาณรบกวน” (denoising) เพียงไม่กี่ขั้นตอน

เปรียบเทียบง่ายๆ เหมือนกับการวาดภาพ: LLM แบบเก่าคือจิตรกรที่วาดทีละเส้นตามลำดับ แต่ DLM เหมือนศิลปินที่ร่างภาพคร่าวๆ ก่อนแล้วค่อยเติมรายละเอียดให้สมบูรณ์ในคราวเดียว วิธีนี้ทำให้ DLM สามารถสร้างผลลัพธ์ได้เร็วขึ้น และยังควบคุมการสร้างได้ดีกว่า เช่น การแก้ไขข้อความย้อนหลัง หรือปรับผลลัพธ์ให้ตรงตามเป้าหมาย เช่น ความปลอดภัยหรือรูปแบบที่กำหนด

นอกจากนี้ DLM ยังมีข้อได้เปรียบในงานที่ต้องการการวางแผนและการใช้เหตุผล เพราะมันสามารถแก้ไขข้อผิดพลาด (hallucinations) ได้ในเวลาไม่กี่วินาที ต่างจากโมเดลเก่าที่อาจใช้เวลานานถึงนาทีในการประมวลผลการให้เหตุผลที่ซับซ้อน

ทำไมถึงเป็นโมเดลแห่งอนาคตของ GenAI

หลายฝ่ายมองว่า DLM อาจเป็นจุดเปลี่ยนของวงการ GenAI ด้วยเหตุผล 3 ประการหลัก:

  1. ความเร็วและประหยัดทรัพยากร: ในยุคที่ค่าใช้จ่ายในการฝึกและรันโมเดล AI พุ่งสูงขึ้นเรื่อยๆ DLM เสนอทางเลือกที่ทั้งเร็วและถูกกว่า โดย Inception อ้างว่ามันลดต้นทุนลงถึง 10 เท่าเมื่อเทียบกับ LLM แบบดั้งเดิม สิ่งนี้จะช่วยให้บริษัทขนาดเล็กและนักพัฒนาอิสระเข้าถึงเทคโนโลยี AI ได้ง่ายขึ้น
  2. ความยืดหยุ่นและการควบคุม: การใช้ diffusion technology ทำให้ DLM สามารถปรับแต่งผลลัพธ์ได้ดีกว่า เช่น การแทรกข้อความ (infill text) หรือสร้างเนื้อหาที่สอดคล้องกับข้อจำกัดที่กำหนด นี่เป็นคุณสมบัติที่ LLM แบบเก่าทำได้ยาก และอาจนำไปสู่แอปพลิเคชันใหม่ๆ เช่น AI ที่ช่วยเขียนโค้ดแบบเรียลไทม์ หรือสร้างเนื้อหาที่ปลอดภัยและแม่นยำยิ่งขึ้น
  3. ศักยภาพในการขยายขอบเขต: DLM ไม่ได้จำกัดอยู่แค่ภาษาเท่านั้น ด้วยรากฐานจาก diffusion models ที่เคยประสบความสำเร็จในงานภาพและเสียง Inception มีโอกาสพัฒนาโมเดลแบบ multimodal ที่ผสานข้อความ ภาพ และข้อมูลรูปแบบอื่นๆ ได้ในอนาคต ซึ่งจะยกระดับ GenAI ไปอีกขั้น
ข้อจำกัดและคำถามที่ยังรอคำตอบ

ถึงแม้ DLM จะดูน่าตื่นเต้น แต่ก็ยังมีคำถามที่ต้องพิสูจน์ เช่น ประสิทธิภาพจริงเมื่อเทียบกับโมเดลชั้นนำอย่าง GPT-4 หรือ Gemini เป็นอย่างไร? ข้อมูลการฝึกโมเดลและผลการทดสอบยังไม่ถูกเปิดเผยอย่างละเอียด ทำให้ยากที่จะยืนยันคำกล่าวอ้างของ Inception ได้เต็มที่ นอกจากนี้ การเปลี่ยนมาใช้แนวทาง diffusion อาจต้องปรับโครงสร้างพื้นฐานและวิธีการฝึกโมเดลใหม่ ซึ่งอาจเป็นอุปสรรคสำหรับผู้ใช้บางกลุ่ม

DLM จะเปลี่ยนอนาคต AI หรือไม่

DLM ของ Inception เป็นมากกว่าแค่โมเดล AI ใหม่ มันคือการท้าทายวิธีคิดแบบเดิมๆ เกี่ยวกับ GenAI ด้วยการนำเทคโนโลยี diffusion มาใช้ในงานภาษา หากพิสูจน์ได้และทำได้ตามที่สัญญาไว้ เร็วขึ้น ถูกขึ้น และควบคุมได้ดีกว่า DLM อาจกลายเป็นจุดเริ่มต้นของยุคใหม่ในวงการ AI ที่เน้นทั้งประสิทธิภาพและการเข้าถึงได้ สำหรับผู้สนใจ AI ทั่วไป นี่คือพัฒนาการที่น่าจับตามอง เพราะมันอาจหมายถึงวันที่ AI ทรงพลังจะกลายเป็นเครื่องมือที่ทุกคนใช้ได้ ไม่ใช่แค่บริษัทใหญ่ ๆ เท่านั้น

แหล่งข่าว: TechCrunch, Bitcoinworld.co.in, inceptionlabs.ai