เมื่อวันที่ 26 มีนาคม 2568 Alibaba Cloud ได้สร้างความตื่นเต้นให้วงการเทคโนโลยีอีกครั้ง ด้วยการเปิดตัว Qwen2.5-Omni-7B โมเดลปัญญาประดิษฐ์แบบมัลติโมดัลตัวใหม่จากทีมพัฒนา Qwen ซึ่งถูกยกย่องว่าเป็นก้าวสำคัญของการพัฒนา AI ที่สามารถประมวลผลข้อมูลได้หลากหลายรูปแบบพร้อมกัน ไม่ว่าจะเป็นข้อความ เสียง ภาพ หรือแม้แต่วิดีโอ และยังตอบสนองได้แบบเรียลไทม์ด้วยความแม่นยำที่น่าทึ่ง
โมเดล Qwen2.5-Omni-7B มาพร้อมกับจุดเด่นที่ทำให้มันแตกต่างจากคู่แข่งในตลาด AI ด้วยขนาดพารามิเตอร์เพียง 7 พันล้าน (7B) ทำให้มีน้ำหนักเบา สามารถทำงานได้แม้แต่บนอุปกรณ์ที่มีทรัพยากรจำกัด เช่น โทรศัพท์มือถือหรือแล็ปท็อปทั่วไป แต่ยังคงประสิทธิภาพสูงในการประมวลผลข้อมูลมัลติโมดัลแบบครบวงจร โดยโมเดลนี้สามารถรับข้อมูลเข้าและสร้างผลลัพธ์ออกมาได้ทั้งในรูปแบบข้อความและเสียงพูดที่มีความเป็นธรรมชาติสูง ซึ่งเหมาะสำหรับการใช้งานในชีวิตประจำวันและงานระดับองค์กร
หนึ่งในนวัตกรรมที่ถูกพูดถึงคือ Thinker-Talker Architecture ซึ่งแยกกระบวนการสร้างข้อความและเสียงออกจากกัน เพื่อลดการรบกวนระหว่างข้อมูลทั้งสองประเภท ทำให้ผลลัพธ์มีความแม่นยำและลื่นไหลยิ่งขึ้น นอกจากนี้ยังมีเทคโนโลยี TMRoPE ที่ช่วยซิงโครไนซ์ข้อมูลวิดีโอกับเสียงได้อย่างลงตัว ตัวอย่างเช่น หากผู้ใช้ป้อนวิดีโอพร้อมคำถาม โมเดลนี้สามารถวิเคราะห์ภาพและตอบกลับด้วยคำอธิบายที่สอดคล้องกันได้ทันที
สิ่งที่ทำให้ Qwen2.5-Omni-7B ได้รับความสนใจอย่างล้นหลามไม่ใช่แค่ประสิทธิภาพ แต่ยังรวมถึงการที่ Alibaba ตัดสินใจปล่อยโมเดลนี้เป็น โอเพ่นซอร์ส ภายใต้ใบอนุญาต Apache 2.0 นักพัฒนาทั่วโลกสามารถดาวน์โหลดและใช้งานได้ฟรีผ่านแพลตฟอร์มยอดนิยมอย่าง Hugging Face, GitHub และ ModelScope การเคลื่อนไหวนี้ถูกมองว่าเป็นกลยุทธ์ของ Alibaba ในการผลักดันให้เกิดนวัตกรรมใหม่ๆ ในวงการ AI และแข่งขันกับบริษัทยักษ์ใหญ่อย่าง OpenAI หรือ Google ที่ครองตลาดอยู่ในขณะนี้
การใช้งานจริงของโมเดลนี้ครอบคลุมหลากหลายด้าน เช่น การช่วยเหลือผู้พิการทางสายตาด้วยการบรรยายสภาพแวดล้อมแบบเรียลไทม์ การแนะนำขั้นตอนการทำอาหารโดยวิเคราะห์ส่วนผสมจากภาพหรือวิดีโอ หรือแม้แต่การนำไปใช้ในระบบบริการลูกค้าอัจฉริยะที่สามารถเข้าใจความต้องการของผู้ใช้ได้ลึกซึ้งยิ่งขึ้น ตัวอย่างที่น่าสนใจคือ หากผู้ใช้ถ่ายวิดีโออาหารบนโต๊ะและถามว่า “ทำอะไรกินได้บ้าง?” โมเดลนี้จะวิเคราะห์ส่วนผสมและแนะนำเมนูพร้อมวิธีทำได้ทันที
ในแง่ประสิทธิภาพ Alibaba อ้างว่า Qwen2.5-Omni-7B มีความสามารถในการประมวลผลข้อมูลเสียงที่เหนือกว่าโมเดลเฉพาะทางด้าน speech บางตัวในตลาด ซึ่งพิสูจน์ให้เห็นถึงความก้าวหน้าทางเทคโนโลยีของทีม Qwen ที่มุ่งเน้นการพัฒนา AI แบบครบวงจร หรือที่เรียกว่า “end-to-end multimodal model” โดยไม่ต้องพึ่งพาระบบย่อยหลายตัวในการทำงาน
การเปิดตัวครั้งนี้ไม่เพียงแต่แสดงถึงศักยภาพของ Alibaba ในการแข่งขันด้าน AI ระดับโลก แต่ยังเป็นการส่งสัญญาณถึงอนาคตที่ AI จะเข้ามาเป็นส่วนหนึ่งของชีวิตประจำวันมากขึ้น ด้วยความสามารถที่หลากหลาย ขนาดที่กะทัดรัด และการเข้าถึงที่เปิดกว้าง Qwen2.5-Omni-7B มีแนวโน้มที่จะกลายเป็นเครื่องมือสำคัญสำหรับนักพัฒนาและธุรกิจทั่วโลก คงต้องจับตาดูกันต่อไปว่าโมเดลนี้จะสร้างผลกระทบต่อวงการเทคโนโลยีได้มากน้อยเพียงใดในอนาคตอันใกล้

สำหรับผู้ที่สนใจ สามารถดาวน์โหลดและทดลองใช้งาน Qwen2.5-Omni-7B ได้แล้ววันนี้ผ่าน Hugging Face และ GitHUB