Google ดัน Gemini 3.5 Live Translate ยกระดับการแปลเสียงแบบสด

Google ประกาศเปิดตัว Gemini 3.5 Live Translate โมเดล AI ด้านเสียงรุ่นใหม่ที่ออกแบบมาเพื่อการแปลเสียงแบบสด (live speech translation) โดยรองรับมากกว่า 70 ภาษา และเน้นความเป็นธรรมชาติของเสียงพูดให้ใกล้เคียงมนุษย์มากที่สุด. จุดเด่นคือสามารถประมวลผลเสียงเข้าและแปลออกมาได้แบบต่อเนื่อง ลดอาการรอเป็นช่วง ๆ เหมือนระบบแปลเสียงรุ่นก่อน ที่ต้องรอให้พูดจบประโยคก่อนจึงเริ่มแปล

Gemini 3.5 Live Translate ยังสามารถตรวจจับภาษาอัตโนมัติ รองรับการสลับภาษาไปมาในระหว่างการสนทนา และพยายามรักษาน้ำเสียง จังหวะ และระดับเสียงให้สอดคล้องกับผู้พูดต้นฉบับ ทำให้ประสบการณ์ฟังคำแปลใกล้เคียงการฟังล่ามที่เป็นมนุษย์มากขึ้น

เริ่มปล่อยให้ใช้ทั้งนักพัฒนา องค์กร และผู้ใช้ทั่วไป

Google ระบุว่า Gemini 3.5 Live Translate เปิดให้ใช้งานแบบ public preview แล้วผ่าน Gemini Live API และ Google AI Studio สำหรับนักพัฒนาที่ต้องการสร้างแอปหรือโซลูชันแปลภาษาแบบเรียลไทม์. นอกจากนี้ Google ยังร่วมมือกับแพลตฟอร์มเรียลไทม์คอมมูนิเคชัน เช่น Agora, Fishjam, LiveKit, Pipecat และ Vision Agents เพื่อให้สามารถนำโมเดลนี้ไปใช้ในบริการโทร ประชุมออนไลน์ สตรีมมิง หรือคลาสเรียนแบบสด

ฝั่งองค์กร Google เตรียมเปิดทดสอบฟีเจอร์แปลเสียงบน Google Meet โดยใช้ Gemini 3.5 Live Translate ในรูปแบบ private preview ภายในเดือนนี้. ขณะที่ผู้ใช้ทั่วไปจะได้สัมผัสผ่านแอป Google Translate บน Android และ iOS ภายใต้ฟีเจอร์ Live translate ซึ่งจะเริ่มทยอยปล่อยให้ใช้งานในปีนี้เช่นกัน

Google Meet แปลเสียงได้กว่า 2,000 คู่ภาษา

หนึ่งในผลิตภัณฑ์ที่ได้รับการอัปเกรดสำคัญคือ Google Meet ซึ่งเดิมฟีเจอร์แปลเสียงรองรับเพียง 5 ภาษา และจำกัดการแปลไปกลับระหว่างภาษาอังกฤษเท่านั้น เมื่อย้ายขึ้นมาใช้ Gemini 3.5 Live Translate ระบบจะรองรับภาษาได้มากกว่า 70 ภาษา และรองรับการสนทนาข้ามภาษารวมกว่า 2,000 คู่ภาษาในห้องประชุมเดียว

Google ยังออกแบบ UI ใหม่ให้เข้าถึงฟีเจอร์แปลเสียงได้ง่ายขึ้น ทำให้ผู้ใช้ฝั่งธุรกิจและองค์กรสามารถประชุมข้ามชาติ ข้ามภาษา โดยไม่ต้องพึ่งล่ามมืออาชีพในทุกครั้งเหมือนที่ผ่านมา ฟีเจอร์นี้จะเริ่มทดสอบกับลูกค้า Google Workspace บางกลุ่มก่อน และมีแผนขยายการใช้งานสู่ผู้ใช้วงกว้างในช่วงปลายปี

Google Translate เพิ่มโหมด Live translate และ “โหมดฟัง” บน Android

ในฝั่งผู้ใช้ทั่วไป Google นำ Gemini 3.5 Live Translate ไปเสริมแกร่งให้กับแอป Google Translate ผ่านโหมด Live translate ที่สามารถแปลบทสนทนาสดได้ทันที รองรับมากกว่า 70 ภาษาเช่นเดียวกัน. ผู้ใช้เพียงเสียบหูฟัง ก็จะได้ยินเสียงแปลที่มีโทนและจังหวะใกล้เคียงผู้พูดจริง ทำให้การสื่อสารกับคู่สนทนาต่างภาษาดูเป็นธรรมชาติมากขึ้น

บน Android Google ยังเพิ่มโหมดฟัง (listening mode) ให้ผู้ใช้ยกโทรศัพท์แนบหูเหมือนรับสายโทรศัพท์ปกติ แล้วฟังเสียงแปลจากลำโพงสนทนาโดยตรง วิธีนี้ช่วยเพิ่มความเป็นส่วนตัว โดยเฉพาะในพื้นที่สาธารณะหรือสถานการณ์ที่ไม่สะดวกเปิดลำโพงหรือใช้หูฟัง

ใช้งานจริงกับพาร์ตเนอร์: Grab, CJ ENM, LiveKit

Google เผยว่ามีการทดสอบใช้งาน Gemini 3.5 Live Translate กับพาร์ตเนอร์หลายรายแล้ว หนึ่งในนั้นคือ Grab ที่มีการโทรด้วยเสียงระหว่างคนขับและผู้โดยสารมากกว่า 10 ล้านครั้งต่อเดือนในเอเชียตะวันออกเฉียงใต้ การเสริมระบบแปลเสียงแบบสดช่วยลดอุปสรรคด้านภาษาในการสื่อสาร ทั้งในด้านความเร็วและความเข้าใจ

ด้านผู้ให้บริการคอนเทนต์และแพลตฟอร์มเรียลไทม์อย่าง CJ ENM และ LiveKit ก็ให้ฟีดแบ็กเชิงบวกในเรื่องคุณภาพการแปล ความแม่นยำ และค่า latency ที่ต่ำเพียงไม่กี่วินาที ซึ่งถือเป็นปัจจัยสำคัญสำหรับการถ่ายทอดสดและการสนทนาแบบอินเทอร์แอคทีฟ

เน้นความปลอดภัยด้วยลายน้ำ SynthID บนเสียงที่สร้างด้วย AI

เพื่อลดความเสี่ยงจากการใช้ AI สร้างเสียงในทางที่ผิด เช่น ดีพฟองหรือข้อมูลเท็จ Google ระบุว่าทุกเสียงที่สร้างจากโมเดลเสียงของบริษัท รวมถึง Gemini 3.5 Live Translate จะถูกฝังลายน้ำดิจิทัล SynthID ลงในสัญญาณเสียง ลายน้ำนี้ไม่สามารถรับรู้ได้ด้วยหูมนุษย์ แต่สามารถตรวจจับได้ด้วยเครื่องมือวิเคราะห์เฉพาะ ทำให้ผู้ให้บริการแพลตฟอร์มหรือสื่อสามารถตรวจสอบได้ว่าเสียงใดถูกสร้างด้วย AI

Google ยังเผยแพร่ model card ของ Gemini 3.5 Audio เพื่ออธิบายรายละเอียดเชิงเทคนิค แนวทางด้านความปลอดภัย ความเป็นส่วนตัว และข้อจำกัดของโมเดลอย่างโปร่งใส เปิดให้สาธารณะและนักวิจัยเข้ามาตรวจสอบ

Google เปิดตัว Gemini 3.5 Live Translate แปลเสียงกว่า 70 ภาษาแบบใกล้เรียลไทม์ เตรียมใส่ใน Google Translate และ Google Meet ภายในปีนี้