VibeVoice
|

ไมโครซอฟท์เปิดตัว VibeVoice-1.5B โมเดลสังเคราะห์เสียง AI สร้าง Podcast ได้ง่ายขึ้นรองรับผู้พูดสูงสุด 4 คน และรองรับภาษาไทย

ไมโครซอฟท์ประกาศเปิดตัว VibeVoice-1.5B โมเดล Text-to-Speech (TTS) แบบโอเพ่นซอร์สที่สามารถสังเคราะห์เสียงพูดยาวต่อเนื่องได้สูงสุด 90 นาที พร้อมรองรับผู้พูดสูงสุด 4 คนในบทสนทนาเดียว ยกระดับเทคโนโลยี AI Audio สู่มาตรฐานใหม่สำหรับการผลิตพอดแคสต์ หนังสือเสียง และแอปพลิเคชันเนื้อหาเสียงอีกมากมาย

สถาปัตยกรรมใหม่สุดล้ำสำหรับเสียงคุณภาพยาวต่อเนื่อง

หัวใจของ VibeVoice คือการใช้สถาปัตยกรรมสองส่วน ประกอบด้วย LLM (Large Language Model) ประมวลผลเนื้อหาบทสนทนาและควบคุมการเปลี่ยนผู้พูด ร่วมกับตัว acoustic และ semantic tokenizer ที่ทำงานความถี่ต่ำ (7.5 Hz) เพื่อลดทรัพยากรในการประมวลผลขณะรักษาคุณภาพเสียง สิ่งนี้เปิดทางให้โมเดลสามารถสร้างเสียงสนทนายาวต่อเนื่องแบบไม่ขาดตอน พร้อมรักษาเอกลักษณ์เสียงและบุคลิกของแต่ละผู้พูด

รองรับหลายผู้พูดและฟีเจอร์ข้ามภาษา (รองรับภาษาไทยด้วย)

VibeVoice โดดเด่นด้วยความสามารถสร้างเสียงสนทนาจาก 4 ผู้พูด โดยแต่ละคนมีเสียงและบุคลิกที่คงเส้นคงวาตลอดทั้งบทสนทนา รวมถึงการบริหารลำดับสนทนาอย่างเป็นธรรมชาติ นอกจากนั้นยังสังเคราะห์เสียงข้ามภาษาระหว่างอังกฤษและจีน และสามารถสร้างเสียงร้องเพลงด้วย AI ซึ่งหาได้ยากยิ่งในโมเดลแบบโอเพ่นซอร์สที่ผ่านมา

ลองสร้างด้วย VibeVoice-1.5B

โอเพ่นซอร์ส เปิดกว้างเพื่อวงการ AI เสียง

ไมโครซอฟท์เปิดให้ดาวน์โหลด VibeVoice-1.5B ภายใต้ MIT License ผ่าน GitHub และ Hugging Face ทำให้ทั้งนักวิจัยและนักพัฒนาสามารถเข้าถึงและใช้งานได้ฟรี โดยใช้ทรัพยากรการ์ดจอไม่สูงมาก (GPU 7GB+ เช่น RTX 3060) สำหรับการสร้างเสียงหลายผู้พูดในหนึ่งครั้ง พร้อมประกาศแผนพัฒนาเวอร์ชันขนาดใหญ่ขึ้น (7B) สำหรับงานสตรีมมิ่งในอนาคต

ข้อจำกัดและมาตรการด้านความปลอดภัย

VibeVoice-1.5B เวอร์ชันปัจจุบันรองรับเฉพาะภาษาอังกฤษและจีน ยังไม่สามารถสังเคราะห์เสียงพูดซ้อนทับกัน หรือแทรกเสียงพื้นหลัง/ดนตรีได้ นอกจากนี้ไมโครซอฟท์ยังฝัง watermark และระบบแจ้งเตือนในเสียง เพื่อป้องกันการนำไปใช้ในทางไม่เหมาะสม เช่น การแอบอ้างบุคคลหรือผลิตเนื้อหาหลอกลวง[3][4]

VibeVoice-1.5B จึงถือเป็นก้าวกระโดดของวงการ AI Audio ที่เปิดโอกาสให้ทุกคนได้สัมผัสเทคโนโลยีเสียงสังเคราะห์คุณภาพสูง โดยไม่ต้องใช้ทรัพยากรหรือค่าใช้จ่ายมหาศาล พร้อมผลักดันการนำ AI เข้าใกล้ความเป็นมนุษย์มากขึ้นในแวดวงสื่อสารทันสมัย

ข้อมูลเพิ่มเติม: Microsoft