บริษัท เทคโนโลยีจีนได้มาพร้อมกับเฟรมเวิร์ก AI แบบกำเนิดที่สามารถสร้างวิดีโอที่สมจริงของมนุษย์โดยใช้ภาพและสัญญาณการเคลื่อนไหวเดียวที่เรียกว่า Omnihuman-1
นักวิจัยของ Bytedanceซึ่งแสดงให้เห็นเทคโนโลยีโดยการสร้างวิดีโอมนุษย์ที่สมจริงหลายรายการรวมถึง Albert Einstein และ Jensen Huang ซีอีโอของ Nvidia วิดีโอแสดงให้เห็นว่ามนุษย์พูดคุยและร้องเพลงในตำแหน่งร่างกายที่ท้าทายรวมถึงการใช้มือของพวกเขาและในอัตราส่วนต่าง ๆ เช่นภาพบุคคลครึ่งร่างกายและร่างกายเต็ม ระบบยังสามารถเคลื่อนไหวการ์ตูน
บริษัท ที่อยู่เบื้องหลัง Tiktok กล่าวว่าเฟรมเวิร์กชนะเทคโนโลยีที่มีอยู่ซึ่งยังคงดิ้นรนเพื่อขยายขอบเขตการเคลื่อนไหวหรือร่างกายส่วนบน จำกัด ศักยภาพในการใช้งานจริง Omnihuman มีประสิทธิภาพสูงกว่าวิธีการที่มีอยู่เพราะมันสามารถสร้างวิดีโอมนุษย์ที่สมจริงอย่างมากจากอินพุตสัญญาณที่อ่อนแอโดยเฉพาะอย่างยิ่งเสียงตามการวิจัยกระดาษจัดพิมพ์โดย บริษัท
“ ใน Omnihuman เราแนะนำกลยุทธ์การฝึกอบรมแบบผสมผสานแบบหลายรูปแบบซึ่งช่วยให้แบบจำลองได้รับประโยชน์จากการปรับขนาดของการปรับสภาพแบบผสม” นักวิจัยเขียน “ สิ่งนี้เอาชนะปัญหาที่วิธีการแบบ end-to-end ก่อนหน้านี้ต้องเผชิญเนื่องจากการขาดแคลนข้อมูลคุณภาพสูง”
นักวิจัยพึ่งพาข้อมูลที่เกี่ยวข้องกับมนุษย์มากกว่า 18,000 ชั่วโมงสำหรับการฝึกอบรมกรอบการทำงานทำให้สามารถเรียนรู้จากข้อความเสียงและการเคลื่อนไหวของร่างกาย สิ่งนี้ส่งผลให้วิดีโอมนุษย์ดูเป็นธรรมชาติมากขึ้น
“ ข้อมูลเชิงลึกที่สำคัญของเราคือการรวมสัญญาณปรับอากาศหลายอย่างเช่นข้อความเสียงและท่าทางระหว่างการฝึกอบรมสามารถลดการสูญเสียข้อมูลได้อย่างมีนัยสำคัญ” กระดาษกล่าว
ในขั้นต้นระบบจัดการกับประเภทอินพุตแต่ละประเภทอย่างอิสระรายละเอียดการเคลื่อนไหวกลั่นตัวจากคำอธิบายข้อความภาพอ้างอิงสัญญาณเสียงและข้อมูลการเคลื่อนไหวในรูปแบบขนาดกะทัดรัด จากนั้นจะปรับปรุงข้อมูลนี้ให้เป็นเอาต์พุตวิดีโอที่สมจริงปรับการสร้างการเคลื่อนไหวโดยเปรียบเทียบผลลัพธ์กับวิดีโอจริง
Bytedance ได้ลงทุนในการสร้างวิดีโอ AI บริษัท ที่เป็นคู่แข่งเช่น Meta, Microsoft และ Google Deepmind ในเดือนมกราคม บริษัทปล่อยแล้วการอัพเกรดเป็นโมเดล AI Doubao โดยอ้างว่ามีประสิทธิภาพสูงกว่าการทดสอบมาตรฐาน O1 ของ OpenAI
หัวข้อบทความ
-----