Vidu: จีนเผยให้เห็นเครื่องกำเนิดข้อความที่ปฏิวัติวงการไปสู่วิดีโอเพื่อคู่แข่ง Sora ของ Openai

ด้วยการเปิดตัวเครื่องกำเนิดข้อความถึงวิดีโอนี้เทคโนโลยี Shengshu และมหาวิทยาลัย Tsinghua ได้แสดงให้เห็นถึงความมุ่งมั่นของพวกเขาที่จะผลักดันขอบเขตของเทคโนโลยี AI

การเป็นหุ้นส่วนนี้เน้นถึงความสำคัญที่เพิ่มขึ้นของการวิจัยและพัฒนา AI ในประเทศจีนและผลกระทบที่อาจเกิดขึ้นกับอุตสาหกรรมต่าง ๆ ทั่วโลก

Google ได้ "พลาดเครื่องหมาย" หลังจากการพรรณนาที่ไม่ถูกต้องของภาพถ่ายประวัติศาสตร์ที่สร้างโดย Gemini AI Image Generator Steve Johnson จาก Unsplash

ขั้นตอนต่อไปของจีนในนวัตกรรม AI

Vidu เทคโนโลยี Shengshu และ Vidu ของมหาวิทยาลัย Tsinghua แสดงถึงเหตุการณ์สำคัญที่สำคัญในการเดินทางนวัตกรรม AI ของจีน

การทำงานร่วมกันนี้รวบรวมความเชี่ยวชาญของการเริ่มต้นเทคโนโลยีและสถาบันการศึกษาที่ได้รับความนิยมเพื่อสร้างเครื่องกำเนิดข้อความที่ทันสมัยไปสู่วิดีโอ

ด้วยการเปิดเผยของ Vidu ที่ Zhongguancun Forum ในปักกิ่งมันได้รับความสนใจในฐานะคู่แข่งที่สำคัญของ Sora ของ Openai

ซึ่งแตกต่างจากความสามารถในวิดีโอที่ยาวนานกว่า 60 วินาทีของ Soraวิศวกรรมที่น่าสนใจรายงานว่า VIDU อนุญาตให้ผู้ใช้สร้างคลิปวิดีโอ 16 วินาทีที่สั้นกว่า แต่มีความละเอียดสูงด้วยการคลิกเพียงครั้งเดียว

ในขณะที่ฟังก์ชั่นของ Vidu อาจดู จำกัด เมื่อเทียบกับ SORA การแนะนำของมันนับเป็นก้าวสำคัญในการส่งต่อเทคโนโลยี AI ของจีนภูมิประเทศ.

ในขณะที่ประเทศยังคงลงทุนในการวิจัยและพัฒนา AI Vidu เป็นตัวอย่างของความมุ่งมั่นของจีนที่มีต่อนวัตกรรมและความก้าวหน้าทางเทคโนโลยี

จู้จุนหัวหน้านักวิทยาศาสตร์ของ Shengshu และรองคณบดีที่สถาบัน Tsinghua สำหรับ AI อธิบาย Vidu ว่าเป็นความก้าวหน้าที่สำคัญในนวัตกรรมที่พึ่งพาตนเอง

Vidu โดดเด่นด้วยความสามารถเชิงจินตนาการความสามารถในการจำลองโลกทางกายภาพและความสามารถในการสร้างวิดีโอ 16 วินาทีด้วยตัวละครฉากและระยะเวลาที่สอดคล้องกัน

นอกจากนี้ Zhu ยังเน้นถึงความสามารถของ Vidu ในการทำความเข้าใจ "องค์ประกอบจีน" ในระหว่างการเปิดตัวของนางแบบเทคโนโลยี Shengshu นำเสนอการสาธิตหลายอย่างรวมถึงสถานการณ์เช่นแพนด้าที่เล่นกีตาร์บนหญ้าและลูกสุนัขว่ายน้ำในสระว่ายน้ำ

ความก้าวหน้าในกรอบสถาปัตยกรรมของ Vidu

Vidu ถูกสร้างขึ้นบนสถาปัตยกรรมรูปแบบการเปลี่ยนแปลงภาพที่เป็นกรรมสิทธิ์ที่เรียกว่า Universal Vision Transformer (U-VIT) นักพัฒนาได้ระบุว่าสถาปัตยกรรมนี้รวมโมเดล AI แบบข้อความกับวิดีโอสองแบบ: การแพร่กระจายและหม้อแปลง

นอกจากนี้เฟรมเวิร์กสถาปัตยกรรมนี้ยังอำนวยความสะดวกในการสร้างวิดีโอที่เหมือนจริงที่มีการเคลื่อนไหวของกล้องแบบไดนามิกการแสดงออกทางสีหน้าที่ซับซ้อนและแสงที่แท้จริงและเอฟเฟกต์เงา

จู้ตั้งข้อสังเกตว่าการแนะนำของ SORA ดังก้องกับทิศทางทางเทคนิคของพวกเขาทำให้การแก้ไขของพวกเขาทวีความรุนแรงมากขึ้นเพื่อดำเนินการวิจัยต่อไป

ตรงกันข้ามกับการทำซ้ำของจีนหลายครั้งAAIP ของ OPICซึ่งเกิดขึ้นในเดือนพฤศจิกายน 2563 คู่แข่งจีนเพิ่งจะได้รับความสามารถของโซระเมื่อไม่นานมานี้

ผู้เชี่ยวชาญในอุตสาหกรรมคุณลักษณะนี้ความล่าช้านี้ไปสู่ความท้าทายที่สำคัญของพลังคอมพิวเตอร์ไม่เพียงพอสำหรับ บริษัท จีน

จากข้อมูลของ Li Yangwei ที่ปรึกษาด้านเทคนิคที่อยู่ในกรุงปักกิ่งที่เชี่ยวชาญด้านคอมพิวเตอร์อัจฉริยะการวิ่ง Sora ต้องการแปดNvidiaหน่วยประมวลผลกราฟิก A100 (GPU) นานกว่าสามชั่วโมงเพื่อสร้างคลิปวิดีโอหนึ่งนาที

Yangwei ตั้งข้อสังเกตว่า Sora ต้องการพลังการคำนวณที่กว้างขวางสำหรับการอนุมาน

ขั้นตอนต่อไปของจีนในนวัตกรรม AI

ความก้าวหน้าในกรอบสถาปัตยกรรมของ Vidu

相關貼文