自動編輯影片訪談從未如此簡單。來自普林斯頓大學、史丹佛大學以及馬克斯普朗克研究所的研究人員剛剛發布了一項技術,只需修改口頭轉錄的文本即可修改視訊演講的內容。然後,系統能夠根據新文字創建相應的視訊採訪,沒有剪輯或混音,就像原始的一樣。您可以新增和刪除單詞,或只是重新排列它們。結果是如此令人震驚,以至於大多數觀看這些修改過的影片的人都認為它們是真的。 YouTube 上的概述影片中顯示了範例。
其他研究人員也在探索自動影片產生這一領域。 2017 年,華盛頓大學的一個研究小組成功地創建了巴拉克·奧巴馬的人造視頻來自現有音軌。相較之下,普林斯頓大學和史丹佛大學的研究人員剛剛提出的技術更優越,因為它避免了錄音:修改文本就足夠了。
這項改造工作是如何進行的呢?研究人員創建的系統將首先分析視訊和口頭轉錄,不僅識別音素,還識別「視素」。也就是說與音素相關的基本面部表情。然後,系統將分析對文字所做的修改,並識別必須用於修改影片的視位。
3D 建模,然後是神經網絡
然後分兩步驟創建新序列。首先,軟體將產生嘴巴和下巴運動的 3D 模型,同時尊重影片的一般條件:曝光、照明、頭部位置等。其次,先前訓練的神經網路會將這些 3D 模型轉換為逼真的視訊序列。對於音訊部分,研究人員採用了不同的方法:他們要么用原人重新錄製新文本,要么用 Adobe VoCo 等軟體人為生成新的音訊部分。
顯然,研究人員不希望他們的技術被用來惡意操縱演講或訪談。他們將其視為音視頻製作過程中的附加工具,例如糾正錄製錯誤。該軟體還可用於為虛擬助理產生逼真的視訊序列。
在所有情況下,該技術的使用都應以公開透明的方式進行,並徵得被拍攝者的同意。為了避免詐欺和惡意創作,研究人員認為應該開發更多的驗證技術,例如取證分析或浮水印。
來源:專案網站