面孔的數字操作可用於欺騙生物識別系統或播種錯誤信息,但是在多個領域,還需要與揚聲器的聲音協調面部動作的技術,因為Senstime研究人員Yuxin Wang在談話中解釋了歐洲生物識別協會(eab)。
他在“談話面孔:音頻到視頻的面孔一代”上的演講是EAB的一部分數字面部操縱與檢測研討會,本週為組織成員舉行。
自1990年代以來,數字技術已被用於生成人們談話的綜合視頻,用於虛擬助手,電信,電影和視頻遊戲配音和數字雙胞胎等應用程序。
王說,說話的頭部產量應該比音頻驅動的面部重新制定的原始材料“頭部運動更多”。
王回顧了允許衡量說話面部發電的腦力運動和發聲之間關係的建模技術。從音頻表示形式中獲取的數據用於使視頻中的嘴巴移動和揚聲器的表達方式準確,始終如一地匹配聲音。
他描述了一對管道。一個基於音頻和圖像編碼器的產生表示形式,另一個基於單個解碼器運行,另一個使用回歸模型在音頻功能上與中間功能(例如面部地標)結合使用,並根據中間功能呈現。王還解釋了後期處理中的圖像改進和背景組合。
然後,談話涉及2D和3D面部生成中使用的方法和數據集。
已經開發了各種指標,可以應用於圖像質量,音頻信號與揚聲器的嘴唇之間的同步,身份保存和眨眼,並概述。
在說話面部發電的挑戰範圍內,從對眼睛和牙齒,頭部運動和情感等面部特徵進行細粒度控制,到身份和身體的概括。然後考慮偽造發現和社會責任。
在第一個挑戰的一個例子中,王指出,眨眼與言語機制和思維過程有關,但關係尚未得到充分理解。可以通過目標框架或高斯噪聲產生眼睛閃爍。一些模型將眼動運動與整體面部表達聯繫起來,但是這種方法仍處於發展的早期階段。
Sensetime研究人員說,更大,更多樣化的數據集可能有助於發電。
簡短地考慮了對操縱視頻的檢測,而DeepFake檢測是活動期間其他幾個演示的重點。
王認為說話的面部發電技術在不久的將來有所改善,並且實際應用會像這樣擴展。