Digi2Real 資料集將「真實感增強」應用於合成人臉數據

2024-11-19

臉部辨識系統對訓練資料有著無盡的需求。但未經本人同意而使用真人面孔會引發道德和隱私問題。合成面孔幫助，但即使這些也往往基於真人的生物識別。使用圖形管道產生的面孔，沒有真實數據——例如微軟開源中包含的面孔DigiFace-1M數據集——看起來不夠真實。

如何餵人臉辨識機，不小心讓隱私權成為餐點的一部分？這是研究者提出的問題伊迪亞普研究所開始用他們的答案來回答專案，“Digi2Real：通過基礎模型彌合合成數據人臉識別中的現實主義差距。”

這項工作引入了一種使用大規模人臉基礎模型的「新穎的真實感遷移框架，旨在增強合成生成的人臉圖像的真實感」。它從 DigiFace-1M 資料集開始，該資料集包含超過一百萬個用於臉部辨識的不同合成臉部影像。

摘要稱：“通過將圖形管道的可控方面與我們的真實感增強技術相結合，我們產生了大量真實的變化——結合了兩種方法的優點。” 「我們的實證評估表明，使用我們增強的資料集訓練的模型顯著提高了人臉辨識系統超過基線。

產生的 Digi2Real 合成人臉資料集包含 20,000 張獨特的影像綜合身分，將真實感傳輸技術應用於從圖形管道中程式生成的身份，“以生成逼真的圖像，這比原始 DigiFace 數據集更有效地訓練人臉識別模型。”

這個過程涉及“在嵌入空間內的多個身份圖像之間進行插值”，然後使用預先訓練的弧面模型「從這些插值嵌入中合成身份一致的圖像」。然後，它透過減少中間 CLIP 編碼器空間中的域間隙來進一步增強它們。

「透過將圖形管道的可控特性與我們的真實感增強技術相結合，我們提出了一種創建屬性可控 f 的新方法。王牌識別資料集，」研究人員說。他們有數字來支持這一點：他們的測試表明，“Digi2Real 數據集的人臉識別性能比 DigiFace 顯著提高，並且比許多其他合成數據集實現了更好的性能。”

這Digi2Real 資料集，包含 20,000 個獨特個體的 399,355 張圖像，是公開可用的。

文章主題