現實世界中生物識別訓練數據集的局限性,包括通過不平衡的人口統計學來引入偏見,已經建立了良好的局限性。合成培訓數據提供了希望,但有其自身的局限性。挪威生物識別實驗室提出了一種避免這些局限性的新方法年度研討會2024,由EAB本月初主持。
馬德里自治大學的Pietro Melzi提出了Gandiffface模型,該模型生成了合成面孔,目的是減輕培訓數據中的人口統計學偏見。研究項目是UAM之間的合作Secunet和Hochschule Darmstadt應用科學大學。
使用生成數據,除了在隱私,可用性和法規合規性方面的優勢外,研究人員還可以控制數據集中樣品的屬性。但是,生成的對抗網絡(GAN)提供了包含訓練數據中發現的偏見的合成數據集,並且可能無法提供足夠的類內變異來訓練有效的面部識別。
擴散模型產生了多種圖像,因此Melzi和他的同事提出了Gandiffface模型,該模型結合了兩種模型。它使用IDIAP研究人員先前提出的潛在空間操縱方法。梅爾茲(Melzi)和公司使用Dreambooth將新單詞與特定主題綁定到微調文本對圖像模型。
Melzi與僅由GAN生成的圖像組成的數據集相比,描述了該模型開發的細節,以及如何減少配對分數分佈的平均值,這使其與由照片組成的數據集更相似。
梅爾茲指出,在傳統上用於訓練面部識別的數據集中,人口統計分佈偏向高加索人,但圖像質量也從一個人群到另一個人口差異。
通過使用使用Gandiffface創建的數據集,Melzi和他的團隊能夠為不同的人群組微調Arcface模型的虛假匹配率(FMR)。
首屆FRCSYN挑戰結果
這FRCSYN挑戰於WACV 2024啟動,以詢問合成數據是否可以替代面部識別訓練的真實數據,是否可以減輕面部生物識別技術的已知限制以及其限制是什麼。
Gandiffface是進入挑戰的15個團隊可獲得的四個數據庫之一。大多數涉及學術機構,無論是自己還是合作,但是方面也出現在前八名中。
他們設置了幾個子任務,並且通過減去與平均準確性的標準偏差來衡量的準確性和公平性之間的權衡。
獲勝的團隊能夠使用合成數據來減少偏見,但是更多的參與者能夠通過真實和合成數據的結合來減輕偏見。同樣,實際數據和合成數據的組合也產生了更高的總體精度得分。
Melzi說,這顯示了合成數據與實際數據結合使用時,合成數據的有效性。
第二版的FRCSYN挑戰將在今年晚些時候再次舉行。
文章主題
生物特徵偏置|生物識別技術|生物識別研究|人口公平|EAB|EAB 2024|歐洲生物識別協會|FRCSYN挑戰|Secunet|合成數據|合成面