新的皺紋解決了生物識別偏見的問題,評估標準的製定以及評估和緩解其的策略,在演講的第三天共享EAB最近完成的關於生物識別系統人口公平的事件。
Yevgeniy Sirotin,馬里蘭州測試設施的SAIC身份和數據科學實驗室的首席研究員兼經理(MDTF),他從他領導的團隊進行的研究中提出了研究結果阿倫·維莫里(Arun Vemury)關於“生物識別系統性能的人口統計學差異:從大規模場景測試中獲得的見解”。
演講始於對場景測試的綜述,這是在MDTF上執行的,並與技術測試(例如NIST執行)進行了比較。 Sirotin一開始建議,在場景測試中涉及的方法和思維可以幫助“構成問題”。
關於系統性能的公平性,由於在機場和其他環境中推出了生物識別技術,因此提出了問題,但是隨著新的部署,幾乎沒有信息可以量化這些問題。 Soritin說,諸如MDTF舉行的DHS集會等測試以參與者調查的形式收集反饋,以評估用戶滿意度以及算法有效性,並且通過隨著時間的推移反複評估,可以對這些問題的答案產生一些見解。
MDTF論文已經探索了圖像獲取在系統性能中人口統計學差異以及人口統計學對面部識別系統的估計(FMR)估計的影響,比較了商業面部和Iris BioMetrics系統在不同種族和性別的績效方差之間的差異,並研究了認知偏見的引入,並研究了人們對人類評論員的引入。
在大流行期間進行的面部生物識別系統的無人看管的高通量方案測試中,MDTF發現,圖像採集系統和匹配者的許多組合符合95%的真實識別率(TIR),該測試旨在跨越所有種族群體。中位系統確認了93%的總體,最佳系統正確識別100%的參與者。大多數錯誤不是由算法而是在圖像採集階段犯。
在測試的第二部分中,人們在系統中保留了他們從家裡帶來的面部覆蓋物。這表明,對於戴著口罩的人們來說,商業面部識別系統統一與黑人和其他團體沒有匹配,在捕捉黑人戴著口罩的圖像以及與他們匹配的情況下都有更大的差異。圖像採集系統和算法的最佳性能結合未能達到戴著口罩的黑人的95%TIR目標,這表明這可能不適合高通量場景。
Sirotin指出,更改系統操作的條件可能會使以前公平的系統不公平。
他還談到了手錶列表識別方案,其成功標準截然不同,因為虛假的負面匹配可能會帶來如此重大的後果。
面部識別系統造成的錯誤本質上與指紋或虹膜生物識別技術不同。 '但為什麼? ' Sirotin問。人們認識到的面孔的方式,發現與大腦某些區域的活動有關,可能會影響我們認為面部識別的方式。
與不同人口統計組成的數據集相比,該介紹會深入研究虛假匹配率對特定種族或性別的人的影響,並表明,基於數據集組成,假陽性識別的危害可能不平等。因此,平等的組內錯誤率也不會保護人們免受生物識別系統的不平等處理,即使達到了它。
ISO標準和評估指標
雅各布·哈塞爾格倫(Jacob Hasselgren)和約翰·霍華德同樣,MDTF也談到了ISO 19795-10標準的最新發展,用於衡量人群群體的績效。研究人員是該標準的編輯,並為ISO技術報告做出了有關“人口統計學因素在生物識別系統績效中的差異影響”的貢獻,該報告於今年1月批准出版。
ISO 19795系列為生物識別系統測試和評估提供了一個框架,目前正在起草的第10部分適用於人群組的性能變化。預計將在今年夏天完成初稿,預計最終版本將於2023年或2024年發布。
演示文稿詳細介紹了用於評估不同組績效的生物識別系統的範圍,當前挑戰和統計數據。創建標準的其他挑戰包括“黑人”或“亞洲”之類的人口類別的局限性,這些類別可以描述具有高度多樣化的種族背景的人,以及將膚色廣泛的人組合在一起,甚至如何判斷統計平等。
Tiago de Freitas Pereira的IDIAP研究所探索了“如何評估生物識別管道中不同水平的人口差異”。
已經使用了各種評估人口統計學差異的方法,包括曲線下的區域(AUC)測量區域,但Pereira指出,這些方法對不同人口統計學的FMR採取了不同的策略,並且可能隱藏了一些偏見。相反,他提出了公平差異。 '
他說,這與“不平等程度”相似由帕特里克·格羅特(Patrick Grother)解釋在上一個EAB網絡研討會會話中。
Pereira提出了一種“修補”評分功能的策略,無論是在測試或培訓算法時及其優勢和缺點。
文章主題
準確性|生物識別識別|生物識別技術|生物識別研究|人口公平|EAB|歐洲生物識別協會|面部識別|IDIAP|ISO標準|馬里蘭州測試設施(MDTF)|掩模檢測|SAIC