IBM宣布啟動了專門為進一步研究公司和更廣泛的人工智能社區來進一步研究並最終開發公平,準確的面部識別算法的新數據集。該公告是在博客文章由IBM研究員和AI Tech博士的經理約翰·史密斯(John Smith)博士解釋了這項技術優勢的數據驅動的深度學習方法也可能是一個弱點,而無需足夠強大和多樣化的數據集。
史密斯告訴史密斯,新的“面部多樣性”生物識別數據集由100萬個公開圖像組成,根據行業文獻中的10個頂級編碼方案註釋。生物識別更新在面試中。 IBM宣布打算創建一個百萬圖像數據集為了幫助了解培訓數據多樣性如何影響去年6月的算法結果。從那時起,人們一直在關注面部生物識別系統的公平性,或者在匹配不同群體之間表現出的準確性方面的差異。麻省理工學院研究員Joy Buolamwini在達沃斯的世界經濟論壇上說,IBM面部識別算法在識別有深色皮膚的女性方面的改善表明問題是優先級的問題。
據史密斯說,由於面部多樣性,IBM證明了其優先事項。
他說:“我們一直非常關注確保我們的服務的擔憂,包括視覺識別和麵部識別是公平而準確的。” “在這裡確實有一系列的努力,但是,隨著數據集的發布,我們將其提高到了另一個層次。這也是我們努力使圍繞這個重要主題的更大的研究社區激發了一項努力。”
面孔的多樣性包括YFCC-100M創意共享圖像集中的圖像,公司分析顯示,與以前的集合相比,該圖像提供了更平衡的分佈和更廣泛的面部圖像覆蓋範圍。圖像通過編碼方案進行了增強,這些編碼方案主要包括諸如顱面特徵的客觀度量,以及一些更主觀的註釋,例如人類對年齡和性別的預測。
史密斯解釋說:“這些是我們在科學文獻中確定的一些最強的編碼方案,所有這些方案都引用了工作,但更深入地研究了重要的面部多樣性方面。”
啟動新數據集為AI研究人員提供了一個“跳躍點”,用於根據對人臉的表徵最重要的元素評估數據質量。
“關鍵問題是關於我們使用的數據,”史密斯告訴生物識別更新。 “我們如何確保面部圖像數據足夠多樣化?我們如何確保從該數據訓練的系統以某種方式反映了我們在世界上看到的面孔的分佈?我們如何確保它們沒有盲點?”
IBM與Buolamwini和其他研究人員互動,試圖了解一段時間以來與數據集相關的問題。史密斯說,超越了對問題的認識,創建工具以了解有關如何解決該問題的更多信息是面孔多樣性的重要性。
“有多種方式很明顯,當今正在實踐中的技術正在努力公平而準確。也就是說,我認為到目前為止,還沒有一致的,有系統的努力來解決問題。這更多是關於指出問題。因此,真正促使我們促使我們在面孔中創造了這種特定的數據,這不是一個行動。
史密斯認為,確定如何衡量面部多樣性,確保覆蓋範圍的平衡,然後學習改進系統是培訓公平系統過程中必要的早期步驟。為面部識別算法背後的科學問題提供更好的答案,最終將產生更公平,更準確的系統。
史密斯警告說:“有了這十個編碼方案,這是一個很好的開始,但還不完整。” “這就是為什麼我們覺得我們有很多機會可以在這方面以及更廣泛的研究社區建立更多的機會,這就是為什麼我們公開發布此書的原因。”