根據數據集中用於培訓AI系統(例如面部識別)的面部圖像,通常未經擁有圖像的人或出現在其中的人的許可而收集。NBC新聞。
紐約大學法學院教授傑森·舒爾茨(Jason Schultz)對NBC新聞說:“這是AI培訓套裝的骯髒小秘密。研究人員通常只是抓住野外可用的任何圖像。”
報告稱,IBM最近發布的一個新數據集旨在幫助減少面部識別和其他算法的偏見,其中包括未經個人許可獲得和使用的圖像,或者照片中的攝影師在網上發布了這些圖像。 IBM研究員和AI技術的經理John Smith博士告訴生物識別更新在發布“面部多樣性”數據集時,它代表了提高公平和準確性的第一個具體行動之一面部識別算法。這些圖像是在註釋前從Flickr收集的,Smith告訴NBC News,該公司致力於保護個人隱私,並將與要求從數據集中刪除URL的請求合作。
NB新聞報導說,刪除照片幾乎是不可能的。 IBM尚未共享照片源的恥骨列表,因此NBC創建了一個搜索工具,以幫助Flickr用戶確定是否包括其圖像。
AI現在的Institute聯合指導梅雷迪思·惠特克(Meredith Whittaker)表示,當人們同意分享照片時,互聯網生態系統有所不同。 “現在,他們正在不情願地或不知不覺地進行訓練,這些系統可能會以壓迫性的方式使用他們的社區。”
NBC指出,從歷史上看,研究人員獲得了簽署的同意後,研究人員向個人支付了收集數據。 P. Jonathon Phillips與NIST的數據集收集器說,互聯網的發展使研究人員可以更有效地收集圖像,從名人和體育明星等常見的個人開始。社交媒體使面部圖像的收集更大。許多Flickr圖像都在Creative Commons的許可下發布,學術研究人員在由於其工作的非商業性質而如何來源圖像方面的責任有限。
該公司表示,面孔的多樣性也旨在用於學術用途,而不是改善IBM的商業產品。 NBC說,斷言與IBM在數據集發布中的承認相矛盾。研究MIT的Joy Buolamwini,但史密斯告訴生物識別更新數據集的目的是提供有關數據集質量和諸如“(H)OW我們可以確保面部圖像數據足夠多樣化的問題的見解?”這可能表明IBM正在使用學術見解來改善其他私人數據集。
Kairos創始人兼前首席執行官Brian Brackeen他說,學術研究人員開發的算法實踐稱為“面部識別的洗錢”。 NBC報告說,IBM表示,不會以這種方式使用面部的多樣性。
NBC報導說,一些數據集中有圖像的攝影師很高興看到他們的工作用於提高AI的準確性,但IBM也只從一千多個圖像中刪除了四個圖像,這些圖像要求該公司刪除全部。
GDPR和伊利諾伊州的BIPA採用數據保護措施,可以使公司共享照片或生物識別數據負有罰款,但是此類索賠的法律立場尚未得到測試。
該報告是因為人工智能的道德意義和麵部認可越來越多地是公開辯論的主題,生物識別藥提供者必須注意並參與其中,或冒著行業長期可行性的風險。
東北大學法律和計算機科學教授伍迪·哈佐格(Woody Hartzog)告訴NBC:“您確實在這裡發生了一個搖滾的情況。” “當面部識別不准確而令人難以置信的壓迫性時,面部識別可能會非常有害。”