研究人員和激進主義者說,從手動功能工程到增強面部識別的神經網絡的轉變也創造了面部數據的市場,而無需監管或監督,導致了許多問題。
“研究人員變得瘋狂:我們的面孔如何為生物識別監視技術的興起提供動力。”簡歷眼花azz亂創始人亞當·哈維(Adam Harvey)。哈維也是each.ai,一種在線工具,可以告訴人們他們的圖像是否已用於培訓面部識別模型。
演講由道德,社會與計算中心(ESC)在密歇根大學。
哈維(Harvey)對面部識別和監視的興趣源於他在紐約市的攝影師的經歷,就像相機開始在蜂窩電話中從未有過攝影。他指出,這與9/11後的興趣上升和對安全應用程序生物識別研究的資金的興趣和資金相吻合。
面部識別大部分僅限於受控的捕獲場景,算法還尚未足夠複雜,可以進行廣泛應用。
Harvey說:“在線發布包含生物識別信息的數據盈餘以及對新生物識別技術的需求日益增長的需求”作為數據集的來源。
基於卷積神經網絡的面部生物識別算法的出現產生了對面部數據的前所未有的需求,Harvey解釋說,互聯網提供了供應鏈。
他認為,野外標記的面孔是一個先例設定的數據集,這不僅是因為它提供了允許神經網絡可以自動化訓練算法任務的功能設計部分的數據。據哈維說,這也從道德上樹立了先例。
隨後開發了各種數據集,其中許多數據集是“在野外”作為標題的一部分。
他說,一個研究論文的數據集將導致其他數據集,其中一些數據集不容易獲得。
Duke MTMC數據集脫離了數據收集過程,“最終成為世界上最受歡迎,最廣泛使用的多目標多型攝像機數據集”,並帶有大量引用。
許多其他數據集遵循相同的模型,用於捕獲CCTV圖像以進行研究。
哈維說:“它不是被稱為'CCTV'?閉路電視嗎?現在它在互聯網上。”
哈維說,這些數據庫很少受到同意的要求,即使是這樣,研究人員仍然包括尚未授予該數據的人的圖像。
他回顧了諸如Megaface之類的數據集的持續開發,該數據集將互聯網搭化的方法擴展到了672,000個面孔。
到2017年,Google和Facebook的數據集分別為大約8和1000萬面孔。
哈維(Harvey)分享了一張幻燈片,可視化杜克大學MTMC數據集的擴散向世界各地的其他研究人員,用於工業,學術和軍事用途。
反彈構建
當杜克時悄悄地將數據集離線拉開哈維說,這是一個默契的罪惡感。
CVPR 2019旨在基於Duke MTMC數據集的使用,被取消了“因為數據集現在處於法律上的困境”。 MTMC被中國收集的Reid取代允許舉行會議。
哈維說,即使在用於商業目的的情況下,基於創意共享許可證的數據集也具有一些法律保護,這實際上違反了CC限制。它們通常也不歸因於他們所使用的許可證所要求的。
哈維發現,這些數據集中最常見的照片來源是婚禮。
哈維警告說,其中一些可能發生在伊利諾伊州,在這種情況下,像大型臉這樣的數據集可能違反了Bipa。來自加利福尼亞的兒童的存在可能會增加COPPA責任。
哈維確定了趨勢。他說:“這只是使用同樣的舊骯髒劇本,以獲取其他人的數據,然後將其重新用於不同的東西,並用於其他目的。” “而且您最終得到了危險的,不准確的,應該是坦率地,非法的,這是危險的,不准確的。”
Harvey表示,較少偏見和更高準確性的數據集仍會產生“功率不對稱”,這是無法接受的。
在他的最新項目中,哈維(Harvey)使用合成數據和3D打印對象來創建訓練數據集來檢測集群彈藥,而群集彈藥的圖像在Internet上無法大規模可用。
與會者詢問了相當於其他渴望數據的研究領域的等效物,如何使公眾了解他們對面部識別和數據共享應該有的關注程度,以及是否有意義地在線共享任何東西。
哈維(Harvey)說,社區需要幫助律師獲得更好的許可,“我們可能需要進行一些集體訴訟。”