Facebook AI 發布了基準數據集來幫助 AI 研究人員評估他們的計算機視覺和音頻模型是否存在偏差。 Casual Conversations 數據集包含來自 3,011 人的 45,000 多個視頻,可供研究人員和學者免費使用。
根據 Facebook AI該數據集於 4 月 8 日公佈,其獨特之處在於每個受試者都自己標記了自己的年齡和性別,並且每個參與者都明確同意使用他們的肖像。 參與者收到的付款來自 Facebook。
基準數據集
訓練有素的註釋者還使用菲茨帕特里克皮膚類型量表標記參與者的膚色,這是一種皮膚分類系統,可將膚色分為六種色調。 該秤於 1975 年開發,傳統上人們使用秤來衡量 確定陽光照射方式 會影響他們的皮膚。
此外,註釋者還標記了在低環境照明下錄製的視頻。
RPA2AI Research 首席執行官 Kashyap Kompella 指出,研究人員可以使用該數據集來測試自動檢測年齡、性別和膚色的模型的準確性。
“為了 example,如果你的軟件僅適用於較淺的膚色,但不適用於較深的膚色,則表明你有工作要做 – 收集更多數據並重新訓練你的算法,”他說。
特德·科瓦特勒,副總裁 AI 信任於 AI 和 autoML 供應商 DataRobot 表示,雖然他很受鼓舞 Facebook對於如何收集數據的透明度方法,“付費、專家策劃和眾包的標籤充滿了問題。”
為了 example作為競爭激烈的行業中的藝術家,科沃特勒所說的為數據集錄製視頻而付費的“演員”可能會覺得不得不謊報自己的年齡。 他說,在評估膚色時也可能出現確認偏差,因為一名評估者可能與另一名評估者分享評估結果,從而影響意見。 科沃特勒也是該組織的成員 聯邦證據數據諮詢委員會。
Facebook在回應 TechTarget 的一份聲明中,指出數據集中的人員不是專業演員,而是由外部供應商採購,從而消除了與專業競爭力相關的任何問題。
在聲明中, Facebook 指向 隨附的研究論文,其中指出 Facebook 僱用了八個人使用菲茨帕特里克量表對所有參與者進行註釋。 沒有一個註釋者可以看到另一位評估者所做的註釋。
Facebook 表示它累積了八次投票的加權直方圖,並選擇了投票最多的皮膚類型作為最終註釋。
據介紹,註釋者接受過使用菲茨帕特里克量表的培訓 Facebook。
需要多樣性
這家社交媒體巨頭的數據集是 AI 行業正在做出新的努力,為行業帶來更多多樣性 AI 創作過程。 Google, 為了 example,最近因解僱兩名知名人士而受到批評 AI 倫理學家 Timnit Gebru 和 Margaret Mitchell。 黑人女性格布魯對這種方式表示批評 Google 對待女性和有色人種。
研究人員表示,更多的多樣性 AI 創造帶來更公平、更少偏見 AI 楷模。
康佩拉說,這很重要,因為圖像識別和計算機視覺系統歷來都讓深色皮膚的人“失敗”。
“從洗手間傳感器到在線考試監考工具,帶有編碼偏差的產品清單很長,”他說。
作為 AI CCS Insight 企業研究主管 Nick McQuire 表示,需求持續加速,對高質量、有代表性、準確且具有偏差意識的培訓數據的需求也在不斷增長。
“作為一個行業,我們 [in an ancient era] 當談到理解公平和偏見時 AI,“ 他說。
雖然“還有待觀察 Facebook 將為開發人員提供這項研究,總的來說,這是個好消息,我們看到該領域不斷取得進展,因為它的重要性不僅在於 AI 開發商,還有整個社會,”他繼續說道。
休閒對話數據集可供研究人員免費獲取,但使用它有一些注意事項。
根據 同意 Facebook 用戶在下載數據集之前必須同意,該數據不能用於“測量、檢測、預測或以其他方式標記個人的種族、民族、年齡或性別, [or] 標記個人的面部特徵。” 用戶也不得基於該數據集修改、翻譯或創建任何衍生作品。
簡而言之,研究人員只能使用數據集來確定自己模型的準確性。
協議指出,如果 Facebook 如果懷疑用戶對數據集處理不當,公司可以審核他們對系統的使用、存儲和分發。
良好的第一步
雖然休閒對話數據集可以幫助研究人員,但這並不是消除偏見的最終目標。
“正在進行中 AI 不僅來自於機器學習技術的突破,還來自於擁有大量的參考基準數據集,”Kompella 說。
他指出,該數據集僅包含三個性別類別——男性、女性和其他——這可能會激怒一些人。
該數據集是一個很好的第一步,但它並不是減輕整個過程中偏見的真正整體解決方案。 AI 生命週期,Kwartler 說。
“它是由數據科學家為數據科學家製作的。 但該模型的行為和影響並未得到解決,”他說。 “有很多人參與其中 AI 數據科學家之外的生命週期,包括業務用戶、高管、公民數據科學家、IT 團隊等。 必須為應用模型解決業務問題的多個角色構建解決方案。”
同時, Facebook 經常因侵犯數據隱私而受到批評。 最近,安全專家批評 Facebook 為了 淡化數據洩露 這影響了數百萬用戶。
“信任欄 Facebook 目前誠然較低,但在該領域 AI 研究表明,它仍然是一個可信的,並且在某些方面,是一個積極參與的參與者,”麥克奎爾說。
“對這些數據的信任很大程度上取決於隨著研究的擴展其過程的透明度,以及最終如何將其提供給其他社區 Facebook,“ 他加了。