META更新具有國際內容的AI公平數據集

2023-03-10

Meta發布了一個新的開源數據集，隨意對話V2，旨在擴大生物識別標識符的範圍，並測試算法AI模型中的公平性和包容性。

在發布，Facebook的父母將數據集吹捧為“同意驅動的公開資源，使研究人員能夠更好地評估某些類型的AI模型的公平性和魯棒性。”它由25,000多個在七個國家 /地區有5,000多名付費參與者的視頻組成。每個人都執行腳本且無腳本的獨白，並反映出11個自我保護和註釋類別中的年齡，性別和身體殘疾等特定特徵。

對於旨在包容的數據集，源位置的多樣性尤其重要。元早期版本從2021年開始的數據集中，沒有包括來自美國以外的人的視頻。版本2包括在巴西，印度，印度尼西亞，墨西哥，越南，菲律賓和美國受試者用第一和第二語言講話的視頻。據報導，梅塔計劃在隨後的版本中繼續擴大項目的地理範圍。

META收集休閒對話數據集的另一個關鍵原則是同意。去年12月，西雅圖法官拒絕了亞馬遜動議，要求駁回訴訟，指控它以其從Flickr數據集吸塵的圖像形式濫用生物識別標識符。該數據集最初是由IBM收集的，該數據集也旨在解決生物識別系統中的偏差。但是，在他的裁決法官說，刮擦的標識符是亞馬遜產品的固有性，以至於實際上“在商業上傳播了生物識別數據”。

針對微軟的一個並行案例發現，它還從FLICKR數據集中利用了生物識別標識符，而無需在其產品中共享該信息。

隨便對話v2（將適用於Facebook團隊和外部用戶），是Meta表示繼續推動的一部分民權進步關於AI構造。