Meta發布了一個新的開源數據集,隨意對話V2,旨在擴大生物識別標識符的範圍,並測試算法AI模型中的公平性和包容性。
在發布,Facebook的父母將數據集吹捧為“同意驅動的公開資源,使研究人員能夠更好地評估某些類型的AI模型的公平性和魯棒性。”它由25,000多個在七個國家 /地區有5,000多名付費參與者的視頻組成。每個人都執行腳本且無腳本的獨白,並反映出11個自我保護和註釋類別中的年齡,性別和身體殘疾等特定特徵。
對於旨在包容的數據集,源位置的多樣性尤其重要。元早期版本從2021年開始的數據集中,沒有包括來自美國以外的人的視頻。版本2包括在巴西,印度,印度尼西亞,墨西哥,越南,菲律賓和美國受試者用第一和第二語言講話的視頻。據報導,梅塔計劃在隨後的版本中繼續擴大項目的地理範圍。
META收集休閒對話數據集的另一個關鍵原則是同意。去年12月,西雅圖法官拒絕了亞馬遜動議,要求駁回訴訟,指控它以其從Flickr數據集吸塵的圖像形式濫用生物識別標識符。該數據集最初是由IBM收集的,該數據集也旨在解決生物識別系統中的偏差。但是,在他的裁決法官說,刮擦的標識符是亞馬遜產品的固有性,以至於實際上“在商業上傳播了生物識別數據”。
針對微軟的一個並行案例發現,它還從FLICKR數據集中利用了生物識別標識符,而無需在其產品中共享該信息。
隨便對話v2(將適用於Facebook團隊和外部用戶),是Meta表示繼續推動的一部分民權進步關於AI構造。