使用合成數據而不是真實的人的面孔來訓練面部識別系統獲得地面在世界各地的生物識別公司中。德克薩斯州達拉斯的一所大學現在希望創建最大的面部識別均衡合成數據庫之一。
南方衛理公會大學(SMU)計劃從文本描述中生成一個具有高性能計算平台的面部圖像數據庫,該平台專為AI設計,稱為NVIDIA DGX SUPERPOD。目標是解決偏見問題和其他通過創建可以訓練人工智能模型的各種圖像來困擾面部識別領域的道德難題。
該項目由研究人員Corey Clark及其團隊在SMU的智能係統和偏見檢查實驗室(伊莎貝爾)。該大學說,除了影響面部識別算法如何識別種族和性別外,該合成數據庫旨在解決倫理上收集和使用真實人的生物識別數據的問題。
萊爾工程學院計算機科學助理教授兼SMU吉爾霍爾研究副總監克拉克說:“試圖創建一個基於現實世界的數據集來培訓任何人工智能模型有限制。” “從道德上來源,您必須解決諸如同意,公平和法律依從性之類的挑戰。超級點產生的綜合數據消除了這些障礙。”
該大學還計劃啟動偏見認證計劃,以評估公司的AI系統,並用於開髮指定需要的未來模型。
SMU一直與Nvidia自2021年以來,該公司幫助擴大了大學的超級計算機內存能力,從而導致AI和機器學習的速度和效率提高了25倍。大學已確立的它的伊莎貝爾實驗室於2021年9月與品嚐作為其第一個行業合作夥伴。
克拉克說,如果沒有超級點,為其數據集創建的大量圖像數量將是不可能的。
克拉克說:“面部識別就在這裡,沒有消失。” “對這些較大的培訓數據集的需求對於改善[面部識別]系統至關重要,因此它們提供了公平的結果。通過我們的方法和使用SuperPod,我們正在生成以前不容易獲得的數據集,並且在迅速和道德上進行。”
公司來自亞馬遜到創新和怠速在生物識別算法培訓中,一直使用合成數據作為解決偏見和隱私問題的解決方案。但是,專家是警告它必須在面部識別訓練中仔細使用,因為它也可能存在潛在的偏見。