研究表明,來自世界領先的消費技術品牌的語音識別技術針對不同的人口統計學的準確程度不同,或者正如某些人所說的那樣,對黑人“有偏見”。
斯坦福大學的一支學者團隊測試了來自亞馬遜,蘋果,Google,IBM和Microsoft的自動化語音識別系統(ASR)系統,以“自動語音識別的種族差異”在《國家科學雜誌》的會議記錄中,發現他們誤認為白人說的單詞中大約有19%,但單詞錯誤率(WER)的黑人講話率為35%。白人說話者的音頻片段被認為是不可理解的2%的時間,而對於黑人說話的人來說,黑人說話的人可能不會讀取20%。
為了分析不同語言群體的WER,研究人員將在加利福尼亞語音(VOC)數據集的三個社區和样本中彙編的區域非裔美國人語言(Coraal)數據集的語料庫。人類專家在5到50秒內轉錄了訪談片段,並將其結果與上述技術巨頭的機器學習算法的結果進行了比較。
研究人員建議增加培訓數據集的多樣性以及包括非裔美國人的白話英語,以減少績效差異。
蘋果的兩個數據集的錯誤率最高,差異超過20%。 Google和Microsoft的差異最小,但兩者均仍然超過10%,而亞馬遜的黑色揚聲器則與Google相同,但是對於白色揚聲器而言,其算法更準確。微軟的系統是唯一一個低於30%的黑人的系統。
這些發現還包括對地理分佈的一些洞察力,因為從鄉村和城市環境中(Princeville,北卡羅來納州和哥倫比亞特區)收集的言語比在紐約州羅切斯特收集的語音高的錯誤率更高。
研究人員探討了兩種不同的差異解釋。使用語言模型的詞典和語法的差距,例如黑人使用不包含ASR系統中的單詞,以及系統聲學模型中的性能差距。
然而,白人和黑人說的話在Google的ASR 98.6%和98.7%的詞彙中可以識別。當分析帶有相同文本的短語時,ASR技術用黑色揚聲器說的樣本造成了更多的錯誤,表明發音和韻律的差異,例如節奏,音調,音節重音,音節重音,元音持續時間和Lenition,可能是在表現差異的背後。
在面部生物識別方面,偏見一直是一個重要的問題,其中NIST測試表明準確性差異差異很大在不同的供應商之間。
R7語音科學聯合創始人Delip Rao在2018年的博客文章中解釋說固有的生理差異男女之間使訓練AI語音識別系統以與女性的語音進行準確表現變得困難。
聲音和語音識別預計將構成268億美元的市場到2025年。