語音識別技術在應用於女性的情況下比男性的準確程度少,部分是由於語音系統的設計,也是由於固有的生理差異。Delip Rao博客文章,AI語音識別創業公司的聯合創始人R7語音科學。
Rao寫道,來自男性和女性揚聲器的語音樣本的差異錯誤率使訓練AI系統同樣困難,並且問題通常會因MFCC(MEL-FRECLEXICENT CEPSTRAL係數)等常用技術而加劇。
與音調感知有關的平均基本頻率或平均F0通常約為男性120Hz,而女性則接近200Hz,也可能依賴於種族,吸煙,疾病和其他因素。 Rao還指出,平均F0中性別的概念僅限於青春期生物學性別。
他寫道:“在這個問題範圍內,無正念的語音系統可能會使已經很難的問題變得更糟。” “幸運的是,有了最近的深層語音模型,我們可以建立直接從原始波形中學習的模型,投入大量數據並對其進行計算,並希望這些模型具有足夠的能力來可靠地編碼特定的類別的變化。這更具吸引力,但比較小的初創公司更喜歡大型公司,而與較小的初創企業相比,這些型號始終是在足夠多的型號中,但這些模型都可以替代這些型號。
Kaggle數據準備分析師Rachael Tatman告訴寄存器儘管MFCC在建模女性的語音上的有效性並不較低,但“對女性的聲學信號略有強大,但它更容易被噪音掩蓋,例如粉絲或背景中的流量,這會使語音識別系統更加困難。這會影響您用於聲學建模的任何東西,這是MFCC的使用。”
Rao建議,隨著蘋果Siri等語音激活數字助手的普及,應尋求女性演講研究人員的觀點,以了解生產中的語音模型以及如何改善它們。
面部識別系統已顯示為表現不准確既適用於女性,也適用於皮膚較暗的人,從而導致了一個問題國會小組委員會尋求指導政府對AI的應用。