來自的三篇研究論文Pindrop已在2022年國際聲學,語音和信號處理的國際會議上提出(ICASSP),並指出了公司試圖通過語音生物識別技術和語音識別技術進一步創新的方向。
第一篇論文標題為“從語音中進行年齡估算的分銷學習。 '它通過使用分佈學習問題模型而不是分類或回歸問題的傳統模型來探討基於語音生物識別技術的年齡估計方法的不同方法。 Pindrop的研究人員在分佈式學習中發現的第一個障礙是,音頻研究缺乏標記為“明顯”年齡的數據集。
但是,它還發現,針對面部年齡估計的分配學習對於音頻仍然可行,這意味著可以在特定的置信區間估算一般年齡範圍。它得出的結論是,儘管分佈式學習比面部年齡估計更具限制性,但對於匹配和不匹配的條件,它甚至可以優於回歸和分類算法。
第二篇論文的標題為“揚聲器嵌入轉換以使往後和跨通道兼容性。 '它研究了將其模型遷移到新的深度學習技術的語音生物識別技術提供商之間的兼容性問題。 Pindrop的研究人員提出了一種基於神經網絡的深度方法,以允許向後兼容。實驗結果發現,DNN能夠在兩個自動揚聲器驗證系統(ASV)之間提供功能上的兼容性,並且在基線轉換器系統上的性能提高,儘管轉換後的功能嵌入性能的性能比低範圍低的傳統ASV系統差。研究人員說,他們的工作擴展可以探索得分校準,以在遠距離範圍內提高這種表現。
第三篇論文是'端到端ASR的無監督模型改編,”並研究一種方法來改善自動語音識別(ASR)轉錄系統,這些轉錄系統經常與不匹配的火車測試條件(如呼叫中心)掙扎,這些條件必須考慮到口音和語音音頻質量等因素。 Pindrop的研究人員建議使用單詞誤差(WER)和CTC(“連接派時間分類”,一種對齊方式損失)以及另一方面的基於概率比率(PRC)之間的關係,以消除對人類註釋的需求。
為此,研究團隊提出了一種使用內域數據提高ASR系統準確性的經濟高效方法,而無需昂貴的人類註釋。通過探索單詞誤差(WER)和連接派時間分類損失以及WER和基於概率比率的置信度(PRC)之間的關係,這是可能的。它發現,在沒有監督的情況下,絕對可以將其減少8%,從而使其適應次優條件。
但是,Pindrop說,這項研究是實驗性的,並不能反映其產品的性能。
語音生物識別領域的其他一些最新研究包括有關如何解決的建議聲音深擊和一種方法智能設備上的持續的耐受性檢測。
ICASSP的在線論文演示部分將於本週關閉,面對面的活動於5月22日至27日在新加坡舉行。