揚聲器或聲音識別是一種生物識別方式,它將個人的聲音用於識別目的。 (這是一種與“語音識別”不同的技術,該技術識別詞被表達的單詞,這不是生物識別。)說話者識別過程依賴於受個人聲道的物理結構和個人行為特徵影響的特徵。
由於可用於收集語音樣本的設備(例如電話網絡和計算機麥克風),因此它是遠程身份驗證的流行選擇。由於其易於集成,說話者識別與其他某些生物識別方法不同,因為語音樣本會在一段時間內動態捕獲,例如幾秒鐘。分析發生在一個模型上,在該模型中,隨著時間的流逝而變化,該模型類似於其他行為生物識別技術,例如動態簽名,步態和擊鍵識別。
語音識別的生理組成部分與個人聲道的物理形狀有關,該聲音由氣道和聲音聲音起源的軟組織腔組成。為了產生言語,這些組件與下頜,舌和喉的物理運動以及鼻腔中的共振相結合。語音的聲學模式來自氣道的物理特徵。
口腔的運動和發音是該生物識別的行為成分。說話者識別的兩種形式:依賴文本(約束模式)和獨立文本(無約束模式)。
在使用“依賴文本”語音的系統中,個人提出了已編程到系統中的固定或提示的短語,並且可以提高性能,尤其是在合作用戶中。
一個“獨立文本”系統沒有提前了解演示者的措辭,並且在提交樣本的個人可能不知道該集合或不願合作的情況下,它更加靈活,這帶來了更加困難的挑戰。
語音樣本是波形,隨時間在水平軸上,垂直進入的響度。說話者識別系統分析語音的頻率含量,並比較特徵,例如信號的質量,持續時間,強度動態和音高。
在“依賴文本”的系統中,在收集或註冊階段,個人說一個簡短的單詞或短語(話語),通常使用麥克風捕獲,該麥克風可以像電話一樣簡單。語音樣本從模擬格式轉換為數字格式,提取了個人聲音的特徵,然後創建了模型。大多數“依賴文本”的說話者驗證系統都使用隱藏的馬爾可夫模型(HMM)的概念,即基於隨機的模型,可提供個人產生的聲音的統計表示。 HMM使用上述質量I持續時間 /強度動力學 /俯仰特徵,代表語音狀態中隨時間變化的基本變化和時間變化。
另一種方法是高斯混合模型,這是一種與HMM密切相關的狀態映射模型,通常用於無約束的“文本獨立”應用。像HMM一樣,此方法使用語音來創建代表各種聲音形式的許多向量“狀態”,這些形式是個人的生理和行為的特徵。
這些方法都比較了輸入語音和存儲的語音“狀態”之間的相似性和差異,以產生識別決定。入學後,在識別階段,從提交的樣本中提取了相同的質量 /持續時間 /響度 /音高特徵,並將其與已聲明或假設的身份的模型以及其他說話者的模型進行了比較。另一個揚聲器(或“反揚聲器”)模型包含各種個人的“狀態”,不包括所主張的或假設的身份的“狀態”。將輸入語音樣本和註冊模型進行比較,以產生“似然比”,這表明輸入樣本來自主張或假設的說話者的可能性。如果語音輸入屬於所聲稱或假設的身份,則分數將反映樣本與聲稱或假設的身份模型更相似,而不是“反揚聲器”模型。
看似容易的說話者識別系統的實施有助於過程的主要弱點和對傳輸通道以及麥克風變異性和噪聲的敏感性。
當最終用戶註冊乾淨的座機電話並嘗試使用嘈雜的蜂窩電話進行驗證時,系統可能會面臨問題。無法控制影響輸入系統的因素可以大大降低性能。揚聲器驗證系統(除了使用提示的短語的系統外,還容易通過使用錄製的語音來欺騙攻擊。需要實施指定和隨機詞或短語的反欺騙措施以應對這一弱點。
例如,系統可以請求隨機生成的短語,以防止預先錄製的語音樣本攻擊。用戶無法預料將需要的隨機樣本,因此無法成功嘗試對系統上的攻擊進行“播放”。
當前在“獨立”說話者識別領域的研究主要集中於超越先前討論的低級光譜分析。儘管信息的光譜水平仍然是識別識別背後的推動力,但將高級特徵與低級別的光譜信息融合在一起已成為一種流行的實驗室技術。
說話者的識別特徵,例如節奏,速度,調製和語調,基於人格類型和父母的影響;語義,語義,發音和特質與出生地,社會經濟地位和教育水平有關。
更高級別的特徵可以與基本的低級光譜信息結合使用,以提高“獨立”說話者識別系統的性能。