
近年來,語音識別技術已經走了很長一段路,增長最快的領域之一是手機市場。
現在,可用性3G啟用具有快速,始終在Internet連接的移動設備以及具有數百萬個電話用戶的語音建模軟件的能力(一種稱為人群採購的過程)正在幫助促進一種新型的移動語音識別應用程序,這些應用程序迅速運行並且非常準確。
語音識別軟件已經存在多年了,但是他們通常會感到沮喪,因為它們通常要求用戶“訓練”它們以獲得最佳的單詞識別或慢慢說話。
“在早期,該技術的功能與您需要培訓所需的各種設備的計算能力相結合,以便[軟件]將擁有有關特定用戶的數據……而不會用完太多的計算機功能,” Nuance Mobile的高級副總裁兼總經理Mike Thompson解釋說,這使Dragon Distation and Dragon搜索應用程序是iPhone和iPhone和iPad的Dragon搜索應用程序。 ((閱讀更多iPad新聞。)
但是當今的計算能力智能手機是否不再需要語音訓練。構成當今語音識別軟件基礎的數字語音模型已經足夠複雜,可以自己學習 - 用戶的口頭怪癖。
它們也很快:例如,龍的命令可以以正常的速度轉錄單詞。
群眾的力量
移動語音識別應用程序在較舊的桌面對應物中也具有其他優勢。
一種是能夠與強大的中央計算機或服務器進行通信的能力,該計算機可以結合數百萬用戶的信息,然後進行廣泛的概括,以幫助提高應用程序識別單詞的整體能力。
語音識別軟件製造商Vlingo的總裁兼首席執行官Vlingo說,“您第一次與電話交談時,我們放了一種數字標籤”(一種數字標籤)。
一個人的語音模型包含有關他的口音和獨特方式發音的信息。
服務器可以結合具有類似口音的幾位演講者的語音模型,以提高該人群的準確性。
Grannan告訴Technewsdaily:“如果您來自印度,在Vlingo上說英語作為第二語言,那麼我們的工作非常好。如果您來自德國英語,那就不太好。”
原因?弗林戈(Vlingo)擁有更多講德語的用戶,因此印第安人的語音模型通常比德國人更好。
智能應用程序
當今智能手機的語音識別應用程序也可以從錯誤中學習。如果應用程序拼寫單詞,則用戶可以使用設備上的鍵盤來糾正錯誤,並且在服務器上註明了校正,因此重複出現的可能性較小。
Dragon Distation和Dragon Search還要注意演講者在說話的位置,並可以採取步驟來減少背景噪音,以便更容易理解一個人的話。
“如果您要在車上開車,您可能會向下窗戶,或者收音機正在打開,或者與您一起在車上有另一個人。所有這些聲音都是可以預測的,可以通過稱為聲學迴聲取消的東西消除,” Dragon Dectation的湯普森說。
聲學迴聲取消是服務器端過程,也受益於人群採購。在類似的嘈雜環境中使用這些應用程序的人越多,軟件就會忽略背景噪聲的越好。
湯普森在電話採訪中說:“就像許多形式的軟件一樣,當您收集更多數據和專業知識時,您將不斷地將其倒回產品中。”
“成為主流”
Vlingo的Grannan指出,近年來,隨著快速支持3G的手機變得無處不在,人群採購和服務器端的語音分析確實開始了。
格蘭南說:“在我們擁有3G之前,很難做到這一點。”
將來湯普森預測,語音識別軟件將更深入地集成到各種設備中。
他說:“您將看到大量的設備推出,並在設備中烘烤語音識別。” “它將內置在消息系統,搜索功能以及手機上的所有應用程序中。”
這種趨勢已經在發生。蘋果的iPhone 3GS例如,包括本地語音識別功能,使用戶可以在地址簿中語音撥號人。
湯普森說,語音認可“引起了主流的關注,這正在以一種非常積極的方式推動我們的業務。”