Microsoft得益於新系統，在對話性語音識別中實現了人類平價

2016-10-19

Microsoft人工智能和研究工程師已經開發了一種語音識別系統，該系統具有與人類翻譯人員相當的能力。

據報導，該技術的單詞率誤差為5.9％，這是第一次低於6％。

根據研究人員的說法，這種結果類似於與軟件所實現的對話的人相似的。

“我們已經達到了人類的平價。這是一個歷史性的成就，”微軟的首席演講科學家Xuedong Huang，說。

該公司表示，研究人員使用的神經語言模型不僅能夠學習單詞的聲音，還可以學習與他人的聯繫。例如，該軟件可以理解“快速”和“快速”一詞具有相似的含義。

至於這需要什麼，微軟計劃使用這項技術來改善其虛擬助手提供科爾塔納以及某些可訪問性工具，例如語音到文本轉錄軟件。

有趣的是，湯姆·布蘭特（Tom Brant）PC雜誌報導說，五年前的最佳語音識別系統通常產生轉錄，單詞錯誤率在20％至25％之間。不用說，這一發展與當時的技術可以做到的一項巨大的加速。

Microsoft人工智能與研究小組執行副總裁Harry Shum說：“即使在五年前，我也不會以為我們可以實現這一目標。”

但是，該公司強調，這並不意味著系統可以完美地抄寫和識別語音，並補充說，即使人類也不這樣做。無論如何，這在神經網絡的研究中仍然很重要。

還值得一提的是雷德蒙德公司管理在9月份達到6.3％的單詞率誤差。當時，毫無疑問，這是一項令人印象深刻的壯舉。

對於那些感興趣的人研究論文可在網上獲得，信用Wayne Xiong，Jasha Droppo，Xuedong Huang，Frank Seide，Mike Seltzer，Andreas Stolcke，Dong Yu和Geoffrey Zweig。

簡而言之，這或多或少只是在語音識別技術方面的開始，因為Microsoft還有很長的路要走，可以清楚地可以清楚地聽到在許多不同環境中設置的各種聲音。然而，這項成就是向前邁出的重要一步。

您如何看待微軟達到什麼？請隨時通過下面的評論部分放棄，並告訴我們。