Google如何知道誰在說話，即使在嘈雜的人群中

2018-04-13

Elinore

Google非常擅長弄清楚用戶在說什麼，但是知道誰在說這句話嗎？只看當前聰明的揚聲器技術很容易被愚弄。

但是，Google可能有一個非常簡單的解決方案。它的研究人員創建了一個能夠挑出聲音的深度學習系統。它通過在說話時看著人們的臉來做到這一點。

Google如何從人群中挑出聲音

首先，研究人員訓練了其係統，以表彰單獨講話的個別人。之後，他們創造了虛擬噪音 - 添加其他人來造成假人群 - 作為教導人工智慧將各種音軌分為不同的部分，從而允許系統識別哪個。

結果令人驚訝。如下面的視頻所示，即使他們的個人演講重疊，AI也能夠將兩個站立喜劇演員的聲音分開，並且僅通過看他們的臉就可以做到這一點。即使喜劇演員的臉只有部分看到，例如當它被麥克風稍微阻塞時，訣竅也有效。

Google的研究已在紙被稱為“希望聽雞尾酒會”，以雞尾酒會的效果命名，儘管周圍的噪音和分心，人們仍可以專注於一個音頻來源。

研究人員在博客中寫道：“我們的方法在帶有單個音軌的普通視頻上工作，用戶所需的一切就是選擇他們想要聽到的視頻中的人的面孔，或者根據上下文選擇這樣的人。”郵政。

這有用嗎？

研究人員仍在試圖確定如何將該技術實施到Google的產品中，但這並不需要很快就可以考慮。最明顯的候選人是視頻服務，例如聚會群體或者二人，這可以集成此功能，以擴大一個人說話反對壓倒性人群噪音時的聲音。作為Engadget，對可訪問性也有很大的影響筆記：AI驅動的語音跟踪可能會導致相機輔助的助聽器，當他們在佩戴者面前時，聲音會大聲。

但是，也有隱私的影響。想像一下，這項技術足以從紐約等城市城市繁華的街道上查明特定的聲音？結合安全攝像機，Google的新技術為安全性恐慌提供了另一種燃料。但是，時間會說明。

Google如何從人群中挑出聲音

這有用嗎？

相關貼文