Google非常擅長弄清楚用戶在說什麼,但是知道誰在說這句話嗎?只看當前聰明的揚聲器技術很容易被愚弄。
但是,Google可能有一個非常簡單的解決方案。它的研究人員創建了一個能夠挑出聲音的深度學習系統。它通過在說話時看著人們的臉來做到這一點。
Google如何從人群中挑出聲音
首先,研究人員訓練了其係統,以表彰單獨講話的個別人。之後,他們創造了虛擬噪音 - 添加其他人來造成假人群 - 作為教導人工智慧將各種音軌分為不同的部分,從而允許系統識別哪個。
結果令人驚訝。如下面的視頻所示,即使他們的個人演講重疊,AI也能夠將兩個站立喜劇演員的聲音分開,並且僅通過看他們的臉就可以做到這一點。即使喜劇演員的臉只有部分看到,例如當它被麥克風稍微阻塞時,訣竅也有效。
Google的研究已在紙被稱為“希望聽雞尾酒會”,以雞尾酒會的效果命名,儘管周圍的噪音和分心,人們仍可以專注於一個音頻來源。
研究人員在博客中寫道:“我們的方法在帶有單個音軌的普通視頻上工作,用戶所需的一切就是選擇他們想要聽到的視頻中的人的面孔,或者根據上下文選擇這樣的人。”郵政。
這有用嗎?
研究人員仍在試圖確定如何將該技術實施到Google的產品中,但這並不需要很快就可以考慮。最明顯的候選人是視頻服務,例如聚會群體或者二人,這可以集成此功能,以擴大一個人說話反對壓倒性人群噪音時的聲音。作為Engadget,對可訪問性也有很大的影響筆記:AI驅動的語音跟踪可能會導致相機輔助的助聽器,當他們在佩戴者面前時,聲音會大聲。
但是,也有隱私的影響。想像一下,這項技術足以從紐約等城市城市繁華的街道上查明特定的聲音?結合安全攝像機,Google的新技術為安全性恐慌提供了另一種燃料。但是,時間會說明。