借助人工智慧，谷歌可以將聲音與喧囂完全隔離

2018-04-13

您是否曾在喧鬧的聚會上打電話給朋友？如果是這樣，您可能知道在喧囂中很難理解您的通訊員。原因很簡單：與人類不同，麥克風很少區分不同的聲源，並重新傳輸它聽到的所有內容。

這種現象可能很快就會消失。谷歌研究人員開發出了能夠隔離聲音的人工智慧，結果相當令人印象深刻。

多個音軌和視頻

為了工作，谷歌使用一種現在經典的技術來訓練人工智慧深度學習。其目標：從單一錄音中區分出不同的聲源。該軟體分析聆聽並根據需要將其劃分為盡可能多的音軌。其特殊性：影像分析。人工智慧觀察人嘴的運動，辨識聲音的來源，並創造相關的軌跡。這樣就可以完全消除影片中的背景噪音。

在辯論的背景下，結果更加令人震驚。兩個人同時說話，但你可以將兩個主角之一完全靜音，然後再分別聽他們說話。谷歌解釋說，我們分析了 100,000 個視頻，得出了 2,000 小時的視頻，其中所有背景噪音都被消除了。谷歌已經上線了四個例子在他致力於研究的部落格上，我們注意到人工智慧可以選擇一個人，並且只聽他們的聲音。