您是否曾在喧鬧的聚會上打電話給朋友?如果是這樣,您可能知道在喧囂中很難理解您的通訊員。原因很簡單:與人類不同,麥克風很少區分不同的聲源,並重新傳輸它聽到的所有內容。
這種現象可能很快就會消失。谷歌研究人員開發出了能夠隔離聲音的人工智慧,結果相當令人印象深刻。
多個音軌和視頻
為了工作,谷歌使用一種現在經典的技術來訓練人工智慧深度學習。其目標:從單一錄音中區分出不同的聲源。該軟體分析聆聽並根據需要將其劃分為盡可能多的音軌。其特殊性:影像分析。人工智慧觀察人嘴的運動,辨識聲音的來源,並創造相關的軌跡。這樣就可以完全消除影片中的背景噪音。
在辯論的背景下,結果更加令人震驚。兩個人同時說話,但你可以將兩個主角之一完全靜音,然後再分別聽他們說話。谷歌解釋說,我們分析了 100,000 個視頻,得出了 2,000 小時的視頻,其中所有背景噪音都被消除了。谷歌已經上線了四個例子在他致力於研究的部落格上,我們注意到人工智慧可以選擇一個人,並且只聽他們的聲音。
用途不同
谷歌解釋說,借助人工智慧,它可以改進 YouTube 影片的自動字幕,一旦掌聲或外部噪音添加到文字中,這些字幕就會不幸地陷入困境。公司發布了視頻說明了它的技術,而且字幕一旦剪掉聲音確實更能代表現實。
最後,該系統可以直接讓使用者受益。如果我們當然想像谷歌將其添加到圓環聊或者雙人組為了提高視訊通話的質量,我們還可以假設未來版本的揚聲器Google首頁她是否也能從中受益?儘管如此,透過能夠隔離房間中的每個人,檢測諸如«好的Google»可以改進。
目前,Google表示仍在考慮其技術的不同可能用途。