如果您最近幾天一直在關注新聞,那麼您肯定沒有錯過 Google Duplex。這無疑是此次發布的最重要的公告谷歌輸入/輸出會議上提出的人工智慧似乎實現了時間上的飛躍。
未來就是現在嗎?
她現在能夠用自然語言進行交流......以至於她甚至進行電話交談的能力與一個真實的人。很難相信嗎?然而,在演示中(誠然是事先錄製的),在協商好日期和時間後,Google Duplex 成功自行預約了美髮師。對話流暢且充滿不同的語調,似乎與我們在處理合成聲音時通常聽到的相去甚遠。
但這怎麼可能(如果可能的話)?
聲音和語境的挑戰
第一個難題:聲音。正如Google所解釋的,模仿自然語言和行為並不容易。因為對話也是由沉默、中斷和重複的句子、各種問題、表示我們正在傾聽的小「嗯嗯嗯」組成的,同時也不會忘記每個人特有的語調、口音和表達方式的變化……建模所有這一切都極為複雜。
接下來是另一個問題,即理解問題。任何使用過 Siri 這樣的語音助理的人都清楚這一點:為了讓 AI 理解你自己,你必須簡化你的句子……不僅僅是對話,它首先是一個問題/答案,而且通常需要費力地進行。出去。人工智慧確實很難跟上並考慮上下文,這是兩個人之間對話的核心要素。
專心改變
在他的博文,Google 解釋了其工程師如何在 Google I/O 主題演講中得出令人驚嘆的結果。第一點:為了與理髮師或餐廳老闆互動,Google Duplex 經過專門訓練,可以識別所使用的典型句子、問題和單字、它們的含義和使用上下文。換句話說,Duplex 無法以如此精確和理解的程度討論任何事情。
為了提供針對特定主題的自然對話,Duplex 使用循環神經網絡,該網絡已接受匿名電話通訊組的處理。正是這些數據用於他的訓練,使他能夠根據給定的上下文理解所用單字的含義。
在訓練過程中,人類對話者的話語透過自動語音辨識技術進行篩選。然後,這些數據與來自音軌、歷史記錄和對話其他參數的資訊一起輸入神經網路。
最終,對於每個領域(美髮、修腳等),Google創建了一個理解模型,然後將其與每個領域學到的通用元素合併。
一種聲音的兩種工具
一旦人工智慧理解了對其所說的話,它就必須做出回應。這就是兩個文字轉語音工具發揮作用的地方。第一個是連接文字轉語音 (TTS) 引擎,透過合成語音讀取文字。第二個也是 TTS 引擎,由 Google 去年 12 月推出的兩個元素組成:Tacotron 2 和 Wavenet。示意地說,第一個陳述句子,第二個根據情況控制語調。
最後,為了讓對話更加自然,Google 整合了分歧,我們發出的那些小「嗯」聲,沒有意識到它表示我們仍在傾聽。一些小標誌和慣例可以防止對話者懷疑我們是否仍然在線。還有什麼比這種小小的懶惰更人性化的呢?
經驗將會改善和豐富
唷,如果 Google Duplex 無法回應複雜的回應,它會將此情況報告給操作員,以便他們可以接管。足以避免犯錯和尷尬的情況!
但隨著時間的推移,Duplex 應該會進步並擴大其能力範圍。為了在新領域進行訓練,系統的進度會受到監控,同時新的資料集會即時輸入到系統中。一旦達到令人滿意的品質水平,對人類訓練師的監控就會停止,然後 Google Duplex 會自主管理這個新領域中的對話。
Google Duplex 仍處於實驗階段。儘管如此電腦網路有幸在 Google I/O 大會之前對其進行了獨家測試,並報告 Google 打算逐步部署它。目標是提供人工智慧全天幫助用戶,不會故障。這就是為什麼與 Google Assistant 的整合應該會從明年夏天開始順利完成。
考慮到法語的難度和多種細微差別,這項服務不太可能很快到達法國。無論是英語還是法語,我們都在等待能夠測試此功能或看到它的實際效果才能真正相信它。
來源 :
Google
Opera One - AI 驅動的網頁瀏覽器
作者:歌劇