Google通過成功開發的技術開發可以模仿人類聲音的聲音,在其深層人工智能(AI)項目中達到了一個里程碑。
這一突破被稱為波納特,被描述為一個深度神經網絡,可以產生原始音頻波形式以產生語音。據報導,它可以擊敗現有的文本對語音系統。
根據英國的Wavenet部門的研究人員的說法,人類績效的差距可以在實際的AI(人類對話)中證明,將其降低多達50%。
Wavenet技術也很有趣的是,它能夠學習不同的聲音和語音模式,以至於它甚至可以模擬嘴巴動作和人造呼吸,除了情感,語言變形和口音。
研究人員在論文中寫道:“單個像徵能夠以同樣的忠誠捕獲許多不同揚聲器的特徵,並且可以通過對揚聲器身份進行調節來切換它們。”
Wavenet目前能夠使用英語和中文。它還可以製作音樂,例如古典鋼琴作品,並自己創作歌曲。
最近的AI突破對Google的重要性取決於實現其當前技術質量所需的大量數據。為了將其置於上下文中,應該僅考慮大多數計算機生成的文本到語音技術如何基於大量人類聲音錄音的收集。
Google正在使用AI來應對挑戰,選擇一種基於以前稱為Pixelrnn和Pixelcnn或二維Pixelnets的技術建模原始音頻的方法。新系統被描述為一維象徵,每秒至少需要16,000位不同的樣本,這需要使用巨大的計算能力,WaveNet的創建者說在博客文章中。必須對該系統進行培訓以產生話語和學習背景等。總共,WaveNet算法需要一百多名揚聲器記錄的44小時樣品聲音。
目前,觀察者與可以減少能源消耗的DeepMind算法相比,尚未看到Wavenet的任何立即商業效用,如先前報導技術時報。
但是,隨著人們越來越依賴技術,需要建立復雜而自然的機制,以確保與人類有效且無縫的互動。出於這個原因,為什麼科技公司密切關注Wavenet,根據到彭博。
照片:健康博客|Flickr