來自德國Ruhr-University Bochum的研究人員發布了一份新報告,並提出了有關如何解決的建議聲音深擊通過使用新穎的數據集。
該研究主要關注“圖像領域”,因為研究人員聲稱,迄今為止,探索生成的音頻信號的研究已被全球研究忽略了。為此,喬爾·弗蘭克(Joel Frank)和利亞·舒恩爾(LeaSchönherr)研究了音頻深擊挑戰的三個不同方面,以“縮小這一差距”。
第一個由用於分析音頻信號的通用信號處理技術的簡介,包括如何讀取音頻信號的頻譜圖以及文本到語音的語音(TTS)模型。
研究人員寫道:“儘管對端到端模型進行了一些研究,但典型的TTS模型由兩階段的方法組成。”
“首先,我們輸入要生成的文本序列。此序列由某些模型(或特徵提取方法)映射到低維中間表示,通常是語言特徵或MEL頻譜圖。其次,我們使用一個附加模型(通常稱為Vocoder)來將此InterMediquder映射到原始audio。”
具體而言,研究人員專注於Vocoder文獻,因為它直接與他們在音頻深擊的工作聯繫起來。
其次,研究人員提出了一個新穎的數據集,該數據集建立在五個不同的網絡體系結構和跨越兩種語言的九個樣本集上。
託管的新數據集Zenodo,由大約196個小時的生成音頻文件組成,主要基於LJSpeech和JSUT數據集。它還包括一系列架構,包括梅爾根(Melgan),平行波甘(PWG)和Wavellow等。
最後,弗蘭克(Frank)和肖恩爾(Schönherr)為從業者提供了兩個基線模型,該模型從信號處理社區中採用,旨在促進該地區的進一步研究。
“為了為未來的從業人員提供基線,我們培訓了幾種基線模型。我們評估了它們在不同的數據集和多個設置中的性能。具體來說,我們培訓了高斯混合物模型(GMM)和基於神經網絡的解決方案。”
儘管他們發現神經網絡總體上的表現更好,但GMM分類器被證明更強大,這可能使他們在現實生活中具有優勢。
“最後,我們使用歸因方法檢查了不同的分類器。我們發現,高頻信息被證明是必不可少的,因此不能忽略較低的頻率。”
但是,研究警告說,獲得現實數據集的困難在安全界一直是一個長期存在的問題,並且有可能使研究結果不普遍適用。
“通常很容易獲得良性數據,但是在惡意上下文中使用的數據很難獲得。這使我們估計了代理數據上的現實性能。”
弗蘭克(Frank)和肖恩爾(Schönherr)認為,在他們的情況下,他們可能會有很大的困難,結果將轉移到攻擊中使用的相同類型的數據中。
“目前,現成的神經網絡產生的圖像用於惡意嘗試中。我們預計音頻深擊的數量也會增加。”
有關Ruhr-University Bochum紙的更多信息,您可以關注此鏈接完整閱讀它。