安全供應商說，現在需要快速採取行動

2023-05-22

一個新研究報告從安全分析師記錄的未來供應商中說，語音克隆能夠在野外擊敗語音多因素身份驗證。該報告的作者說，需要採用跨行業的方法來控制深層聲音。

報告“我沒有嘴，我必須犯罪”，是對科幻作者的致敬哈蘭·埃里森（Harlan Ellison）的黑暗幻象，但其發現包含有保證詩意的繁榮。

報告指出：“語音克隆技術目前正在野外濫用威脅行為者。”它正在“實現錯誤信息和虛假信息的傳播，並提高社會工程學的有效性”。進入進入的障礙繼續變得較低，平台等平台Elevenlabs流行的Prime語音AI提供低成本，基於瀏覽器的文本到語音（TTS）轉換的選項。

報告說：“語音克隆樣本，例如名人，政客和互聯網人物的樣本（'有影響力的人'），並旨在創建喜劇或惡意內容，這些內容通常是種族主義，歧視性或暴力的。”威脅行為者正在證明有效基於語音的欺詐攻擊包括語音網絡釣魚或釣魚。

對於Microsoft的TTS AI模型vall-e等平台，它僅需要三秒鐘音頻能夠產生一個克隆的聲音，例如，親人要求保釋金。

目前，技術限制意味著語音克隆主要用於小規模欺詐，並利用一次性樣本進行勒索或虛假信息。儘管如此，結果對於個人而言可能是災難性的。本月，加拿大廣播公司CBC報告在語音克隆上，用來欺騙紐芬蘭的八名老年人的$ 200,000（148,000美元）。受害者接到電話，在此期間，克隆的孫子的聲音要求他們賺錢以支付緊急費用。

在其他實例，克隆的聲音已用於綁架和人質騙局。

報告調查了深網chat不休，發現某些威脅行為者並不相信當前的語音克隆技術可以應對某些安全障礙，尤其是在克隆非英語的聲音時。但是他們已經在尋找修改它的方法。這樣的解決方法之一就是語音克隆作為服務或VCAA。報告稱，這是“一種新的商品化網絡犯罪形式，在其中語音克隆的“專家”提供了量身定制的語音克隆樣本，經常通過電報宣傳他們的服務。”

此外，公眾對AI的普遍提高導致了免費的匿名第三方人數的激增語音克隆服務。開源語音克隆軟件正在社交媒體和代碼存儲庫中出現。網絡犯罪分子正試圖尋找方法來規避諸如Elevenlabs之類的平台所施加的內容限制，當它更新其社區標準以阻止語音克隆以確定出於邪惡目的而引起海報的憤怒。

該報告建議組織在解決與語音克隆相關的風險時儘早採取行動，這些風險正在增長。 “要立即採用行業範圍的方法，以便從語音克隆技術的未來進步中提高進一步的威脅。”