隨著AI增強音頻深擊的發展,區分真實和假貨的能力變得越來越困難,並且允許該技術(不難找到和使用)越來越多地用於犯罪和惡性用途。這突出了對有力的音頻深擊檢測(添加)系統的迫切需求,這些系統可以清除威脅。
添加是檢測由文本到語音轉換系統產生的欺騙攻擊的過程。問題是,添加旨在檢測深擊的技術正在努力跟上他們所採用的檢測危險的步伐。
儘管最近的研究表明,DeepFake音頻變得越來越難以查明,但最近幾周和幾個月關於該問題的研究的論文提供了有希望的解決方案。但是,這些解決方案可能是媒體組織和公眾的範圍。
西北大學計算機科學教授Subrahmanian對14個公開可用的檢測工具進行了測試,並告訴Poynter Institute,“您今天不能依靠Audio Deepfake探測器,我不建議您使用一個。”
在接受采訪科學美國人今年早些時候,研究數字取證和媒體分析的加利福尼亞大學伯克利計算機科學教授漢尼·法里德(Hany Farid)表示,確定AI生成的音頻所需的技能水平“很高。我可以一方面以可靠的方式來統計世界上的實驗室數量。”
法里德說公開可用Deepfake檢測今天可用的工具根本“不夠可靠。我不會使用它們。這些賭注不僅對於各個民族的生計和聲譽,而且對於每種情況設置的先例都太高。”
然而,由於對隱私和安全的威脅越來越大,解決問題的研究仍在認真繼續。如果最近的研究結果是準確的,那麼潛在的解決方案可以在地平線上。
在他們的論文中DeepFake Forensics:一項對社交媒體上多模式深層識別的數字法醫方法的調查,來自巴基斯坦拉合爾伊斯蘭堡計算機科學系的研究人員,巴基斯坦伊斯蘭堡大學,以及計算機學院,計算機學院,烏姆·庫拉大學,麥加市,沙特阿拉伯王國,他們說,他們的“系統調查已經闡明了在數字化技術中促進創新技術的需求,該技術需要加劇技術的數字化技術。
研究小組說:“儘管方法正在進步,但跨模式檢測,實時能力,算法偏見和概括不足的局限性揭示了盲點需要研究人員的關注。實際限制也圍繞計算間接費用以及培訓數據集的質量/多樣性等方面持續存在。”
However, they said there are “several promising directions” they found that “can guide future efforts to address these gaps. Exploring self-supervised and semi-supervised techniques can potentially reduce dependence on large, labeled datasets,” and that “simpler specialized models can improve detection accuracy while minimizing training requirements. Multi-modal frameworks fusing audio, visual, and textual cues also warrant deeper investigation. Notably, research into圍繞隱私,同意和潛在抑制合法言論的倫理考慮,優先考慮安全性和表達自由作為檢測能力的發展。”
他們指出,“然而,隨著深層發電方法的繼續前進,最重要的方向保持持續,快速循環創新。開發敏捷的適應機制來響應新穎的操縱技術,可能會改變遊戲規則。促進開放式社區的開放式社區以促進諸如Edgection tocture tection tocture tocture topers intery the Edge Inters Inters Inters Inters Inters Inters Inter inters Inters。多媒體取證還需要綜合來刺激突破。
科學家們寫道:“為了可靠的檢測,添加系統必須對新興和未知的深層技術,為其決策提供合理的證據,並與其他檢測工具無縫集成。”
一位科學家,您(尼爾)張,羅切斯特大學音頻信息研究實驗室的博士學位候選人,將在一個過程中介紹該小組的發現推介會下週在2024年國家司法研究所的法醫學研究生研究研討會上,由NIJ的法醫技術卓越中心主持。
該團隊正在開發“一種單級學習方法,該方法在推動深層攻擊的同時壓實了真正的語音表現形式的分佈,從而提高了檢測性能。該框架還鼓勵在嵌入空間中分離深fake,並將真實的記錄與多樣的中心圍繞多個中心的添加系統中的添加模型中的多種多樣的系統中的多種多樣的模型進行了探測。從現有的模型中脫穎而出。從現有的模型中脫離了多種多樣的方法,可以從多種多樣的方法中探索新的方法。
在紙上音頻深擊檢測是否概括上個月出版的是,來自德國慕尼黑的弗勞恩霍夫應用和綜合安全研究所,慕尼黑技術大學和總部位於柏林的研究人員說,“當前的文本到語音算法產生了人類的聲音偽造的偽造,這使得深度效果探測了一項急需的研究領域。”但是,他們說:“儘管研究人員提出了各種深度學習模型,以進行音頻欺騙檢測,但通常不清楚這些架構是成功的原因:在相關工作中,預處理步驟,超參數設置和微調程度並不一致。哪些因素有助於成功,以及哪些是偶然的?”
研究人員在結論中說,他們發現“許多模型的'野外'概括能力可能已經被高估了。我們通過收集自己的音頻深擊數據集並評估其上的十二個不同的模型體系結構來證明這一點。績效下降。績效下降。比以前想像的要比在實驗室之外檢測到的深果更難。”
同樣,在6月發表的論文中,更難還是不同?了解音頻深擊檢測的概括,弗勞恩霍夫應用和集成安全研究所的研究人員; Eurecom是法國礦業學院數字科學研究生和研究中心;美國的Pindrop說:“使用ASVSPOOF數據庫進行的實驗表明,硬度成分實際上可以忽略不計,其性能差距主要歸因於差異成分”,並且“這直接構成了對現實世界深層檢測的含義,突顯了當前的模型能力,這可能會促進模型的趨勢,從而有效地攻擊了趨勢。
在他們的電氣系統論文雜誌,,,,使用光譜時顳分析和深度學習有效的DeepFake音頻檢測作者承認,“隨著DeepFake技術的發展,尤其是在音頻領域,必須需要強大的檢測機制來維持數字安全性和完整性。”但是,他們說,“通過將先進的光譜 - 時空分析與混合深度學習模型整合在一起”,他們能夠開發“一個強大的框架(能夠以高精度來區分真正的和操縱音頻”。”
在他們的論文中音頻 - 深色檢測:對抗性攻擊和對策,本週出版具有應用的專家系統,卡塔爾多哈的哈馬德·本·哈利法大學科學與工程學院的作者Mouna Rabhi;新加坡理工學院Spiridon Bakiras;沙特阿拉伯阿卜杜拉國王科學技術大學羅伯托·迪·彼得羅(Roberto Di Pietro)寫道:“音頻一直是生物特徵驗證的有力資源:因此,已經提出了許多基於AI的Audio Audio認證系統(分類器)。這些分類器在確定合法的人類安全方面,並沒有有效地確定這些分類器,以確定最佳的知識,以確定其最佳的範圍,並在其範圍內確定了良好的知識,並且是批准的,並且是批准的,並且是批准的。 AI生成的DeepFake音頻。”
研究小組得出的結論是,“基於GAN的對抗攻擊在DNN訓練的模型中非常有效,並且可能對DNN探測器構成嚴重威脅。但是,在音頻數據檢測的背景下尚未解決此類攻擊。”
研究人員說,他們“試圖通過證明最先進的音頻 - 深層檢測器可以輕鬆繞過這一空白,如果在文獻中普遍認為,對手對探測器的建築和用於培訓的數據集具有知識。”
研究人員進一步表示,他們能夠“證明最先進的音頻深層分類器容易受到對抗攻擊的影響”。
在上週在希臘科斯的Interspeech 2024的一份演講中,研究人員介紹了他們的論文音頻深擊系統的來源跟踪。該團隊說:“雖然目前對反企業系統的研究主要側重於評估給定的音頻樣品是假的還是真實的,但人們一直在識別創建音頻深擊的特定技術的關注。算法在音頻深層發電中常用,算法產生的算法,例如文本到語音和語音轉換,包括獨特的階段,包括輸入的處理,包括輸入的處理,並進行了宣傳,並進行了宣傳。
研究人員介紹了“旨在對各種欺騙屬性進行分類的系統,捕獲整個一代管道中各個模塊的獨特特徵”,並評估了他們的“在兩個數據集上的系統:ASVSPOOF 2019邏輯訪問和多語言音頻抗spoofing DataSet。從兩個實驗中識別該系統的結果。
巴西校園校園校園的聯邦大學的研究人員也提出了有前途的研究。他們在論文中指出通過卷積神經網絡檢測語音音頻深擊檢測在2024年IEEE不斷發展和自適應智能係統的國際國際會議上發表,“進行了從幾個語音數據集收集的語音樣本信號進行的監督實驗,以找到最佳的捲積神經網絡(CNN)拓撲結構,這些拓撲是在準確的語言方面進行檢測,無論是語言而言。”
報導說:“發現的最佳精度得分是:用於數據集的99%,ASV的94%,波擊的94%。與所有數據集一起訓練模型,並使用單個數據集進行測試,為基本的基本訓練精度為98%,ASV為96%,為96%的Wavefake。”
研究人員說:“這些結果與最先進的結果兼容,證明了模型的可行性。”
在他們的論文中AASIST3:使用SSL功能和其他正則化的KAN-ENHANCANCANCANGANCANG AASIST語音DeepFake檢測, presented at the recent ASVspoof 2024, researchers said that while “the advancement of deep learning algorithms has enabled the generation of synthetic audio through text-to-speech and voice conversion systems, exposing ASV systems to potential vulnerabilities,” using a novel architecture named AASIST3, an enhanced version of the AASIST framework, with Kolmogorov-Arnold networks, additional layers, encoders, and預先強調的技術,他們能夠實現“性能的兩倍提高……顯著增強了合成聲音的檢測並提高了ASV安全性。”
儘管如此,問題仍然是一個挑戰。詹妮弗·威廉姆斯(Jennifer Williams)是南安普敦大學(University of Southampton)的講師,專門從事AI AI安全性,他今年早些時候對Poynter Institute表示,“檢測到音頻深擊是一個活躍的研究領域,這意味著目前將其視為未解決的問題。”