繼聊天GPT、Bard、Claude 或 Microsoft Bing 的 Prometheus,近幾個月出現了大量聊天機器人。大多數公司確實希望順應人工智慧的浪潮,無論是開發自己的語言模型還是利用現有的語言模型。
在這波多樣化的聊天機器人中,我們發現暗伯特。該聊天機器人由韓國研究人員團隊開發,旨在加快暗網搜尋速度。 Arxiv 上的一份報告詳細記錄了這項創作,“未來研究的寶貴資源”,估計該項目背後的科學家。詳細來說,聊天機器人是基於 Meta 的 RoBERTa 架構,本身是基於BERT(來自 Transformers 的雙向編碼器表示)。該語言模型是 Google 廣泛選擇的面向深度學習的模型的一部分。
數據完全來自暗網
為了開發聊天機器人,研究人員在語言模型中填充了完全來自暗網的資料集。與模型不同的是GPT-4或 PaLM 2,它沒有接受可用資料的訓練清晰的網路,在搜尋引擎上索引的網路版本。
根據研究人員的報告,來自網路黑暗面的 5.83 GB 原始文字被用來訓練 DarkBERT。為了收集資料(AI 模型工作原理的核心),研究人員透過 Tor(匿名所有連接的去中心化網路)搜尋了黑暗網站。這對於訪問暗網至關重要。隨後,科學家們收集了數百萬條訊息,其中包括用某些犯罪群體特有的方言書寫的文字。例如,演算法「讀取」來自黑市的文檔,包括被盜的資料庫和論壇上交換的訊息。
不出所料,設計師被迫對收集到的數據進行排序“解決與敏感資訊相關的文本中潛在的道德問題”。該資料庫已清除了危及網路使用者隱私的內容,例如敏感的個人資料。在暗網上,我們發現大量文件包含被盜的識別碼或密碼,甚至與詐欺、詐騙或毒品生產有關的資訊。同樣,專家也面臨大量應受刑事譴責的內容,尤其是兒童色情內容。為了防止這些數據淹沒模型,研究人員將自己限制在文字收集上,不包括圖像和影片:
「我們的自動網路爬蟲會刪除所有非文字媒體,只儲存原始文字資料。因此,我們確保我們不會接觸到可能非法的敏感媒體”。
與大多數語言模型一樣,DarkBERT 本質上依賴於英文數據,大多數在暗網上。事實上,專家估計 90% 的可用文字都是用英文寫的。
DarkBERT 有何用途?
正如韓國科學技術院解釋的那樣,“暗網特有的語言模型可以提供有價值的見解”,因為進行的研究“一般需要對域進行文本分析”。考慮到這一點,該模型應該可以幫助當局、調查人員和研究人員更好地了解暗網的運作方式,被各種犯罪者大量使用。
最重要的是,DarkBERT 必須幫助電腦安全研究人員。由於收集到的大量信息,人工智慧能夠檢測到「在暗網上聊天、勒索軟體或洩密」。發布新的被盜資料庫或出現新的資料庫勒索軟體可以透過語言模型來記錄。此外,研究人員的目標是逐步改善人工智慧,使其能夠定期探測暗網以尋找新的威脅。
Opera One - AI 驅動的網頁瀏覽器
作者:歌劇
來源 : Arxiv