继聊天GPT、Bard、Claude 或 Microsoft Bing 的 Prometheus,近几个月出现了大量聊天机器人。大多数公司确实希望顺应人工智能的浪潮,无论是开发自己的语言模型还是利用现有的语言模型。
在这波多样化的聊天机器人中,我们发现暗伯特。该聊天机器人由韩国研究人员团队开发,旨在加快暗网搜索速度。 Arxiv 上的一份报告详细记录了这一创作,“未来研究的宝贵资源”,估计该项目背后的科学家。详细来说,聊天机器人基于 Meta 的 RoBERTa 架构,本身基于BERT(来自 Transformers 的双向编码器表示)。该语言模型是 Google 广泛选择的面向深度学习的模型的一部分。
数据完全来自暗网
为了开发聊天机器人,研究人员在语言模型中填充了完全来自暗网的数据集。与模型不同的是GPT-4或 PaLM 2,它没有接受可用数据的训练清晰的网络,在搜索引擎上索引的网络版本。
根据研究人员的报告,来自网络黑暗面的 5.83 GB 原始文本被用来训练 DarkBERT。为了收集数据(AI 模型工作原理的核心),研究人员通过 Tor(匿名所有连接的去中心化网络)搜索了黑暗网站。这对于进入暗网至关重要。随后,科学家们收集了数百万条信息,其中包括用某些犯罪群体特有的方言书写的文字。例如,算法“读取”来自黑市的文档,包括被盗的数据库和论坛上交换的消息。
不出所料,设计师被迫对收集到的数据进行排序“解决与敏感信息相关的文本中潜在的道德问题”。该数据库已清除了危及互联网用户隐私的内容,例如敏感的个人数据。在暗网上,我们发现大量文件包含被盗的标识符或密码,甚至与欺诈、诈骗或毒品生产有关的信息。同样,专家们也面临着大量应受刑事谴责的内容,尤其是儿童色情内容。为了防止这些数据淹没模型,研究人员将自己限制在文本收集上,不包括图像和视频:
“我们的自动网络爬虫会删除所有非文本媒体,只存储原始文本数据。因此,我们确保我们不会接触到可能非法的敏感媒体”。
与大多数语言模型一样,DarkBERT 本质上依赖于英文数据,大多数在暗网上。事实上,专家估计 90% 的可用文本都是用英语写的。
DarkBERT 有何用途?
正如韩国科学技术院解释的那样,“暗网特有的语言模型可以提供有价值的见解”,因为进行的研究“一般需要对域进行文本分析”。考虑到这一点,该模型应该帮助当局、调查人员和研究人员更好地了解暗网如何运作,被各种犯罪分子大量使用。
最重要的是,DarkBERT 必须帮助计算机安全研究人员。得益于收集到的海量信息,人工智能能够检测到“在暗网上聊天、勒索软件或泄密”。将新的被盗数据库放到网上或出现新的数据库勒索软件可以通过语言模型来记录。此外,研究人员的目标是逐步改进人工智能,使其能够定期探测暗网以寻找新的威胁。
Opera One - AI 驱动的网络浏览器
作者:歌剧
来源 : Arxiv