这里是 DarkBERT，“ChatGPT”，他了解暗网的一切

继聊天GPT、Bard、Claude 或 Microsoft Bing 的 Prometheus，近几个月出现了大量聊天机器人。大多数公司确实希望顺应人工智能的浪潮，无论是开发自己的语言模型还是利用现有的语言模型。

在这波多样化的聊天机器人中，我们发现暗伯特。该聊天机器人由韩国研究人员团队开发，旨在加快暗网搜索速度。 Arxiv 上的一份报告详细记录了这一创作，“未来研究的宝贵资源”，估计该项目背后的科学家。详细来说，聊天机器人基于 Meta 的 RoBERTa 架构，本身基于BERT（来自 Transformers 的双向编码器表示）。该语言模型是 Google 广泛选择的面向深度学习的模型的一部分。

另请阅读：比 ChatGPT 更好吗？ Meta 提出了一种接近人类智能的人工智能

数据完全来自暗网

为了开发聊天机器人，研究人员在语言模型中填充了完全来自暗网的数据集。与模型不同的是GPT-4或 PaLM 2，它没有接受可用数据的训练清晰的网络，在搜索引擎上索引的网络版本。

根据研究人员的报告，来自网络黑暗面的 5.83 GB 原始文本被用来训练 DarkBERT。为了收集数据（AI 模型工作原理的核心），研究人员通过 Tor（匿名所有连接的去中心化网络）搜索了黑暗网站。这对于进入暗网至关重要。随后，科学家们收集了数百万条信息，其中包括用某些犯罪群体特有的方言书写的文字。例如，算法“读取”来自黑市的文档，包括被盗的数据库和论坛上交换的消息。

不出所料，设计师被迫对收集到的数据进行排序“解决与敏感信息相关的文本中潜在的道德问题”。该数据库已清除了危及互联网用户隐私的内容，例如敏感的个人数据。在暗网上，我们发现大量文件包含被盗的标识符或密码，甚至与欺诈、诈骗或毒品生产有关的信息。同样，专家们也面临着大量应受刑事谴责的内容，尤其是儿童色情内容。为了防止这些数据淹没模型，研究人员将自己限制在文本收集上，不包括图像和视频：