这艾伦AI研究所(AI2)已经发布了一个名为“ Dolma”的广泛开放数据集,这标志着朝着开发一个名为Olmo的开放语言模型的重要一步。
该研究所的意图符合透明度和可及性的原则,旨在提供人工智能具有可理解的语言模型和可访问数据集的研究社区。

AI2的Dolma
这奥尔莫项目,旨在促进大型自然语言处理(NLP)系统的发展。该项目的一个关键方面是使用开放透明的方法创建Olmo,并在释放相关文物和文档详细介绍了该项目的进展方面支持了Olmo。
AI2最近在该计划中发行了第一个数据伪像Dolma,这意味着显着的大步。多尔玛(Dolma)涵盖了3万亿个代币的巨大汇编,这些代币来自折衷的内容,包括网络资源,学术出版物,代码,书籍和百科全书材料。
值得注意的是,它是迄今为止最重要的开放数据集。 AI2的一篇综合博客文章中概述了指导Dolma创建的最重要考虑因素。这些考虑强调了核心原则,例如开放性,代表性,规模,可重复性和降低风险。
AI2创建了Dolma
DOLMA数据集的创建涉及一个细致而全面的过程,该过程将原始数据从各种来源转变为适合于语言模型预处理的连贯和清洁的数据集。
此过程由数据处理的两个主要类别组成:特定于源和源 - 源源不断的操作。第一个是特定于源的操作。创建DOLMA的每个数据源都需要独特的处理来解决其特定特征。
例如,根据其软件许可过滤文件是代码源独有的操作。该过程旨在在保留其完整性的同时完善和构造数据。
第二类是源 - 不平衡操作。这些应用于多个数据源,旨在标准化数据集。例如,删除个人识别信息(PII)或对评估集进行去持续的是常见的源态度操作。
这些步骤确保了数据集遵循一致的结构,并符合道德和隐私标准。创建Dolma必须结合两种类型的操作,并以管道方式执行多个转换。
该过程中涉及的一些细节包括从通用爬网处理Web数据,其中Web数据经过了几轮重复数据删除以维护数据完整性。
此外,还针对Web文本量身定制的特定语言过滤器来增强文本内容质量。代码数据还进行了专门的清洁过程。由于代码的独特性质,因此应用了代码源独特的某些预处理步骤来增强其可用性。
“多尔玛(Dolma)在两个关键方面将自己与其他数据集区分开来。首先,它明显大于其他开放数据集。其次,它是根据AI2的Impact许可发布的,该许可旨在平衡易于访问权限,并在分发大型数据集时易于访问,“博客文章阅读。
