这是维基解密有史以来发布的最大数据量:170 万份文档,或 7 亿个单词。吹哨人网站刚刚在网上发布了“基辛格电报”,即1973年至1976年美国的外交文件。这本身并不是一个泄密事件,因为这些文件早已被政府部门解密。然而,新鲜的是,现在公众可以通过全文搜索引擎(称为“Plus D”)访问它们,并配备了一系列过滤器(关键字、作者、分类级别等)。
维基解密团队开展了大量工作,因为最初所有这些文档仅以扫描的 PDF 格式存在。因此,有必要恢复所有这些数字文档,并通过字符识别算法运行它们,将它们制作成文本文件,添加元数据并将所有内容集成到数据库中。这需要几个月的工作。
Plus D搜索引擎还包括2010年披露的外交电报,主要关注伊拉克战争。这使得网上总共有近200万份外交文件。“这些都是隐藏的宝藏,一般公众很难接触到,维基解密、《福布斯》杂志发言人克里斯汀·赫拉夫森 (Kristinn Hrafnsson) 解释道。复杂性是隐藏事物的一种方式。 “这就是为什么我们决定将所有这些文档与我们现有的电报数据库合并并创建一个易于使用的全球数据库。”
资料来源: