Google的Deepmind已经揭示了Safe,这是一种基于AI的系统,旨在核算大型语言模型(LLMS)等输出,例如ChatGpt。
这个新系统的开发旨在解决LLM生成的内容经常与之抗衡的持续准确性问题。
Google DeepMind的搜索效果评估员(SAFE)
LLM因其产生文本,回答问题和解决数学问题的能力而闻名,长期以来因缺乏精度而受到批评。
研究团队称,对LLM生成的内容的验证通常需要手动审查,并大大降低其可靠性和效用。
安全的,较短的搜索事实评估者,通过利用LLM来审查响应并通过搜索引擎结果进行验证来进行审查和交叉引用,从而进行事实核对。
该方法反映了使用搜索引擎来证实信息的人类用户采用的事实检查过程。
为了评估其有效性,深态团队对严格的测试进行了安全的测试,并检查了大约16,000个从多个LLM中得出的断言。对人类事实检查者的比较分析表明,与人类评估的安全相符72%。
值得注意的是,当安全和人类评估人员之间出现差异时,在76%的案件中出现了更准确的法官。
DeepMind使该安全代码在Github上公开访问,邀请其在AI社区内更广泛地利用其事实检查功能。
研究人员写道:“ Safe利用LLM将长期响应分解为一组个人事实,并使用包括将搜索查询发送到Google搜索并确定搜索结果支持的多个步骤推理过程来评估每个事实的准确性。”
雇用LLM安全
DeepMind的过程涉及采用LLM,例如GPT-4,将长格式的响应解构为个人事实。然后将这些事实经过多步评估过程,其中将搜索查询派发到Google搜索中,以根据搜索结果确定事实准确性。
此外,DeepMind提倡将F1得分作为长形成事实评估的总指标。该度量平衡的精度,通过反应中支持事实的百分比,召回相对于代表所需响应长度的超参数的百分比。
经验测试展示了LLM代理在事实检查任务中实现超人绩效的潜力。在一个包含约16,000个个人事实的数据集中,Safe与人类注释者的一致性为72%。
此外,与人类评估者相比,在100个有争议的情况下,安全的准确率为76%。
研究小组还指出,Safe提供了人类注释者的具有成本效益的替代方案,具有超过20倍的效率增长,同时保持了稳健的性能。
此外,在13个语言模型中进行基准测试也强调了模型大小和事实性能之间的相关性,较大的模型通常超过其对应物。
DeepMind团队的发现是进一步详细在预印服务器ARXIV中。
安全的守则也是可用在开源github站点上。