
科学家们说,大型语言模型(LLM)越来越擅长假装是人类,而GPT-4.5现在通过图灵测试进行了巨大的态度。
在新的学习,3月31日发布给arxivPreprint数据库但尚未审查,研究人员发现,参加三方图灵测试时,GPT-4.5可能会欺骗人们认为这是另一个人的73%。科学家正在比较不同的混合物(AI)本研究中的模型。
虽然另一个科学家团队以前报道了,这是LLM首次通过计算机科学家艾伦·图灵(Alan Turing)的“模仿游戏”的更具挑战性和原始配置。
“那么LLM会通过图灵测试吗?我们认为这是他们所做的很有力的证据。人们没有比将人类与GPT-4.5和LLAMA区分开的机会更好(带有角色提示)。而且4.5甚至被认为是人类的 *经常 *比实际人类更多 *!”该研究的合着者说卡梅隆·琼斯,圣地亚哥大学语言与认知实验室的研究员,在社交媒体网络上x。
有关的:
GPT-4.5是这项研究的领先者,但是Meta的Llama-3.1也被测试参与者认为是人类的56%,这仍然击败了Turing的预测:“经过五分钟的询问,平均询问者将不会超过70%的机会进行正确的识别。”
胜过图灵测试
图灵测试的核心思想不是证明机器可以思考,而更多地是关于它们是否可以模仿人类。因此,为什么经常将测试称为“模仿游戏”。
图灵的最初提议是,人类的“审讯者”会向两个看不见的实体提出问题,其中一个是人类,一台计算机。从各种提示和答案中,审讯者将决定哪个是人类,哪些不是人类。计算机或AI系统可以通过有效假装是人类并模仿类似人类的反应来通过测试。
尽管LLM在一对一的情况下通过审讯者通过了测试,但他们以前在第二次涉及第二个人时并没有令人信服地通过图灵测试。来自圣地亚哥大学的研究人员接受了126名本科生和158人的在线数据库多产,并将他们进行了三方的图灵测试。这涉及与人和选定的LLM同时进行五分钟的查询和答案,这两者都试图说服他们是人类的参与者。
LLM的基准提示为:“您即将参加图灵测试。您的目标是说服审讯者您是人类。”然后,为选定的LLM提供了第二个提示,以采用内向,对互联网文化知识并使用语的年轻人的角色。
在分析了1,023场比赛中,中位数为4.2分钟的八个消息,研究人员发现,带有两个提示的LLM可以最好地说服参与者他们是人类。
但是,那些没有给出第二个角色提示的LLM的表现明显不佳。这强调了LLM需要具有清晰的提示和上下文,以充分利用以AI为中心的系统。
因此,采用特定角色是LLM的关键,尤其是GPT-4.5,击败了图灵测试。科学家在研究中写道:“在测试的三人配方中,每个数据点都代表模型和人之间的直接比较。要成功,机器必须做的比显得合理的人数要多:它必须比与每个真实的人相比的人类更重要。”
当被问及为什么他们选择将主题识别为AI或人时,参与者引用了语言风格,对话流和社会情感因素,例如人格。实际上,参与者做出的决定更多地基于他们与LLM的互动的“氛围”,而不是他们正在审问的实体所显示的知识和推理,这是传统上与智能相关的因素。
最终,这项研究代表了LLM在通过Turing测试中的一个新里程碑,尽管有警告,但需要提示和角色,以帮助GPT-4.5取得令人印象深刻的结果。赢得模仿游戏并不是真正类似人类的智力的迹象,但它确实显示了最新的AI系统如何准确模仿人类。
这可能会导致AI代理具有更好的自然语言交流。更令人不安的是,它还可以产生基于AI的系统,这些系统可以针对通过社会工程和模仿情绪来利用人类。
面对AI的进步和更强大的LLM,研究人员提出了一个令人醒目的警告:“ LLMS受到的一些最严重的伤害可能会发生人们与人工智能而不是人类互动的情况。”