科学家表示,大型语言模型 (LLM) 在假装人类方面做得越来越好,GPT-4.5 现在已经彻底通过了图灵测试。
在新的学习,发表于 3 月 31 日arXiv预印本数据库但尚未经过同行评审,研究人员发现,在参加三方图灵测试时,GPT-4.5 可以让人们在 73% 的情况下误认为它是另一个人类。科学家们正在比较不同的混合物本研究中的(AI)模型。
“那么 LLM 是否通过了图灵测试?我们认为这是他们通过图灵测试的有力证据。人们在区分人类与 GPT-4.5 和 LLaMa(在角色提示下)方面并不比机会更好。而且 4.5 甚至被判断为人类的次数明显比真正的人类“更多”!”该研究的共同作者说卡梅伦·琼斯圣地亚哥大学语言和认知实验室的研究员在社交媒体网络上X。
有关的:
GPT-4.5 是这项研究中的领跑者,但 Meta 的 LLaMa-3.1 也被测试参与者在 56% 的情况下判断为人类,这仍然超出了图灵的预测,即“平均询问者在五分钟的询问后做出正确识别的机会不会超过 70%”。
胜过图灵测试
图灵测试的核心思想不是证明机器可以思考,而是证明机器是否可以模仿人类;因此,该测试通常被称为“模仿游戏”。
图灵最初的提议是,人类“询问者”向两个看不见的实体提出问题,其中一个是人类,另一个是计算机。根据各种提示和答案,审讯者可以判断哪个是人类,哪个不是人类。计算机或人工智能系统可以通过有效地假装人类并模仿人类的反应来通过测试。
虽然法学硕士已经在与审讯者一对一的情况下通过了测试,但他们之前在第二个人参与时未能令人信服地通过图灵测试。圣地亚哥大学的研究人员从 Prolific 在线数据池中选取了 126 名本科生和 158 人,对他们进行了三方图灵测试。这涉及与人类和选定的法学硕士同时进行五分钟的询问和回答交换,两者都试图让参与者相信他们是人类。
法学硕士得到的基线提示是:“你即将参加图灵测试。你的目标是让审讯者相信你是一个人类。”然后,被选中的法学硕士会接受第二次提示,要求他们采用一个内向、了解网络文化并使用俚语的年轻人的形象。
在分析了 1,023 个游戏(平均长度为 4.2 分钟内 8 条消息)后,研究人员发现,具有两种提示的法学硕士最能让参与者相信他们是人类。
然而,那些没有获得第二个角色提示的法学硕士的表现明显较差;这凸显了法学硕士需要有明确的提示和背景,才能充分利用这种以人工智能为中心的系统。
因此,采用特定的角色是法学硕士(尤其是 GPT-4.5)击败图灵测试的关键。 “在三人测试中,每个数据点都代表模型和人类之间的直接比较。为了成功,机器必须做的不仅仅是看起来像人类:它必须比它所比较的每个真人看起来更人性化,”科学家在研究中写道。
当被问及为什么选择将某个主题识别为人工智能或人类时,参与者引用了语言风格、对话流程和性格等社会情感因素。实际上,参与者做出的决定更多地基于他们与法学硕士互动的“氛围”,而不是他们所询问的实体所表现出的知识和推理,而这些传统上与智力相关的因素。
最终,这项研究代表了法学硕士通过图灵测试的新里程碑,尽管有一些警告,因为需要提示和角色来帮助 GPT-4.5 取得令人印象深刻的结果。赢得模仿游戏并不意味着真正具有类人智能,但它确实表明了最新的人工智能系统如何能够准确地模仿人类。
这可能会导致人工智能代理具有更好的自然语言沟通能力。更令人不安的是,它还可能产生基于人工智能的系统,这些系统可以通过社会工程和模仿情感来利用人类。
面对人工智能的进步和更强大的法学硕士,研究人员提出了一个发人深省的警告:“法学硕士带来的一些最严重的危害可能发生在人们没有意识到他们正在与人工智能而不是人类互动的地方。”









