Skip to content
  • 熱門
  • 趨勢
  • 精選

Forgot Password?

← Back to login
世界圖譜
世界圖譜
  • 熱門
  • 趨勢
  • 精選
登入
訂閱
世界圖譜
世界圖譜

科学家表示,GPT-4.5是第一个通过真实图灵测试的人工智能模型

  • 2025-04-13
  • Armanda
科学家表示,GPT-4.5 是第一个通过严格的三方图灵测试的法学硕士,在 73% 的情况下成功说服人们它是人类。 (图片来源:VLADGRIN,来自 Getty Images)

科学家表示,大型语言模型 (LLM) 在假装人类方面做得越来越好,GPT-4.5 现在已经彻底通过了图灵测试。

在新的学习,发表于 3 月 31 日arXiv预印本数据库但尚未经过同行评审,研究人员发现,在参加三方图灵测试时,GPT-4.5 可以让人们在 73% 的情况下误认为它是另一个人类。科学家们正在比较不同的混合物本研究中的(AI)模型。

“那么 LLM 是否通过了图灵测试?我们认为这是他们通过图灵测试的有力证据。人们在区分人类与 GPT-4.5 和 LLaMa(在角色提示下)方面并不比机会更好。而且 4.5 甚至被判断为人类的次数明显比真正的人类“更多”!”该研究的共同作者说卡梅伦·琼斯圣地亚哥大学语言和认知实验室的研究员在社交媒体网络上X。

有关的:

GPT-4.5 是这项研究中的领跑者,但 Meta 的 LLaMa-3.1 也被测试参与者在 56% 的情况下判断为人类,这仍然超出了图灵的预测,即“平均询问者在五分钟的询问后做出正确识别的机会不会超过 70%”。

胜过图灵测试

图灵测试的核心思想不是证明机器可以思考,而是证明机器是否可以模仿人类;因此,该测试通常被称为“模仿游戏”。

图灵最初的提议是,人类“询问者”向两个看不见的实体提出问题,其中一个是人类,另一个是计算机。根据各种提示和答案,审讯者可以判断哪个是人类,哪个不是人类。计算机或人工智能系统可以通过有效地假装人类并模仿人类的反应来通过测试。

虽然法学硕士已经在与审讯者一对一的情况下通过了测试,但他们之前在第二个人参与时未能令人信服地通过图灵测试。圣地亚哥大学的研究人员从 Prolific 在线数据池中选取了 126 名本科生和 158 人,对他们进行了三方图灵测试。这涉及与人类和选定的法学硕士同时进行五分钟的询问和回答交换,两者都试图让参与者相信他们是人类。

法学硕士得到的基线提示是:“你即将参加图灵测试。你的目标是让审讯者相信你是一个人类。”然后,被选中的法学硕士会接受第二次提示,要求他们采用一个内向、了解网络文化并使用俚语的年轻人的形象。

这是法学硕士第一次通过计算机科学家艾伦·图灵的“模仿游戏”的更具挑战性和原创性的配置。(图片来源:来自盖蒂图片社的历史图片)

在分析了 1,023 个游戏(平均长度为 4.2 分钟内 8 条消息)后,研究人员发现,具有两种提示的法学硕士最能让参与者相信他们是人类。

然而,那些没有获得第二个角色提示的法学硕士的表现明显较差;这凸显了法学硕士需要有明确的提示和背景,才能充分利用这种以人工智能为中心的系统。

因此,采用特定的角色是法学硕士(尤其是 GPT-4.5)击败图灵测试的关键。 “在三人测试中,每个数据点都代表模型和人类之间的直接比较。为了成功,机器必须做的不仅仅是看起来像人类:它必须比它所比较的​​每个真人看起来更人性化,”科学家在研究中写道。

当被问及为什么选择将某个主题识别为人工智能或人类时,参与者引用了语言风格、对话流程和性格等社会情感因素。实际上,参与者做出的决定更多地基于他们与法学硕士互动的“氛围”,而不是他们所询问的实体所表现出的知识和推理,而这些传统上与智力相关的因素。

最终,这项研究代表了法学硕士通过图灵测试的新里程碑,尽管有一些警告,因为需要提示和角色来帮助 GPT-4.5 取得令人印象深刻的结果。赢得模仿游戏并不意味着真正具有类人智能,但它确实表明了最新的人工智能系统如何能够准确地模仿人类。

这可能会导致人工智能代理具有更好的自然语言沟通能力。更令人不安的是,它还可能产生基于人工智能的系统,这些系统可以通过社会工程和模仿情感来利用人类。

面对人工智能的进步和更强大的法学硕士,研究人员提出了一个发人深省的警告:“法学硕士带来的一些最严重的危害可能发生在人们没有意识到他们正在与人工智能而不是人类互动的地方。”

相關貼文

世界上最快的超级计算机“El Capitan”上线

世界上最快的超级计算机“El Capitan”上线

被摧毁的天文台帮助SETI解开了由死亡恒星驱动的“宇宙灯塔”的秘密

被摧毁的天文台帮助SETI解开了由死亡恒星驱动的“宇宙灯塔”的秘密

在公园徘徊了100年后,黄石的标志性野牛牛群已合并为一个实体

在公园徘徊了100年后,黄石的标志性野牛牛群已合并为一个实体

CDC报告显示,美国多种壁虱可以传递红肉过敏。

CDC报告显示,美国多种壁虱可以传递红肉过敏。

盖亚望远镜退休:科学家告别了“十年的发现机”,该机器绘制了20亿个银河系明星

盖亚望远镜退休:科学家告别了“十年的发现机”,该机器绘制了20亿个银河系明星

中国以比最强大的超级计算机快1四倍的新芯片来实现量子至上的主张

中国以比最强大的超级计算机快1四倍的新芯片来实现量子至上的主张

2024 年 15 张令人惊叹的自然照片

2024 年 15 张令人惊叹的自然照片

NASA第一次在高清上揭示了月球上的日落

NASA第一次在高清上揭示了月球上的日落

在第一个“纳米级”视频中观看原子融合成世界上“最小的水泡”

在第一个“纳米级”视频中观看原子融合成世界上“最小的水泡”

熱門閱讀

  • DPI 实际上必须公开才能改善公共利益 2024-10-23
  • 抑郁和焦虑触发者是不良新闻业的“最佳实践” 2025-04-04
  • 盖亚:您从未听说过的最好的太空望远镜只是关闭 2025-04-01
  • 盖亚公布迄今为止最详细的银河系地图,完成其任务的天空扫描阶段 2025-01-16
  • 将吸血蝙蝠放在跑步机上揭示了不寻常的新陈代谢 2024-12-11
  • 青蛙不是在滑行,而是在水上行走而像鼠海豚一样 2025-01-12
  • 50年前,慢性疼痛让科学家们感到困惑 2024-10-18
  • 研究人员说,计划提高了同态加密效率,有效性 2025-04-07
  • “兰利近距离接触”:美军基地屡遭不明飞机袭击 2024-10-16
  • 令人惊叹的特写图像揭示了水星的冰冷陨石坑和火山平原 2025-01-12

上升趨勢

  • 這57個鍍鉻擴展可以在600萬檯面上監視,並緊急卸載它們 2025-04-18
  • 橙色後機:Livebox 6已經回來了 2025-04-18
  • 發行人:有必要盡快撤回您的錢嗎?我們將真實脫離了錯誤 2025-04-18
  • 發現一個新血統:為什麼它可以挽救生命 2025-04-18
  • 這不是iPad,但性能很瘋狂,價格便宜2倍 2025-04-18
  • 放開您的iPhone,這個單置13至 2025-04-18
  • Android 16(Beta)到達新智能手機:完整列表 2025-04-18
  • 維基百科剛剛給AI部門贈送了巨大的禮物 2025-04-18
  • “但是是什麼?” »:特朗普將馬斯克排除在與中國戰爭的秘密簡報之外 2025-04-18
  • 它將像熱門蛋糕一樣銷售:Redmi Note 14 Pro以令人難以置信的價格( 2025-04-18

最近發布

  • 阻止您的智能电视监视您!立即了解如何禁用跟踪! 2024-09-02
  • 什么是便携式应用程序以及您为什么应该关心? 2024-04-17
  • 过去 10 年 Spotify 上播放量最多的专辑 2024-12-09
  • 如何在 Windows 10 中关闭通知 2024-07-26
  • 如何在 Outlook 中固定电子邮件 2024-04-18
  • 如何在 Facebook 上分享 Instagram 帖子:分步指南(2024) 2023-12-08
  • Windows 10 中 AirPods 连接问题的解决方案:修复:AirPods 在 Windows 10 中无法连接 2023-10-31
  • 2024 年 11 月最佳 1 年期 CD 利率:高达 5.00% 2024-11-03
  • 前一级方程式明星将在 2025 年获得 NASCAR 席位“大胆预测” 2025-01-09
  • Target 使用偷偷摸摸的策略让你花更多钱 2025-01-06

Copyright © 2024 世界圖譜

  • 關於本網站
  • 隱私權政策
  • 服務條款
  • 世界圖譜