Skip to content
  • 熱門
  • 趨勢
  • 精選

Forgot Password?

← Back to login
世界圖譜
世界圖譜
  • 熱門
  • 趨勢
  • 精選
登入
訂閱
世界圖譜
世界圖譜

随着人工智能的进步,通用人工智能的含义仍然模糊

  • 2025-03-11
  • Noble

当中国人工智能初创公司 DeepSeek 一月份崭露头角时,它引发了人们对其高效且具有成本效益的生成人工智能方法的激烈讨论。但与美国竞争对手一样,DeepSeek 的主要目标不仅仅是提高效率:该公司的目标是创造第一个真正的通用人工智能 (AGI)。

多年来,人工智能开发者——从小型初创公司到大型科技公司——一直在朝着这个难以捉摸的终点竞相前进。他们表示,通用人工智能将标志着一个关键的转折点,使计算机系统能够取代人类工人,使人工智能比人类的专业知识更值得信赖,并将人工智能定位为社会进步的终极工具。

然而,在人工智能竞赛多年后,通用人工智能仍然是一个定义不明确且有争议的概念。一些计算机科学家和公司将其视为人工智能改变社会潜力的门槛。技术倡导者认为,一旦我们拥有超级智能计算机,日常生活就会从根本上改变,影响工作、治理和科学发现的步伐。

但许多专家对我们距离人工智能驱动的乌托邦还有多远以及通用人工智能的实用性持怀疑态度。对于 AGI 的含义,人们的共识有限,也没有明确的衡量方法。一些人认为,AGI 的作用只不过是一个营销术语,没有提供关于如何最好地使用人工智能模型或其社会影响的具体指导。

加州大学伯克利分校的计算机科学家本·雷希特 (Ben Recht) 表示,在科技公司追求通用人工智能的过程中,公众的任务是在充满营销炒作、科幻小说和实际科学的环境中前行。 “这变得非常棘手。这就是我们陷入困境的地方。”他说,继续关注即将到来的通用人工智能可能会扰乱我们对现有技术的理解,并掩盖人工智能当前的社会影响。

AGI的定义尚不清楚

“通用人工智能”一词是在 20 世纪中叶创造的。最初,它指的是一台能够执行人类可以执行的任何任务的自主计算机,包括泡一杯咖啡或修理汽车等体力活动。

但随着机器人技术的进步落后于计算的快速进步,人工智能领域的大多数人转向了更狭义的 AGI 定义:最初,这包括能够自主执行人类在计算机上可以执行的任务的人工智能系统,最近,机器能够执行大部分“经济价值“人类可以在计算机上处​​理的任务,例如编码和撰写准确的散文。其他人认为 AGI 应该包含灵活的推理能力和处理许多未指定任务时的自主权。

“问题在于我们不知道自己想要什么,”Advanced Micro Devices 机器学习工程师兼圣达菲研究所计算机科学家 Arseny Moskvichev 说道。 “由于目标定义不明确,因此也没有实现目标的路线图,也没有可靠的方法来识别它。”

为了解决这种不确定性,研究人员一直在开发类似于学生考试的基准测试,以评估系统与实现 AGI 的接近程度。

例如,2019 年,法国计算机科学家、前谷歌工程师 Francois Chollet 发布了通用人工智能抽象推理语料库,或 ARC-AGI。在此测试中,人工智能模型会重复给出一些在网格上以不同图案排列的彩色方块的示例。对于每个示例集,模型被要求生成一个新的网格来完成视觉模式,这项任务旨在评估灵活的推理以及模型在训练之外获取新技能的能力。这个设置类似于 Raven 的渐进矩阵,这是对人类推理的测试。

测试结果是 OpenAI 和其他科技公司用来指导模型开发和评估的一部分。近日,OpenAI即将发布的o3模型取得了巨大的进步ARC-AGI 与之前的 AI 模型进行了比较,这使得一些研究人员将其视为 AGI 的突破。其他人不同意。

“ARC 没有什么是通用的。它是如此具体和奇怪,”Recht 说。

西班牙巴伦西亚理工大学的计算机科学家 José Hernández-Orallo 表示,ARC-AGI 可能只是评估模型识别图像的能力。他说,如果使用文本描述视觉网格,前几代语言模型可以高精度解决类似的问题。这种背景使得 o3 的结果显得不那么新颖。

另外,网格配置的数量有限,并且一些人工智能模型具有大量的计算能力可供使用可以“暴力”他们纠正反应的方法是简单地生成所有可能的答案并选择最适合的答案——有效地将任务简化为多项选择问题,而不是新颖的推理问题。

为了解决每项 ARC-AGI 任务,o3 使用了大量的测试时的计算能力(和金钱)。 Chollet 说,在高效模式下运行,每项任务的成本约为 30 美元。在效率较低的环境中,一项任务的成本约为 3,000 美元。仅仅因为型号能解决问题并不意味着在类似的挑战性任务中常规使用它是实际或可行的。

人工智能测试无法捕捉现实世界的复杂性

引起争议的不仅仅是 ARC-AGI。确定 AI 模型是否算作 AGI 很复杂,因为每一个现有的人工智能能力测试存在缺陷。正如瑞文渐进矩阵和其他智商测试并不是人类智力的不完美衡量标准一样,面临不断的批评斯坦福大学计算机科学家阿米莉亚·哈迪 (Amelia Hardy) 表示,由于 AGI 评估存在偏见,因此也存在偏见。 “真的很难知道我们正在衡量我们关心的[什么]。”

例如,OpenAI 的 o3 发言人林赛·麦卡勒姆 (Lindsay McCallum) 表示,在一系列称为“前沿数学基准”的异常困难问题中,o3 正确回答了超过四分之一的问题。这些问题需要专业数学家几个小时才能解决,根据基准测试的创建者的说法。从表面上看,o3 似乎很成功。但这一成功的部分原因可能是 OpenAI 资助了基准测试的开发并拥有访问测试数据集在开发o3的同时。这种数据污染是评估人工智能模型的一个持续的困难,特别是对于 AGI 来说,泛化和抽象超出训练数据的能力被认为是至关重要的。

人工智能模型似乎在复杂任务上也表现得很好,比如准确回答博士级别的科学问题,而在更基本的方面失败了,比如计算 r 的数量在“草莓”中。这种差异表明这些计算机系统处理查询和理解问题的方式存在根本性的偏差。

然而,埃尔南德斯-奥拉洛说,人工智能开发人员并没有收集和共享可能帮助研究人员更好地判断原因的信息。许多开发人员只为每个基准提供一个准确度值,而不是详细分析模型正确和错误回答了哪些类型的问题。专家表示,如果没有更多细节,就不可能确定模型在哪里遇到困难、为什么会成功,或者是否有任何单一测试结果表明机器智能方面取得了突破。

即使模型出色地通过了特定的、可量化的测试,例如律师资格考试或者医疗委员会加利福尼亚州伯克利非营利性模型评估和威胁研究中心的计算机科学家 David Rein 表示,很难保证这些结果能够在混乱的现实环境中转化为专家级的人类表现。

例如,当被要求撰写法律摘要时,生成式人工智能模型仍然会例行公事地伪造信息。尽管一项关于 GPT-4 的研究表明聊天机器人在诊断患者方面可以超越人类医生更详细的研究发现,类似的人工智能模型的表现比实际医生差得多当面临模拟现实条件的测试时。没有研究或基准结果表明当前的人工智能模型应该是作出重大治理决策超过人类专家。

Rein 表示,OpenAI、DeepSeek 和其他公司报告的结果“并没有告诉我们太多关于现实世界的能力”,尽管它们可以提供合理的信息来比较模型之间的关系。

到目前为止,研究人员主要通过向人工智能模型提供已知答案的离散问题来测试它们。然而,人类并不总是有机会知道摆在他们面前的问题是什么,是否可以解决或在什么时间范围内解决。人们可以识别关键问题,确定任务的优先顺序,最重要的是,知道何时放弃。目前还不清楚机器可以或做。最先进的“自主”代理很难在线订购披萨或杂货。

一般智力并不决定影响

大型语言模型和神经网络近几个月和近几年。 “它们肯定在很多不同方面都很有用,”雷希特说,他指出新模型能够总结和消化数据或生成可用的计算机代码,并且几乎不会出现错误。但像 ARC-AGI 这样衡量一般能力的尝试并不一定能阐明人工智能模型可以用于什么、不可以用于什么。 “我认为它们是否具有人工智能并不重要,”他说。

根据最近的 DeepSeek 新闻,更重要的是每项任务成本的传统指标。实用性取决于工具的质量以及该工具是否足够实惠以进行扩展。智力只是等式的一部分。

AGI 应该成为人工智能开发者的指路明灯。如果实现的话,这意味着社会将迎来一个重大转折点,届时机器将在与人类平等或更高的基础上独立运作。但到目前为止,人工智能已经产生了重大的社会影响,无论是好的还是坏的,对于我们是否正在接近(或已经超越)这个转折点还没有达成共识,Recht、Hernández-Orallo 和 Hardy 说。

例如,科学家正在使用人工智能工具。然而,在世界各地的课堂上,生成式聊天机器人已经扰乱了评估。皮尤研究中心最近的一项调查发现,越来越多的美国青少年正在将任务外包给 ChatGPT。 2023 年的一项研究自然报告称,大学课程中人工智能的帮助不断增加作弊更难被发现。

如果说人工智能一旦达到通用人工智能就会带来变革,那就是只见树木不见森林。

相關貼文

一个人自愿参加抑郁症的脑植入物。听他的故事

一个人自愿参加抑郁症的脑植入物。听他的故事

宇宙普查使矮星系中已知的黑洞数量增加了三倍

宇宙普查使矮星系中已知的黑洞数量增加了三倍

你的大脑可以通过一次嗅觉感知到微妙的气味变化

你的大脑可以通过一次嗅觉感知到微妙的气味变化

《它会飞吗?》播客将事实与科幻小说区分开来

《它会飞吗?》播客将事实与科幻小说区分开来

科学家们追踪了果蝇大脑中所有 5450 万个连接

科学家们追踪了果蝇大脑中所有 5450 万个连接

在东南亚的石灰岩塔中发现了更多新的壁虎

在东南亚的石灰岩塔中发现了更多新的壁虎

微小的浮游植物如何在海洋中长途跋涉向上

微小的浮游植物如何在海洋中长途跋涉向上

技术亿万富翁对AI主导的未来的愿景是有缺陷的,而且很危险

技术亿万富翁对AI主导的未来的愿景是有缺陷的,而且很危险

物理学家刚刚发现了有史以来最罕见的粒子衰变

物理学家刚刚发现了有史以来最罕见的粒子衰变

熱門閱讀

  • 宇宙调查数据显示,银河系是类似星系中的一个异常值 2024-11-29
  • 研究人员报告称,Uber 和 Lyft 无意中将零工工人的 SSN 号码发送给社交媒体公司 2024-11-18
  • 宇航员在长时间的太空任务中眼睛会变弱,引发对火星旅行的担忧 2025-01-24
  • 什么是刺痛操作? (解释的关键方面和策略) 2025-02-26
  • 缩小数字技能差距:现代在线教育如何改变对技术职业的机会 2025-03-25
  • 在金门大桥上安装安全网,自杀的73%下降 2025-03-19
  • 新发现的基因提高光合作用效率和植物生产力 2024-12-04
  • 可扩展的铝表面方法促进了冷却、自清洁和防冰技术的进步 2025-01-15
  • 消除新发现的损耗机制提高了有机太阳能电池的效率和稳定性 2025-01-11
  • 《它会飞吗?》播客将事实与科幻小说区分开来 2024-10-18

上升趨勢

  • Android 16(Beta)到達新智能手機:完整列表 2025-04-18
  • 它以30i/s的速度拍攝8K,135分鐘的自主權:Insta360 X4售罄,並將比賽投入了比賽。 2025-04-18
  • 這款功能強大的大型口袋PC比Mac Mini便宜2倍,是一台Dinguerie😱 2025-04-18
  • “但是是什麼?” »:特朗普將馬斯克排除在與中國戰爭的秘密簡報之外 2025-04-18
  • iPhone增加了生產,三星取出香檳 2025-04-18
  • 放開您的iPhone,這個單置13至 2025-04-18
  • 有了這個項目,MG希望以不到20,000歐元的價格出售電動汽車 2025-04-18
  • 維基百科剛剛給AI部門贈送了巨大的禮物 2025-04-18
  • DeepSeek將在美國取景器中:這是特朗普政府可以宣布的 2025-04-18
  • 發行人:有必要盡快撤回您的錢嗎?我們將真實脫離了錯誤 2025-04-18

最近發布

  • 韦伯望远镜暴露了HH 30的动荡秘密 2025-02-07
  • Ram 展示其新款 2025 款 1500 SSV 执法车 2024-12-03
  • 如果您退休后出售房屋,您的社会保障会发生什么 2025-02-03
  • 在客厅发现的Delacroix绘画前往拍卖 2025-03-04
  • 驾驶执照:这种有争议的变化真的会对所有人施加?这是您需要知道的 2025-03-13
  • Shark Tank 的 PhoneSoap:公司现在在哪里? 2024-12-06
  • 排名:2024 年资金流向前 10 名 ETF 2025-01-08
  • 海洋学家警告沿海城市无法免受海平面上升的影响 2024-04-23
  • 山姆·哈里斯(Sam Harris):AI是否与我们的人类利益保持一致? 2025-04-10
  • 新研究证明自主神经元如何控制消化功能 2024-11-29

Copyright © 2024 世界圖譜

  • 關於本網站
  • 隱私權政策
  • 服務條款
  • 世界圖譜