当中国人工智能初创公司DeepSeek在一月份突然进入现场时,它引起了人们对其有效且具有成本效益的生成AI方法的激烈chat不休。但是,像美国竞争对手一样,DeepSeek的主要目标比效率更模糊:该公司旨在创建第一个真正的人工通用情报或AGI。
多年来,AI开发人员(从小型初创公司到大型科技公司)一直朝这个难以捉摸的终点竞争。他们说,AGI将标志着一个关键的转折点,使计算机系统能够取代人类工人,使AI比人类专业知识更值得信赖,并将人工智能定位为社会发展的最终工具。
然而,在AI种族的几年中,AGI仍然是一个明确且有争议的概念。一些计算机科学家和公司将其视为AI改变社会潜力的门槛。科技拥护者建议,一旦我们拥有超智能计算机,日常生活就可能会改变,影响工作,治理和科学发现的步伐。
但是,许多专家对我们与AI驱动的乌托邦和AGI的实际实用性有多近。关于AGI的含义有限,没有明确的方法来衡量它。有人认为,AGI的功能不仅仅是一个营销术语,没有提供有关如何最好地使用AI模型或其社会影响的具体指导。
加州大学伯克利分校的计算机科学家本·雷希特(Ben Recht)说,在科技公司对AGI的追求中,公众的任务是导航一个充满营销炒作,科幻和实际科学的景观。 “这变得非常棘手。那就是我们卡住的地方。”他说,继续专注于即将到来的AGI主张,可能会使我们对手头技术的理解混淆,并掩盖了AI当前的社会影响。
AGI的定义不清楚
“人工通用情报”一词是在20世纪中叶创造的。最初,它表示一台能够执行人类可能执行任何任务的自动驾驶计算机,包括诸如制作一杯咖啡或修理汽车的体育锻炼。
但是,随着机器人技术的进步落后于计算的快速进步,大多数人AI领域都转移到了AGI的狭窄定义上:最初,这包括可以自主执行人类可以在计算机上可以自主执行任务的AI系统,而最近,能够执行大多数人只能执行大多数“只有”的机器。在经济上有价值人类可以在计算机上处理的任务,例如编码和写作准确的散文。其他人则认为AGI应该涵盖灵活的推理能力和处理许多未指定任务时的自主权。
“问题是我们不知道我们想要什么,” Santa Fe Institute高级微设备和计算机科学家的机器学习工程师Arseny Moskvichev说。 “由于目标的定义很差,因此也没有达到目标的路线图,也没有可靠的方法来识别它。”
为了解决这种不确定性,研究人员一直在开发与学生考试相似的基准测试,以评估系统与AGI的距离。
例如,2019年,法国计算机科学家和前Google工程师Francois Chollet发布了人工通用情报的抽象推理语料库,或弧阿吉。在此测试中,反复给予AI模型的一些彩色正方形示例,该彩色正方形在网格上以不同的模式排列。对于每个示例集,然后要求模型生成一个新的网格以完成视觉模式,旨在评估灵活推理的任务以及模型在培训之外获得新技能的能力。这种设置类似于Raven的进步矩阵,这是对人类推理的测试。
测试结果是OpenAI和其他科技公司用来指导模型开发和评估的一部分。最近,Openai即将发布的O3型号取得了广泛的进步与以前的AI模型相比,在Arc-Agi上,一些研究人员将其视为AGI的突破。其他人不同意。
“关于弧线没有什么是一般的。这是如此具体和怪异,” Recht说。
西班牙政治上的计算机科学家JoséHernández-Orallo表示,Arc-Agi可能会评估模型识别图像的能力。他说,如果使用文本描述了视觉网格,则前几代语言模型可以以高度准确地解决类似的问题。这种背景使O3的结果看起来不那么新颖。
另外,网格配置数量有限,一些具有大量计算能力的AI型号可以“蛮力”他们仅通过产生所有可能的答案并选择最适合最适合的答案来纠正响应的方式 - 有效地将任务减少到多项选择问题,而不是一种新颖的推理。
为了应对每个ARC-AGI任务,O3使用了大量测试时间计算能力(和金钱)。 Chollet说,在高效模式下运行,每项任务的费用约为30美元。在效率低下的环境中,一项任务的费用约为3,000美元。只是因为模型能解决该问题并不意味着将其定期用于类似挑战性的任务是实际或可行的。
有争议的不仅是Arc-Agi。确定AI模型是否将AGI算作AGI是否使以下事实变得复杂每一个AI能力的可用测试存在缺陷。正如乌鸦的进步矩阵和其他智商测试是人类智力和面临不断的批评斯坦福大学的计算机科学家阿米莉亚·哈迪(Amelia Hardy)说,由于他们的偏见,AGI评估也是如此。 “很难知道我们正在衡量[我们关心的东西]。”
公司发言人Lindsay McCallum说,例如,打开AI的O3正确响应了四分之一以上的问题,其中一系列非常困难的问题称为边境数学基准。这些问题花几个小时的时间解决根据基准的创建者的说法。从表面上看,O3似乎很成功。但是,这一成功可能部分是由于Openai为基准的发展提供了资金并拥有访问测试数据集在开发O3时。这种数据污染是评估AI模型的持续困难,尤其是对于AGI而言,在训练数据中概括和抽象的能力被认为是至关重要的。
AI模型似乎也可以在复杂的任务上表现出色,例如准确回答博士学位级别的科学问题,同时失败了更基本的,例如计算R的数量在“草莓”中。这种差异表明这些计算机系统如何处理查询和理解问题的根本错误。
但是,AI开发人员并没有收集和分享可能有助于研究人员更好地衡量原因的信息。许多开发人员仅为每个基准标准提供一个精确的值,而不是详细的细分,即模型正确和错误地回答了哪些类型的问题。专家说,如果没有其他细节,就无法确定模型在哪里挣扎,为什么成功或任何单个测试结果表明机器智能的突破。
即使模型通过具有鲜艳颜色的特定,可量化的测试,例如律师考试或者医疗委员会在加利福尼亚州伯克利的非营利模型评估和威胁研究的计算机科学家戴维·赖恩(David Rein)说,几乎没有保证这些结果将转化为凌乱,现实世界中的专家级人类表现。
例如,当被要求撰写法律摘要时,生成的AI模型仍定期构建信息。尽管一项对GPT-4的研究表明聊天机器人可以在诊断患者方面胜过人类医生,更详细的研究发现,可比的AI模型的表现远远远远不止于实际医生当面对模仿现实世界条件的测试时。并且没有研究或基准结果表明当前的AI模型应为做出重大治理决定对人类专业的人。
Rein说,Openai,Deepseek和其他公司报告的基准报告了“对现实世界中能力的信息不多的信息”,尽管他们可以提供合理的信息以将模型与彼此进行比较。
到目前为止,研究人员在很大程度上通过为他们提供了知道答案的离散问题来测试AI模型。但是,人类并不总是有一个奢侈知道面前的问题,无论是可以解决的还是什么时间范围。人们可以确定关键问题,确定任务的优先级,并至关重要地知道何时放弃。还不清楚那个机器可以或做。最先进的“自主”代理商难以在线订购比萨饼或杂货。
一般情报不决定影响
大型语言模型和神经网络有最近几个月和几年。 Recht说:“它们绝对有用,” Recht指出,较新的模型总结和消化数据或生成几乎没有错误的可用计算机代码的能力。但是,像Arc-Agi这样的尝试衡量一般能力的尝试并不一定会阐明AI模型可以和不能使用的模型。他说:“我认为它们是否通常人为地聪明并不重要。”
根据最近的DeepSeek新闻,可能更重要的是每任务成本的传统指标。公用事业是由工具的质量以及该工具是否负担得起的扩展。情报只是方程式的一部分。
AGI应该是AI开发人员的指导光。如果实现的话,这是为了预示社会的主要转折点,超越这些机器将比人类独立或更高的地位独立运作。但是到目前为止,AI对我们是否接近(或已经超过)这个转折点,埃尔南德斯 - 奥拉洛(Hernández-Orallo)和哈迪(Hardy)表示,AI对我们是否接近(或已经超过)没有任何共识。
例如,科学家正在使用AI工具。然而,在全球教室中,生成的聊天机器人却破坏了评估。皮尤研究中心最近的一项调查发现,越来越多的美国青少年是将作业外包给chatgpt。以及2023年的研究自然据报道,在大学课程中增加了AI援助已成为欺骗更难检测。
要说,一旦我们到达Agi,AI就会变得变革性,而忽略了森林的所有树木。