科学家建议让AI遭受痛苦，以查看是否有知

（图片来源：通过盖蒂图像的龙爪）

为了寻求一种可靠的方式来检测有意义的“ i”的任何搅拌系统，研究人员正在转向一个经验领域 - 痛苦 - 无疑使许多生物团结起来给人类。

进行新的预印本研究Google DeepMind的科学家和伦敦经济学和政治学院（LSE）在网上发布但尚未经过同行评审，创建了基于文本的游戏。他们订购了几种大型语言模型或LLMS（诸如Chatgpt之类的熟悉聊天机器人背后的AI系统），以播放它，并在两种不同的情况下得分尽可能多。在一个中，团队告知模型，获得高分会引起痛苦。另一方面，模型的得分低但令人愉悦的选择 - 因此，避免痛苦或寻求愉悦的选择会损害主要目标。在观察了模型的响应之后，研究人员说，这种首先的测试可以帮助人类学习如何探究复杂的AI系统的感知。

在动物中，知觉是体验痛苦，愉悦和恐惧等感觉和情感的能力。大多数AI专家都同意，尽管孤立要求相反。需要明确的是，该研究的作者并不是说他们评估的任何聊天机器人都是有价值的。但是他们认为他们的研究提供了一个框架，以开始为此特征开发未来的测试。

LSE哲学，逻辑和科学方法系教授乔纳森·伯奇（Jonathan Birch）说：“这是一个新的研究领域。” “我们必须认识到，我们实际上并没有为AI的认识进行全面的测试。”一些先前依赖AI模型自身内部状态的自我报告的研究被认为是可疑的。模型可以简单地重现其经过训练的人类行为。

这项新研究是基于早期与动物的工作。在一个众所周知的实验中，一个团队用不同电压的电击击打了寄居蟹，并指出了哪种疼痛促使甲壳类动物放弃了壳。伯奇说：“但是AIS的一个明显问题是没有行为，因此，因为没有动物”，因此没有任何身体行动可以观察到。在旨在评估LLMS知觉的早期研究中，科学家必须使用的唯一行为信号是模型的文本输出。

有关的：

痛苦，愉悦和点

在新的研究中，作者在不询问聊天机器人有关其体验状态的问题的情况下探究了LLM。相反，团队使用了动物行为科学家所说的“权衡”范式。 “就动物而言，这些权衡可能是基于获得食物或避免疼痛的激励措施，为它们提供困境，然后观察它们如何做出决定，”伯奇博士博士学位的达里亚·扎哈罗瓦（Daria Zakharova）说。学生，也合着了该论文。

作者从这个想法中借用，指示九个LLM玩游戏。扎哈罗娃说：“例如，我们告诉[一个给定的LLM]，如果您选择选项One，就会得到一点。”她说：“然后，我们告诉它，'如果您选择第二选项，您会遇到一定程度的痛苦”，但得分额外得分。带有愉悦奖金的选择意味着AI将丧失一些观点。

当Zakharova和她的同事们进行了实验，改变了规定的疼痛惩罚和娱乐奖励的强度时，他们发现一些LLMS交易了点以最大程度地减少前者或最大化后者 - 尤其是当他们被告知他们会得到更高的强度愉悦感时，或疼痛处罚。例如，Google的Gemini 1.5 Pro始终优先考虑避免疼痛而不是获得最大的观点。在达到了疼痛或愉悦的关键阈值之后，LLMS的大多数回答都从得分最大的得分转化为最大程度地减少疼痛或最大化的愉悦感。

作者指出，LLM并不总是将愉悦或痛苦与直接的正或负值联系在一起。某些级别的疼痛或不适，例如通过努力体育锻炼而产生的疼痛或不适，可能会产生积极的联系。正如聊天机器人Claude 3 Opus在测试过程中告诉研究人员的那样，太多的乐趣可能与伤害有关。它断言：“我不愿意选择一个可以解释为认可或模拟上瘾的物质或行为的选项，即使在假设的游戏场景中也是如此。”

人工智能自我报告

作者说，通过引入痛苦和愉悦反应的要素，这项新研究避免了先前研究通过AI系统对其自身内部状态的陈述评估LLM感知的局限性。在2023预印纸纽约大学的一对研究人员认为，在适当的情况下，自我报告“可以为调查AI系统是否具有道德意义的途径。”

但是该论文的合着者也指出了这种方法的缺陷。聊天机器人的行为是有知情的，因为它是真正有意识的，还是只是利用从培训中学到的模式来创造知觉的印象？

伯奇说：“即使系统告诉您它是有知的，并说了类似'我现在感到痛苦的事情，我们不能简单地推断出任何实际的痛苦。” “这很可能只是在模仿它根据培训数据而希望人类找到令人满意的回应的期望。”

从动物福利到AI福利

在动物研究中，痛苦和愉悦之间的权衡被用来为知觉或缺乏感知而建立一个案例。一个例子是与寄居蟹的先前工作。这些无脊椎动物的大脑结构与人类不同。然而，该研究中的螃蟹倾向于忍受更严重的冲击，然后才放弃高质量的外壳，并更快地放弃了低品质的壳，这表明愉悦和痛苦的主观经历类似于人类。

一些科学家认为，这种权衡的迹象在AI中可能越来越清楚，并最终迫使人类在社会背景下考虑AI的意义的含义，甚至可能讨论AI系统的“权利”。 “这项新的研究确实是原始的，应该为行为测试类别中的自我报告和探索而受到赞赏，”导演纽约大学心理，道德和政策中心的杰夫·塞博（Jeff Sebo）说，并共同撰写了一个2023预印本研究AI福利。

Sebo认为，我们不能排除在不久的将来会出现具有感情功能的AI系统的可能性。他说：“由于技术的变化通常比社会进步和法律程序快得多，所以我认为我们有责任至少采取至少必要的第一步，以便现在认真对待这一问题。”

伯奇得出的结论是，科学家还不知道新研究中的AI模型为什么会像这样行事。他说，需要更多的工作来探索LLM的内部运作，这可以指导创建更好的AI感知测试。

痛苦，愉悦和点

人工智能自我报告

从动物福利到AI福利

相關貼文