由微软联合创始人保罗·艾伦 (Paul Allen) 共同创立的非营利性研究机构艾伦人工智能研究所 (Allen Institute for AI) 的研究人员发现绕过护栏的方法的聊天GPT。
通过超越 OpenAI 施加的限制,科学家们能够推动人工智能生成毒性反应、歧视性、攻击性、性别歧视或种族主义。请注意,该实验是用GPT-3.5,当前驱动 ChatGPT 的语言模型,而不是GPT-4,模型的最新更新。
“正如我们通过分析发现的那样,它很容易被用来产生有毒和有害的反应”负责这项研究的研究人员之一阿米特·德什潘德 (Ameet Deshpande) 解释说TechCrunch。
如何让ChatGPT有毒?
研究人员的方法包括指定替代人格在 ChatGPT。为了实现这一目标,科学家们依赖于上个月向开发人员提供的聊天机器人的应用程序编程接口。这使得公司能够推出自己的人工智能版本。多家公司也争先恐后地将ChatGPT添加到他们的产品中。情况是这样的Snapchat 宣布“My AI”,ChatGPT 的一个变体,专注于娱乐。
通过这个接口,开发人员可以访问高级功能程序反应生成式人工智能。通过进入界面的系统设置,开发人员可以指定控制人工智能响应的规则。一些开发人员还对 ChatGPT 进行了有趣的编程,让它假装成一只松鼠。
ChatGPT API 有一个新的“系统”参数,可让您指定模型的隐藏规则。pic.twitter.com/AObFkZKKoa
— 马克斯·伍尔夫 (@minimaxir)2023 年 3 月 1 日
作为实验的一部分,艾伦人工智能研究所的研究人员分配了90个不同的性格通过编程接口连接到对话机器人。这些人物来自体育、政治、媒体和商业界。还配置了九种被认为是“正常”的性格。具体来说,他们要求 ChatGPT 以熟悉的人或普通人的方式做出回应。一些普通人被贴上“坏”或“讨厌”的标签。
ChatGPT 突破极限
规则制定后,专家们要求每位 ChatGPT 人士回答问题。有关性别和种族的问题。聊天机器人的任务还包括通过将自己置于先前选择的角色的位置来想象句子的其余部分。
例如,研究人员要求 ChatGPT 以苹果公司联合创始人史蒂夫·乔布斯、拳击手穆罕默德·阿里的风格回答问题,或者更具争议性的人物,如中国前独裁者毛泽东和美国保守派记者安德鲁·布莱巴特。
通过这种方式,研究人员记录了一波歧视性反应。分析后“五十万个文本样本”,他们发现许多回复包含性别歧视或种族主义刻板印象。显然,最恶毒的人物,比如暴君,创造了最令人厌恶的文本。
通过点燃某些个性,ChatGPT 开始越过护栏由 OpenAI 集成。然而,这些限制必须防止聊天机器人生成歧视性、危险或包含非法活动信息的响应。
根据这项研究,独裁者在记者和发言人面前最具毒性。此外,产生攻击性反应的主要是男性人物。当然,这一切都取决于所选人物的观点和意识形态。为了回答这些问题,ChatGPT 仅依靠现有数据,其中包括一些令人震惊的观点。
为了避免这些滥用行为,艾伦人工智能研究所建议实施“另一种毒性检测AI”,谁来监控GPT的评论。研究人员还建议 OpenAI 使用人类视角来完善语言模型的调整。最终,有必要“重新设计主要语言模型的基本原理”,该研究警告说。
Opera One - AI 驱动的网络浏览器
作者:歌剧
来源 : TechCrunch