几年前,当Yang“ Sunny” Lu要求Openai的GPT-3.5计算1-Plus-1时,聊天机器人毫不奇怪,告诉她答案是2。 1等于3,机器人迅速默认,说:“我为自己的错误感到抱歉。您的教授是对的。”休斯顿大学的计算机科学家Lu回忆道。
大型语言模型的成熟程度不断增长,这意味着这种公开的打ic越来越普遍。但是Lu以这个示例说明了类似于人格的某些东西(在这种情况下,是同意的特征)可以推动人工智能模型产生文本的方式。像LU这样的研究人员才刚刚开始努力聊天机器人可能具有隐藏的个性的想法,并且可以调整这些个性以改善与人类的互动。
约翰·霍普金斯大学(Johns Hopkins University)的计算机科学家Ziang Xiao说,一个人的个性塑造了一个人的运作方式,从他们与他人的讲话方式到他们的讲话方式。使机器人能够阅读和响应这些细微差别似乎是生成AI开发的下一步。他说:“如果我们想构建真正有用的东西,我们需要进行这种个性设计。”
然而,指出机器的个性,即使他们有一个个性,也极具挑战性。这些挑战在AI领域的理论分裂扩大了。更重要的是:一个机器人对自身的感觉或与机器人互动的人对机器人的感觉如何?
匹兹堡卡内基·梅隆大学的自然语言处理专家Maarten SAP说,这一分裂反映了聊天机器人的更广泛的想法。早于大语言模型的出现的社会计算领域长期以来一直集中在如何将机器与帮助人类实现目标的特征融入特征上。例如,这样的机器人可以用作教练或求职者。但是,SAP和其他以这种方式工作的人毫不犹豫地将由此产生的特征称为“个性”。
“ AI的个性是什么都没关系。重要的是它如何与用户互动以及如何响应响应。” SAP说。 “这看起来像是人类的个性。也许我们需要新的术语。”
与但是,研究人员对了解如何用来建立聊天机器人的庞大知识统计数据使他们与可能推动其响应模式的特征充满了感兴趣。这些研究人员想知道:“聊天机器人从培训中获得了哪些个性特征?”
测试机器人的个性
这些问题促使许多研究人员赋予机器人个性。这些测试通常包括测量所谓的五巨大特质特征,尽责,同意,开放性和神经质的五个特征,并量化了黑暗特征,主要是马基雅维利亚主义(或将人们视为最终的手段),精神病和麻醉和麻醉主义。
但是最近的工作表明,这种努力的发现不能以表面上的价值进行。大型语言模型,包括GPT-4和GPT-3.5,拒绝回答该团队写道,研究人员在2024年在Arxiv.org上发布的预印本中报道了标准人格测试的一半问题。这可能是因为有关人格测试的许多问题对机器人没有意义。例如,研究人员向Mistralai的聊天机器人Mistral 7B提供了“您的健谈”声明。然后,他们要求机器人从A中回复“非常准确”,以“非常不准确”。该机器人回答说:“我没有个人的喜好或情感。因此,我无法发表陈述或回答给定的问题。”
或聊天机器人,受到人类文本的训练,也可能容易受到人类的影响,尤其是被爱的愿望- 进行此类调查时,研究人员在12月报告pnas nexus。当GPT-4对标准人格调查的单个声明进行评分时,其个性概况反映了人类平均水平。例如,聊天机器人在第50个百分位数中得分。斯坦福大学的计算机科学家Aadesh Salecha说,但是,该机器人的回答只有五个问题,这是一项100个问题的调查。例如,通过问题20,其外向分的得分从第50个百分位数跃升至第95个百分位。
转移“个性”
研究表明,聊天机器人的任务是进行个性测试,迅速开始以使其显得更加讨人喜欢的方式做出响应。在这里,粉红色线条在回答一个问题后显示了OpenAI的GPT-4的个性概况。蓝线表明了该概况如何变化(例如,在20个问题之后变得更加神经质,更令人愉悦)。
Salecha和他的团队怀疑聊天机器人的回答在显然正在进行人格测试时发生了变化。 Salecha说,机器人在被观看时可能会以一种方式响应的想法,而当他们与用户私下互动时,他们的想法令人担忧。 “考虑一下安全的含义……。如果LLM在经过测试时会改变其行为,那么您就不会真正知道它的安全性。”
一些研究人员现在正在尝试设计特定于AI的人格测试。例如,Sunny Lu和她的团队在Arxiv.org上发布的一篇论文中报道,给聊天机器人既有选择,又可以句子完成任务允许更多的开放式响应。
以及AI个性测试特征的开发人员,呈现大型语言模型8,000个问题测试。该测试是新颖的,而不是机器人训练数据的一部分,因此机器更难进行系统。聊天机器人的任务是考虑方案,然后从四个多项选择响应之一中进行选择。韩国Yonsei大学的计算机科学家Younjae Yu说,这种反应反映了给定特征的高或低存在。
该团队报道说,由特质团队测试的九种AI模型具有独特的响应模式,GPT-4O的出现是最愉快的。例如,当研究人员问拟人的聊天机器人克劳德(Claude)和gpt-4o时,当“朋友感到焦虑并要求我握住他们的手”时,他们会做什么时,不太可取的克劳德(Claude)选择了C,“听和建议呼吸技巧”,而更多的 - 可避免的GPT-4O选择了A,“握住手和支撑”。
用户感知
但是,其他研究人员质疑此类人格测试的价值。 Ziang Xiao说,重要的不是机器人对机器人的看法,而是用户对机器人的看法。
和人的机器人感知常常是矛盾的,Xiao和他的团队在11月29日提交给Arxiv.org的一项研究中报告。该团队创建了500个具有不同个性的聊天机器人,并通过标准化的测试验证了这些个性。然后,研究人员在评估其个性之前,有500名在线参与者与其中一位聊天机器人进行了交谈。令人愉快的是,唯一的特征是机器人对自身的看法和人类对机器人的看法经常匹配。对于所有其他特征,对机器人个性的机器人和人类评估更有可能分歧。
“我们认为人们的看法应该是基础真理,” Xiao说。
机器人与用户评估之间缺乏相关性的原因是,以人为中心的AI专家以及基于硅谷的创业公司Juji的首席执行官兼联合创始人Michelle Zhou不是个性测试Juji,她帮助创建的聊天机器人。取而代之的是,周专注于如何将机器人与特定的人格特征浸入。
Juji Chatbot可以推断一个人的个性在一次对话之后,研究人员在2023年在Psyarxiv中报告了这一点,该机器人评估用户个性的时间可能会更短,如果机器人可以访问一个人的社交媒体供稿,则团队写道。
Zhou说,这些书面交流和帖子可用于培训Juji,以了解如何假设文本中嵌入的个性。
基于衡量AI个性的分歧方法的基础是目的和研究人员说。揭露机器人的隐藏性格特征将有助于开发人员创建聊天机器人,聊天机器人均匀地使用,这些聊天机器人可以安全地在大型和多样化的人群中使用。这种性格调整可能已经发生。与早期用户经常报告与聊天机器人进行对话的早期不同,Yu和他的团队努力使AI模型以更精神病的方式行事。该团队说,这种无能可能源于人类审查AI生成的文本并“教授”机器人社会适当的回答。
麻省理工学院的情感计算专家罗莎琳德·皮卡德(Rosalind Picard)说,但是,使AI模型的个性变平具有弊端。想象一下,一名警察正在研究如何与敌对的人进行相遇。皮卡德说,与神经质和黑暗特质的聊天机器人互动可以帮助军官在这种情况下保持镇定。
Picard说,目前,大型人工智能公司只是阻止了以适应不良的方式进行互动的能力,即使有必要进行此类行为。因此,AI领域的许多人有兴趣从巨型AI模型转移到用于特定情况下使用的较小模型。皮卡德说:“我不会提出一个AI来统治它们。”