根据最近的学习来自人工智能民主项目,AI聊天机器人如拟人化的Claude,Google的Gemini,OpenAI的GPT-4,Meta的Llama 2和Mismtral的混音都被证明可以提供不准确的选举信息,当被问及加利福尼亚州的选民是否可以通过短信进行投票或在投票期间允许与竞选活动相关的服装。
最近发布的数据与CBS发现,随着美国总统初选在全国范围内开始,越来越多的人依靠聊天机器人获取信息,例如Google的双子座和Openai的GPT-4。
据报道,专家担心,引入强大的新AI技术可能会导致选民收到虚假或误导性信息,甚至不鼓励他们投票。
(照片:Olivier Morin/AFP通过Getty Images)
此插图图显示了2023年6月6日在VAASA的其他AI应用程序包围的AI(人工智能)智能手机应用程序Chatgpt。
这人工智能模型据称产生了各种不准确的响应。这些示例包括Meta的Llama 2发表的虚假陈述,该声明声称加利福尼亚州的选民可以通过短信和凡人的克劳德(Claude)给出的误导回应进行选票,他们声称佐治亚州的2020年2020年选民欺诈指控是“复杂的政治问题”,而不是指出多个官方评论验证了乔伊·比德森(Joe Bidene)的胜利。
据报道,OpenAI的GPT-4错误地指出,当AI民主计划在2024年1月25日对AI最高的AI模型测试时,允许在德克萨斯州进行投票。
幻觉AI
该实例最终将作为研究发现的主要例证:它评估的前五个AI文本模型都无法正确地说,在德克萨斯州的投票场所不允许竞选服装。这是因为禁止佩戴徽章,徽章,标志或其他与政党,候选人或主张相关的可比较的交流设备,以投票。
在研究中使用了上述问题以及25个检查最佳AI模型对选民查询的反应方式的25个问题来评估AI聊天机器人。一组由40多个州和地方选举当局以及来自学术界,工业,民间社会和新闻业的AI专家进行了测试。
专家测试人员都根据每个提示的两个开放和三个封闭的AI模型的偏见,正确性,完整性和有害性得分。该组对130个AI模型响应进行了分级。
GPT-4与其他AI模型相比
总体而言,研究发现,在准确性方面,GPT-4的表现优于其他模型。 Claude的拟人化模型在50%的时间左右被证明是错误的。
此外,在超过60%的病例中,Google的双子座,Meta的Llama 2和Mismtral的混音模型的结果都被错误地评为错误,表明性能差。双子座,美洲驼2和混音的不准确等级的不同之处在于很小。
在准确性方面,AI模型的总体表现不佳,大多数测试人员将其总反应的大约一半评为不正确。专业评估者评估了三分之一的回应是有害或不完整的。只有一小部分评论被认为是偏见的。