ChatGPT、Google Bard、Claude 和所有其他人工智能都有一个共同的缺陷。根据人工智能专家的说法,这种失败可能有利于某些用户而不是其他用户......解释。
生成式人工智能,例如聊天GPT、Google Bard 和 Anthropic 的 Claude 也有同样的设计缺陷。据《连线》采访的几位人工智能专家表示,作为聊天机器人基础的语言模型往往强调英语的主导地位与不太流行的习语相比。
人工智能,本质上是一种英语技术
为了训练他们的人工智能模型,OpenAI 或谷歌等公司使用来自互联网的数据体。这些数据库主要是由用英语写的文本,它仍然是网络上最广泛使用的语言。一项研究政治家还表明超过63%的网站是用莎士比亚的语言发布的。
例如,GPT-4OpenAI最新版本的AI模型,主要基于“预训练数据”OpenAI 承认,在英语方面。此外,旨在监管人工智能和避免滥用的缓解措施也已到位。“以美国为中心的观点”。
事实上,对话机器人是更高效、更精确、更有用与说英语的互联网用户交流时。最终,只讲另一种语言的人一开始就处于严重劣势。他们无法100%从人工智能的所有创新中受益。
“我最大的担忧之一是我们会加剧对英语使用者的偏见”媒体联系到的俄勒冈大学计算机科学家 Thien Huu Nguyen 警告道。
ChatGPT 不擅长外语
根据 Thien Huu Nguyen 的研究结果,聊天机器人天赋明显较差当他们用英语以外的语言生成回复时。人工智能仍然很难从一种语言切换到另一种语言或总结用外语编写的文本。当用另一种语言提问时,ChatGPT 尤其倾向于“产生幻觉”,也就是说发明错误的信息,或者满足于模糊的答案,表明 Nguyen 和他的研究人员进行的实验。
一种语言在世界上的普及程度越低,它在人工智能数据中的出现就越少。因此,聊天机器人将不太愿意用不熟悉的方言提供相关答案……这可能会导致这些语言的衰落。与此同时,世界上使用最多的两种语言,即英语和普通话,正冒着利用人工智能崛起的风险,确立其本已相当大的统治地位。
英语的无所不在也有可能造成伤害适度在其他语言中。通过关注最知名语言中的单词含义,人工智能将错过另一种方言中潜在的冒犯性或侮辱性术语。正如美国组织民主与技术中心指出的那样,Meta等科技巨头使用的检测算法(Facebook),在英语中尤其有效。阿拉伯语内容经常被错误地标记为仇恨内容。在这些常见错误的背后,我们发现缺乏允许用其他语言训练人工智能和算法的数字化文本。对于某些方言,例如印地语和印度尼西亚语,根本没有足够的资源来训练模型。因此,内容审核,无论是社交网络还是聊天机器人,都不如英语有效……这为滥用行为打开了大门。
改善在望
意识到这一差距,人工智能背后的公司已经采取了行动。 OpenAI 首席执行官兼联合创始人 Sam Altman 明确表达了与政府合作提高 ChatGPT 外语知识的意愿。
就谷歌而言,它已经改变了态度。PaLM 2,搜索巨头宣布的最新人工智能模型,接受了用多种语言编写的内容的培训。得益于这个训练语料库,该模型支持大约一百种不同的语言。不幸的是,互联网用户还无法访问这些语言改进。现在,Bard,由 PaLM 提供支持的聊天机器人,只听得懂英语、日语和韩语。同样,一些人工智能驱动的功能,例如“帮我写作” Gmail 专为讲英语的人提供。
为了避免人工智能中的语言偏见,研究人员建议喂养模型“综合数据”。这些实际上是最初用英语编写的内容的翻译,然后转换为未知语言。 Thien Huu Nguyen 认为,这种方法应该能够对抗无处不在的英文文本。没有这些汇总数据,就不会有“其他语言的数据永远不够””,研究人员总结道。
Opera One - AI 驱动的网络浏览器
作者:歌剧
来源 : 有线