亚马逊网络服务人工智能实验室的研究人员与加利福尼亚大学圣塔芭芭拉分校合作,发现了整个网络上有错误的机器翻译的盛行,这引起了人们对通过人工智能(人工智能)。
作者写道:“这些翻译的低质量表明它们可能是使用机器翻译创建的。” “我们的工作引起了人们对培训模型的严重关注,例如从网络上刮下来的单语和双语数据上的多语言大语模型。”

在线分析60亿个句子
根据技术Xplore,在分析了超过60亿个在线刑期之后,研究人员发现,一半以上的翻译成两种或多种语言,其中很大一部分的翻译质量较差。
此外,这项研究强调了一个令人担忧的趋势:随着这些翻译的进一步迭代 - 最多八个或九种语言 - 质量显着恶化。
研究人员在其报告中标题为“机器翻译的令人震惊的网络是机器翻译的:洞察力”,研究人员表示担心在单语言和双语数据上使用从网络上删除的多语言大语言模型。
该研究表明,文本不仅是由AI翻译的,而且是由AI创建的。 AI生成的翻译在低资源语言中尤其最高,例如Wolof和Xhosa是非洲语言。
研究人员发现,高度多路平行翻译的质量明显低于双向平行翻译,这意味着在网络上代表不足的地区,例如非洲国家和具有更晦涩的语言的其他国家,将在建立可靠的AI大语言模型方面面临更大的挑战。
由于缺乏本地资源,他们必须严重依赖污染市场的污染翻译。
亚马逊Web服务的前应用科学实习生Mehak Dhaliwal指出,使用低资源语言的机器培训工作的同事观察到在互联网上使用本地语言的机器生成内容普遍存在。 Dhaliwal警告用户知道机器可能会在网络上生成遇到的内容。
选择AI培训内容的偏见
研究人员还确定了为AI培训选择内容的偏见,机器生成的多路平行翻译以低资源语言为主导了整个翻译内容。
根据研究人员的说法,据推测,这种内容通常更简单,质量更低,是为了产生广告收入的生产而产生的,这有助于信息的潜在传播。
该研究的发现强调了机器生成的翻译所带来的挑战,突出了人们对通过AI系统产生的内容的准确性,流利性和可靠性的担忧。
尽管机器生成的内容的流行率不断增长,但要解决相关问题以确保在网络上访问的信息的完整性至关重要。研究的发现是出版在Arxiv中。
