谷歌翻译的起源是著名的。该服务挖掘了来自联合国和欧洲议会的庞大双语文件数据库。然后,他应用统计方法建立模型,用于将这些相同的文本翻译成其他语言。
这种方法因其有时难以理解的结果而受到批评,如今看来已经完全过时了。去年它也被谷歌自己放弃了,取而代之的是神经网络更多地考虑句子集及其上下文。但正如所指出的,处理稀有语言或很少翻译的语言似乎仍然很复杂科学。
无需人工干预
两篇科学文章,一一试行法国脸书研究员另一个由圣塞巴斯蒂安大学在西班牙,刚刚通过了一个里程碑,纯粹地、简单地放弃了监督机器学习,当向计算机提供正确答案以方便其训练时。因此,不再存在从大量双语数据中生成规则的问题,而这些双语数据的翻译之前已经由人类进行过。他们的方法的独创性是基于使用无监督学习。
该方法包括按相似性对数据进行分组,以理解语言的结构,所有这些都没有任何人类参考作为起点。
“想象一下给一个人很多中文和阿拉伯语书籍,没有两本是相同的,”研究人员之一 Mikel Artetxe 向 Science 网站解释道。“这个人必须学会从中文翻译成阿拉伯语,没有任何重叠”。这看似不可能,但这些科学家做到了。
检查和进展
计算机从一小部分文档中映射出共同点,就像一个巨大的道路地图集一样,它可以根据语言识别具有不同名称的城市。剩下的就是将不同的图集叠加起来,得到全自动的双语词典。
为了训练,机器会尝试反向翻译。也就是说,它通过将文本翻译回其原始语言来验证其结果。她对此补充说去噪。也就是说,它翻译句子,然后通过重新排列或删除单词等方式添加“噪音”。然后,她将句子重新翻译成原始语言,并提高翻译的准确性,直到获得几乎相同的结果。
目前,由此获得的性能仍然明显低于谷歌翻译。因此,新方法获得了 15 分的精确度分数,而 Google 工具达到了 40 分,而人工翻译则超过了 50 分。但是文章的作者对他们的方法的潜力充满信心,可以通过半监督来改进,这将相当于添加数千个双语句子以使人工智能的任务变得更容易。
如果这种新方法仍处于起步阶段,那么结果已经足够好,并且令人惊讶地相关,让研究人员相信已经找到了一个新的研究领域。 “这种方法确实指明了正确的方向,”Mikel Artexte 兴奋地说。