谷歌翻譯的起源是著名的。該服務挖掘了來自聯合國和歐洲議會的龐大雙語文件資料庫。然後,他應用統計方法建立模型,用於將這些相同的文字翻譯成其他語言。
這種方法因其有時難以理解的結果而受到批評,如今看來已經完全過時了。去年它也被谷歌自己放棄了,取而代之的是神經網路多考慮句子集及其上下文。但正如所指出的,處理稀有語言或很少翻譯的語言似乎仍然很複雜科學。
無需人工幹預
兩篇科學文章,一試行法國臉書研究員另一個由聖塞巴斯蒂安大學在西班牙,剛剛通過了一個里程碑,純粹地、簡單地放棄了監督機器學習,當向計算機提供正確答案以方便其訓練時。因此,不再存在從大量雙語資料中產生規則的問題,而這些雙語資料的翻譯之前已經由人類進行過。他們的方法的獨創性是基於使用無監督學習。
該方法包括按相似性將資料分組,以理解語言的結構,所有這些都沒有任何人類參考作為起點。
“想像給一個人很多中文和阿拉伯語書籍,沒有兩本是相同的,”研究人員之一 Mikel Artetxe 向 Science 網站解釋。“這個人必須學會從中文翻譯成阿拉伯語,沒有任何重疊”。這看似不可能,但這些科學家做到了。
檢查和進展
電腦從一小部分文件中映射出共同點,就像一個巨大的道路地圖集一樣,它可以根據語言識別具有不同名稱的城市。剩下的就是將不同的圖集疊加起來,得到全自動的雙語字典。
為了訓練,機器會嘗試反向翻譯。也就是說,它透過將文字翻譯回其原始語言來驗證其結果。她對此補充說去噪。也就是說,它翻譯句子,然後通過重新排列或刪除單字等方式添加“噪音”。然後,她將句子重新翻譯成原始語言,並提高翻譯的準確性,直到獲得幾乎相同的結果。
目前,由此獲得的性能仍然明顯低於谷歌翻譯。因此,新方法獲得了15 分的精確度分數,而Google 工具達到了40 分,而人工翻譯則超過了50 分。這將相當於添加數千個雙語句子以使人工智慧的任務變得更容易。
如果這種新方法仍處於起步階段,那麼結果已經足夠好,並且令人驚訝地相關,讓研究人員相信已經找到了一個新的研究領域。 「這種方法確實指明了正確的方向,」Mikel Artexte 興奮地說。