我們可以相信一個起司漢堡來評估人工智慧的進展嗎?雖然這個問題看起來很奇怪,但卻是完全合理的。正如所解釋的石英相較於兩年前,Alphabet 公司 DeepMind 的人工智慧可以產生更真實的圖像,尤其是起司漢堡的照片。
讓我們在必要時強調一下,我們在這裡不僅討論圖像識別階段,而且還討論人工智慧幾乎從頭開始創建物件的真實表示。 Deepmind 的目標是其人工智慧最終能夠根據單字生成圖像。
![](http://webbedxp.com/tech/misha/app/uploads/2018/10/c2dce9742cf628bc9caa50bad0f02.jpg)
AI 配對訓練
為了實現這一目標,Alphabet 子公司使用 GAN 來建立生成對抗網路。它們基於谷歌研究人員在 2014 年提出的一個看似簡單的想法。因此,第一個在第二個的指導下逐漸學習如何製作逼真的照片。
所獲得的結果似乎變得令人信服。正如我們在上面的範例中看到的,2018 年的漢堡看起來比右側 2016 年的漢堡更真實,甚至更美味。
在他們的科學文章中,Deepmind 研究人員更詳細地解釋了他們如何訓練人工智慧。他們特別詳細介紹了他們對 GAN 原理的貢獻。事實上,他們的演算法能夠處理更多影像,從先前的 256 幅增加到 2048 幅。因此,這增加了受人工智慧影響的物體(起司漢堡)的範例數量。此外,Deepmind 工程師還設法確保分析和生成的影像具有更好的品質。
增加來源影像的清晰度
到目前為止,他們的 ImageNet 人工智慧都是使用解析度為 128 x 128 像素的圖像進行訓練的。這看起來可能很低,但人工智慧會分析無數圖像進行學習,尤其難以產生清晰度過高的照片。
增加影像的「尺寸」仍然需要大量的處理能力,並且增加了生成過程中出錯的風險。在低清晰度影像上,實際上建立連貫影像所需的像素較少。
然而,負責該專案的三名研究人員測試了 256 x 256 和 512 x 512 像素影像的注入,取得了令人鼓舞的結果。 AI產生的模型的真實度指數因此而提高。無論是狗、貓、風景、蝴蝶甚至起司漢堡,都比兩年前真實得多。
當然,要獲得高清影像以及最重要的是每次都取得成功的結果,還有很長的路要走。例如,ImageNet 被訓練為透過生成過渡影像從一張影像移動到另一張影像。然後,在狗和貓之間的過渡過程中,我們得到了非常奇怪的結果,就像這裡一樣。