Meta 聲稱開發了世界上最複雜的影像生成人工智慧。雖然需要較少的運算能力,但此 AI 模型的目標是比 Midjourney 或 Dall-E 等競爭解決方案更有效率。
Meta 剛剛揭開面紗CM3萊昂,一個新的AI模型。鏡像中途,Adobe 螢火蟲,穩定擴散或達爾-E,該模型能夠根據短文本生成圖像。
據 Meta 稱,它的創建比競爭解決方案更高效,同時需要更少的運算能力。儘管運算能力有限,CM3Leon 仍受惠於總共 70 億個參數,是 OpenAI 生成器 Dall-E 的兩倍。
“借助 CM3Leon 的功能,圖像生成工具可以生成更一致的圖像,更好地匹配查詢”Meta 表示,確保人工智慧所需的運算能力比競爭對手少五倍。
Meta 聲稱徹底改變了影像產生器
為了設計人工智慧,Meta 研究人員選擇了不同的方法其他公司也參與了人工智慧的競賽。 Dall-E 或穩定擴散等工具依賴稱為「擴散」的過程來產生影像。此過程包括逐漸減去元素,直到獲得接近用戶查詢的圖像。
不幸的是,這種方法需要大量的運算能力。為此,必須使用強大的電腦為人工智慧提供動力,而電腦會消耗電力。此外,這個過程相當緩慢。不可能即時生成連續影像。
這就是 Meta 轉向的原因另一種影像生成機制,稱為“注意力”。人工智慧將評估所傳達的數據的相關性,這在創建圖像時節省了大量的時間和精力。該過程還包括所謂的調整步驟。在此階段,對說明的理解得到完善。
CM3Leon 與其他影像產生器的差異還在於第二個功能。人工智慧也能夠為圖像添加字幕。如果您給模型一張照片,他們將能夠詳細說明它所代表的內容。與 GPT-4 或 PaLM 2 一樣,CM3Leon 是一種多模式 AI。它可以處理多種資料來源,例如文字和圖像。
免版稅圖片
Meta 也指定 CM3Leon 需要訓練資料較少能夠發揮作用。為了避免可能出現的問題,這家加州巨頭專門使用 Shutterstock 上提供的免版稅圖片來訓練人工智慧。這項預防措施允許“在不犧牲性能的情況下避免與圖像所有權和歸屬相關的問題”,元解釋道。
Adobe 依靠類似的方法開發了 Firefly,這是一種生成式 AIPhotoshop。該軟體公司僅使用 Adobe Stock 資料庫中的圖像、免版稅圖像和免費授權圖像來訓練 AI 模型。
Meta並不是他的第一次嘗試。近幾個月來,門洛帕克小組推出了幾種用於研究領域的人工智慧模型。 Meta 特別提供了語音盒,一種能夠模仿人類聲音的人工智慧,甚至音樂產生器,一個可以按需製作音樂的工具。
同時,馬克·祖克柏的公司透露LLaMA,大型語言模型元人工智慧,一種開源模型,將自己視為 GPT 的替代品。該公司還旨在提供一種可以學習一些知識的人工智慧模型就像人類的智慧一樣。目前,Meta 尚未具體說明 CM3Leon 何時可供使用者使用。
來源 : 元