蘋果已經揭示了其在人工智能(AI)大語言模型(LLM)方面的最新發展,並引入了能夠解釋圖像和文本數據的多模型模型的MM1家族。
根據技術Xplore,這一揭幕代表了蘋果為增強其AI功能的持續努力。 MM1模型旨在使用多模式AI來改進任務,例如圖像字幕,視覺問題答案和查詢學習。
什麼是多模式?
多模型模型是一個AI模型,能夠處理和解釋來自多種模式或來源的數據。這些模式可以包括文本,圖像,音頻,視頻或任何其他形式的數據。
多模式模型整合了來自不同模式的信息,以獲得對輸入數據的更全面的理解,從而使它們能夠執行各種任務,例如圖像字幕,視覺問題答案等。
它們在需要同時了解不同來源的理解和處理信息的任務中發揮了重要作用,與單模AI系統相比,可以從各種來源中獲得更多的了解和準確的解釋。
蘋果開發MM1:多模式LLM模型
隨著參數數量高達300億,這些多模型模型被設計為處理和分析各種數據輸入,包括包含兩者的圖像,文本和文檔。
通過整合不同的數據模式,MM1模型的目標是實現對複雜信息的更全面的理解,可能會導致更準確的解釋。
研究人員強調了一個值得注意的功能:MM1的秘密學習能力,這使該模型能夠在多個交互之間保留知識和環境。此能力增強了模型的適應性和響應能力,從而使其能夠對用戶查詢提供更相關的響應。
此外,MM1模型還展示了諸如對象計數,對象識別和常識性推理之類的功能,從而使它們能夠根據圖像內容提供見解。這種多功能性使MM1模型適用於從圖像分析到自然語言理解的各種應用。
M1模型家族
在研究的摘要中,研究人員提供了對MM1模型報告成功的架構和設計選擇的見解。
他們強調了利用各種預訓練數據源的重要性,包括圖像捕獲對,交織的圖像文本數據和僅文本文檔,以在各種基準測試中獲得競爭成果。
此外,研究人員強調了圖像編碼器和分辨率對模型性能的影響,突出了這些組件在多模式AI系統中的重要性。
通過增強他們的方法,研究團隊開發了一個多模型的系列,這些模型在訓練前指標中表現出色,並在各種基准上展示了競爭性能。
“通過擴展提出的食譜,我們建立了MM1,這是一個多模型的家族,最高30b參數,包括密集的型號和Experts(MOE)變體,它們是訓練前指標中的SOTA,並在既有競爭性績效的競爭性效果中都在經過監督的微型基礎基礎範圍內實現了競爭性績效。”
他們補充說:“多虧了大規模的預訓練,MM1享有吸引人的特性,例如增強的文化學習和多圖像推理,因此可以促成幾乎沒有經過思考的促進鏈。”
研究小組的發現是出版在Arxiv中。