谷歌透過 PaliGemma 2 加入視覺語言模型，但這將如何幫助其 AI 充電？

2024-12-25

市場上有不同類型的人工智慧模型可供用戶選擇，這在很大程度上取決於他們需要機器學習技術的服務類型，以及現在，PaliGemma 2 延續了先前的技術。

該公司正在加強其多方面的人工智慧方法，特別是因為它已經向世界提供了著名的 Gemini AI，這是一種可以接受不同類型輸入的多模式模型。

Google推出新視覺語言模型 PaliGemma 2

谷歌向世界展示了他們最新的人工智慧模型，它被稱為巴利文寶石2這是該公司 Gemma 模型的一部分，該模型專注於以視覺為中心的人工智慧的進一步體驗。最初，Google在 5 月的 I/O 2024 上宣布了 Gemma 2 模型，它以視覺語言模型 (VLM) 為中心，專門用於理解用戶的視覺線索。

PaliGemma 2是該公司繼去年5月推出PaliGemma之後推出的最新產品，當時它已經能夠為圖像和短視頻提供簡短的字幕，利用AI更好地理解圖像、對象檢測和分割以及“視覺問題”回答。」

然而，隨著 PaliGemma2 的推出，谷歌現在可以為所述圖像和視頻提供“長字幕”，其中提供有關特定照片的更詳細信息，並有不同的尺寸。

Google表示，目前提供的模型尺寸包括3B、10B和28B參數，解析度包括224px、448px和896px。 PaliGemma 2 還可以描述場景中的圖像動作、情緒和敘述。

Google 現在正在向開發人員利用其 PaliGemma 2 開放式 VLM，可透過 Kaggle、Hugging Face 和 Ollama 在各種應用程式中使用，以提高他們在基於視覺的內容方面的能力。

最新的 PaliGemma 2 還具有更複雜和技術性的視覺功能，可以檢測化學公式、樂譜、胸部 X 光報告、空間推理等，以擴展更多的人工智慧。

據Google稱，已經使用原始 PaliGemma 的現有開發人員可能會使用這個下一代版本來升級其應用程式的功能和特性，「無需進行重大程式碼修改即可在大多數任務上立即獲得效能提升」。

谷歌的 2024 年重點是擴展更多人工智慧產品，其模型為用戶提供了重要的功能，從早期的2023 年 12 月。

谷歌今年最大的轉變之一是在 I/O 2024 上宣布了該公司的人工智慧功能，該功能可在其搜尋產品（更廣為人知的名稱）上使用。話雖如此，Google的其他產品，如 Workspace 套件、YouTube、Pixel 等，都是該公司最新人工智慧發展的受益者。

不僅如此，Google DeepMind 還加速了多項人工智慧開發，現在它可以教導機器人多種功能，將視覺模型考慮在內，以幫助擴展自主機器的能力。