市场上有不同类型的人工智能模型可供用户选择,这在很大程度上取决于他们需要机器学习技术的服务类型,以及现在,PaliGemma 2 延续了之前的技术。这种新的人工智能是一种开放视觉语言模型 (VLM),旨在理解图像和其他形式的非文本媒体。
该公司正在加强其多方面的人工智能方法,特别是因为它已经向世界提供了著名的 Gemini AI,这是一种可以接受不同类型输入的多模式模型。
谷歌推出新视觉语言模型 PaliGemma 2
谷歌向世界展示了他们最新的人工智能模型,它被称为巴利文宝石2这是该公司 Gemma 模型的一部分,该模型专注于以视觉为中心的人工智能的进一步体验。最初,谷歌在 5 月的 I/O 2024 上宣布了 Gemma 2 模型,它以视觉语言模型 (VLM) 为中心,专门用于理解用户的视觉线索。
PaliGemma 2是该公司继去年5月推出PaliGemma之后推出的最新产品,当时它已经能够为图像和短视频提供简短的字幕,利用AI更好地理解图像、对象检测和分割以及“视觉问题”回答。”
然而,随着 PaliGemma2 的推出,谷歌现在可以为所述图像和视频提供“长字幕”,其中提供有关特定照片的更详细信息,并有不同的尺寸。
谷歌表示,目前提供的模型尺寸包括3B、10B和28B参数,分辨率包括224px、448px和896px。 PaliGemma 2 还可以描述场景中的图像动作、情感和叙述。
PaliGemma 2 如何帮助 Google 最新的 AI 技术?
Google 现在正在向开发人员利用其 PaliGemma 2 开放式 VLM,可通过 Kaggle、Hugging Face 和 Ollama 在各种应用程序中使用,以提高他们在基于视觉的内容方面的能力。
最新的 PaliGemma 2 还具有更复杂和技术性的视觉功能,可以检测化学公式、乐谱、胸部 X 光报告、空间推理等,以扩展更多的人工智能。
据谷歌称,已经使用原始 PaliGemma 的现有开发人员可能会使用这个下一代版本来升级其应用程序的功能和特性,“无需进行重大代码修改即可在大多数任务上立即获得性能提升”。
谷歌在 2024 年全力投入人工智能
谷歌的 2024 年重点是扩展更多人工智能产品,其模型为用户提供了重要的功能,从早期的2023 年 12 月。该公司扩展了更多可用的语言模型功能和技术,现在提供不同类型的模型,以及最新的 Gemini 2.0。
谷歌今年最大的转变之一是在 I/O 2024 上宣布了该公司的人工智能功能,该功能可在其搜索产品(更广为人知的名称)上使用。话虽如此,谷歌的其他产品,如 Workspace 套件、YouTube、Pixel 等,都是该公司最新人工智能发展的受益者。
不仅如此,谷歌 DeepMind 还加速了多项人工智能开发,现在它可以教机器人多种功能,将视觉模型考虑在内,以帮助扩展自主机器的能力。