市场中有不同类型的AI模型可供选择,它将在很大程度上取决于他们从机器学习技术中需要的服务类型,并且现在,使用Paligemma 2遵循了以前的技术。这个新的AI是一种开放视觉模型(VLM),旨在了解图像和其他形式的非文本媒体。
该公司正在加强其对人工智能的多方面方法,尤其是因为它已经为世界提供了著名的双子座AI,这是一种可以接受不同类型的输入的多模式。
Google揭开了其新视语言模型的Paligemma 2
Google揭示了他们最新的世界AI模型,它被称为paligemma 2这是该公司Gemma模型的一部分,该模型侧重于以视觉为中心的人工智能的进一步体验。最初,Googleannounnounnounun在5月的最后I/O 2024上进行了gemma 2模型,它以视觉模型(VLM)为中心,该模型(VLM)专门了解用户的视觉提示。
Paligemma 2是去年5月推出Paligemma之后的最新消息,当时,它已经能够为图像和简短视频提供简短的标题,并使用AI更好地了解图像,对象检测和细分以及“视觉问题答案”。
但是,随着Paligemma2的推出,Google现在可以为所述图像和视频提供“长字幕”,One提供了有关特定照片的更多详细信息,可提供不同尺寸的特定照片。
Google表示,目前提供的型号尺寸,包括3B,10B和28B参数,包括224px,448px和896px分辨率。 Paligemma 2还可以描述场景中发现的图像动作,情感和叙述。
Paligemma 2如何帮助Google的最新AI技术?
Google现在将其Paligemma 2 Open VLM提供给开发人员,可通过Kaggle,Hugging Face和Ollama获得各种应用程序,以提高其在基于视觉的内容中的功能。
最新的Paligemma 2还具有更复杂和技术的视觉功能,可以检测化学公式,音乐得分,胸部X射线报告,空间推理等,以扩大更多的AI。
根据Google的说法,已经使用原始paligemma的现有开发人员可能会使用此下一代版本来升级其应用程序的功能和功能,并“在大多数没有重大代码修改的任务上可以立即提高性能”。
Google这个2024年全力以赴
Google拥有一个庞大的2024年,该2024集中在扩展更多的人工智能提供,其模型为用户提供重要功能,从早期开始在2023年12月,该公司扩大了更多语言模型的功能和技术,现在提供了不同类型的模型以及最新的Gemini 2.0。
今年与Google最大的转变之一是该公司的I/O 2024宣布的人工智能功能,该功能可在其搜索产品上提供,更名为。话虽如此,其他来自Google的其他产品,例如其Workspace Suite,YouTube,Pixel等,都是该公司最新AI开发项目的受益者。
不仅如此,Google DeepMind还加强了几个AI开发项目,现在可以教机器人多个功能,并考虑到视觉模型以帮助扩展自动机器的功能。