苹果已经揭示了其在人工智能(AI)大语言模型(LLM)方面的最新发展,并引入了能够解释图像和文本数据的多模型模型的MM1家族。
根据技术Xplore,这一揭幕代表了苹果为增强其AI功能的持续努力。 MM1模型旨在使用多模式AI来改进任务,例如图像字幕,视觉问题答案和查询学习。
什么是多模式?
多模型模型是一个AI模型,能够处理和解释来自多种模式或来源的数据。这些模式可以包括文本,图像,音频,视频或任何其他形式的数据。
多模式模型整合了来自不同模式的信息,以获得对输入数据的更全面的理解,从而使它们能够执行各种任务,例如图像字幕,视觉问题答案等。
它们在需要同时了解不同来源的理解和处理信息的任务中发挥了重要作用,与单模AI系统相比,可以从各种来源中获得更多的了解和准确的解释。
苹果开发MM1:多模式LLM模型
随着参数数量高达300亿,这些多模型模型被设计为处理和分析各种数据输入,包括包含两者的图像,文本和文档。
通过整合不同的数据模式,MM1模型的目标是实现对复杂信息的更全面的理解,可能会导致更准确的解释。
研究人员强调了一个值得注意的功能:MM1的秘密学习能力,这使该模型能够在多个交互之间保留知识和环境。此能力增强了模型的适应性和响应能力,从而使其能够对用户查询提供更相关的响应。
此外,MM1模型还展示了诸如对象计数,对象识别和常识性推理之类的功能,从而使它们能够根据图像内容提供见解。这种多功能性使MM1模型适用于从图像分析到自然语言理解的各种应用。
M1模型家族
在研究的摘要中,研究人员提供了对MM1模型报告成功的架构和设计选择的见解。
他们强调了利用各种预训练数据源的重要性,包括图像捕获对,交织的图像文本数据和仅文本文档,以在各种基准测试中获得竞争成果。
此外,研究人员强调了图像编码器和分辨率对模型性能的影响,突出了这些组件在多模式AI系统中的重要性。
通过增强他们的方法,研究团队开发了一个多模型的系列,这些模型在训练前指标中表现出色,并在各种基准上展示了竞争性能。
“通过扩展提出的食谱,我们建立了MM1,这是一个多模型的家族,最高30b参数,包括密集的型号和Experts(MOE)变体,它们是训练前指标中的SOTA,并在既有竞争性绩效的竞争性效果中都在经过监督的微型基础基础范围内实现了竞争性绩效。”
他们补充说:“多亏了大规模的预训练,MM1享有吸引人的特性,例如增强的文化学习和多图像推理,因此可以促成几乎没有经过思考的促进链。”
研究小组的发现是出版在Arxiv中。