Meta正在开发新的多模式AI模型变色龙，以竞争Openai的GPT-4O

2024-05-22

在OpenAI和Google之间最近的AI产品摊牌之后，Meta的AI研究人员似乎准备以自己的多模式参加比赛。

多模式AI模型是大型语言模型的发展版本，因为它们可以处理各种形式的媒体，例如文本，图像，声音录制和视频。

例如，您现在可以打开相机，并询问OpenAI的最新GPT-4 AI型号，以编写周围环境的描述。

变色龙：元融合的多模式AI的早期融合方法

Facebook-Parent Meta希望通过自己的多模式Chameleon启动类似的工具。根据Meta的Chameleon团队的说法，该模型是一系列“基于早期融合令牌的混合模型模型，能够以任何任意序列理解和生成图像和文本”。

变色龙不需要将数据作为单独的实体处理，对早期的技术的改进。使用早期融合体系结构，AI模型有望超越晚期融合方法的局限性。

TechXplore解释说，团队开发了一个系统，该系统无缝集成了不同的数据，例如图像，文本和代码将它们转换为一组通用令牌。

这种方法类似于大型语言模型处理单词的方式，允许将高级计算技术应用于混合输入数据。

使用统一的词汇，系统可以有效地处理和转换各种数据类型，从而增强对复杂信息的整体处理和理解。

与Google的双子座不同，Chameleon是端到端的模型。这意味着Chameleon可以直接从头到尾处理整个过程。

研究人员介绍了新颖的培训技术，以使Chameleon能够与多种令牌类型合作。这涉及一个两阶段的学习过程和一个大约4.4万亿文本，图像或令牌对以及交织数据的大致数据集。

该系统在高速GPU的500万小时内接受了70亿和340亿参数的培训。相比之下，据报道，OpenAI的GPT-4有1万亿参数。

在纸该团队发布在Arxiv预印服务器上，分享了模型在测试过程中显示的有希望的结果。

结果是一种多模型模型，具有令人印象深刻的多功能性，在图像字幕任务中实现了最新性能。根据研究人员的说法，该模型不仅超过了仅文本任务中的Llama-2，而且还对Mixtral 8x7b和Gemini-Pro等模型进行了自己的掌握。此外，它在一个统一的框架内执行复杂的图像生成。

他们还指出，基于某些测试，变色龙匹配甚至超过了更大模型的性能，例如Gemini Pro和GPT-4。

保持在Tech Times。