在OpenAI和Google之间最近的AI产品摊牌之后,Meta的AI研究人员似乎准备以自己的多模式参加比赛。
多模式AI模型是大型语言模型的发展版本,因为它们可以处理各种形式的媒体,例如文本,图像,声音录制和视频。
例如,您现在可以打开相机,并询问OpenAI的最新GPT-4 AI型号,以编写周围环境的描述。
变色龙:元融合的多模式AI的早期融合方法
Facebook-Parent Meta希望通过自己的多模式Chameleon启动类似的工具。根据Meta的Chameleon团队的说法,该模型是一系列“基于早期融合令牌的混合模型模型,能够以任何任意序列理解和生成图像和文本”。
变色龙不需要将数据作为单独的实体处理,对早期的技术的改进。使用早期融合体系结构,AI模型有望超越晚期融合方法的局限性。
TechXplore解释说,团队开发了一个系统,该系统无缝集成了不同的数据,例如图像,文本和代码将它们转换为一组通用令牌。
这种方法类似于大型语言模型处理单词的方式,允许将高级计算技术应用于混合输入数据。
使用统一的词汇,系统可以有效地处理和转换各种数据类型,从而增强对复杂信息的整体处理和理解。
2021年11月11日,美国社交网络Instagram在莫斯科平板电脑屏幕上开放的元徽标的照片。 Kirill Kudryavtsev/AFP通过Getty Images

Meta的变色龙在多模式AI任务中的较大型号胜过
与Google的双子座不同,Chameleon是端到端的模型。这意味着Chameleon可以直接从头到尾处理整个过程。
研究人员介绍了新颖的培训技术,以使Chameleon能够与多种令牌类型合作。这涉及一个两阶段的学习过程和一个大约4.4万亿文本,图像或令牌对以及交织数据的大致数据集。
该系统在高速GPU的500万小时内接受了70亿和340亿参数的培训。相比之下,据报道,OpenAI的GPT-4有1万亿参数。
在纸该团队发布在Arxiv预印服务器上,分享了模型在测试过程中显示的有希望的结果。
结果是一种多模型模型,具有令人印象深刻的多功能性,在图像字幕任务中实现了最新性能。根据研究人员的说法,该模型不仅超过了仅文本任务中的Llama-2,而且还对Mixtral 8x7b和Gemini-Pro等模型进行了自己的掌握。此外,它在一个统一的框架内执行复杂的图像生成。
他们还指出,基于某些测试,变色龙匹配甚至超过了更大模型的性能,例如Gemini Pro和GPT-4。
保持在Tech Times。