Meta 声称开发了世界上最复杂的图像生成人工智能。虽然需要较少的计算能力,但该 AI 模型的目标是比 Midjourney 或 Dall-E 等竞争解决方案更高效。
Meta 刚刚揭开面纱CM3莱昂,一个新的AI模型。镜像中途,Adobe 萤火虫,稳定扩散或达尔-E,该模型能够根据短文本生成图像。
据 Meta 称,它的创建比竞争解决方案更高效,同时需要更少的计算能力。尽管计算能力有限,CM3Leon 仍受益于总共 70 亿个参数,是 OpenAI 生成器 Dall-E 的两倍。
“借助 CM3Leon 的功能,图像生成工具可以生成更一致的图像,更好地匹配查询”Meta 表示,确保人工智能所需的计算能力比竞争对手少五倍。
Meta 声称彻底改变了图像生成器
为了设计人工智能,Meta 研究人员选择了不同的方法其他公司也参与了人工智能的竞赛。 Dall-E 或稳定扩散等工具依赖于称为“扩散”的过程来生成图像。此过程包括逐渐减去元素,直到获得接近用户查询的图像。
不幸的是,这种方法需要大量的计算能力。为此,必须使用强大的计算机为人工智能提供动力,而计算机会消耗电力。此外,这个过程相当缓慢。不可能实时生成连续图像。
这就是 Meta 转向的原因另一种图像生成机制,称为“注意力”。人工智能将评估所传达的数据的相关性,这在创建图像时节省了大量的时间和精力。该过程还包括所谓的调整步骤。在此阶段,对说明的理解得到完善。
CM3Leon 与其他图像生成器的区别还在于第二个功能。人工智能还能够为图像添加字幕。如果您给模型一张照片,他们将能够详细说明它所代表的内容。与 GPT-4 或 PaLM 2 一样,CM3Leon 是一种多模式 AI。它可以处理多种数据源,例如文本和图像。
免版税图片
Meta 还指定 CM3Leon 需要训练数据较少能够发挥作用。为了避免可能出现的问题,这家加州巨头专门使用 Shutterstock 上提供的免版税图片来训练人工智能。这项预防措施允许“在不牺牲性能的情况下避免与图像所有权和归属相关的问题”,元解释道。
Adobe 依靠类似的方法开发了 Firefly,这是一种生成式 AIPhotoshop。该软件公司仅使用 Adobe Stock 数据库中的图像、免版税图像和免费许可图像来训练 AI 模型。
Meta并不是他的第一次尝试。近几个月来,门洛帕克小组推出了几种用于研究领域的人工智能模型。 Meta 特别提供了语音盒,一种能够模仿人类声音的人工智能,甚至音乐生成器,一个可以按需制作音乐的工具。
与此同时,马克·扎克伯格的公司透露LLaMA,大型语言模型元人工智能,一种开源模型,将自己视为 GPT 的替代品。该公司还旨在提供一种可以学习一些知识的人工智能模型就像人类的智慧一样。目前,Meta 尚未具体说明 CM3Leon 何时可供用户使用。
来源 : 元