他一边说话,一边思考:这就是 Moshi 的聊天机器人,是 Kyutai 开发的原型 AI 模型。法国人工智能研究实验室(由 Xavier Niel 等资助)在 7 月初的一项技术演示让所有人感到惊讶,值得采访其首席执行官帕特里克·佩雷斯 (Patrick Perez)。
7 月 3 日,Kyutai 揭开了 Moshi 的面纱,这是一个配备了前所未有的语音能力的人工智能模型。聊天机器人原型已经向媒体迈出了第一步,但目前也可供所有人使用。地址。该原型的特殊性在于能够以尽可能自然和富有表现力的方式进行口头交流,同时保持对对话者的关注。
Moshi 的多式联运模型还可以在本地安装,无需互联网连接即可运行。 Kyutai 基金会将该模型作为开源提供,以便为 AI 生态系统的研究和开发做出贡献。我们想更多地了解 Moshi 及其实验室及其首席执行官帕特里克·佩雷斯 (Patrick Perez)。
Moshi 是一款语音助手,在某些关键领域的功能超过了 GPT-4o:它可以同时说话和聆听,同时继续生成“思想流”,这有时在使用中会令人不安。 Moshi 是最接近人类对话“体验”的东西吗?
莫西聊天室不是语音助手,而是基于 Moshi 构建的实验原型,Moshi 是我们从头开始开发的通用多模态文本语音模型。事实上,这个原型在自然性和流畅性方面展示了前所未有的口头交互能力。
Moshi 的可能用途是什么?您希望这项技术在哪些领域发挥作用?
这种多模式模型的潜在应用有很多:
1/ 与人工智能(助手或同伴)进行自然的口头对话,以实现包容性和可访问性、教育、辅导、游戏、客户服务、信息搜索、交互式机器人等。
2/ 富有表现力的多扬声器语音合成,用于音频访问书面内容、文化和艺术作品的创作、游戏等。
3/ 用于沟通和无障碍的同步音频翻译。
Moshi 需要 8 个人的团队花费 6 个月的时间进行开发,考虑到所有因素,这似乎微不足道。这是否意味着现在设计像 Moshi 这样的助手相对容易?
这实际上是一个成就!除了以极其紧张和专注的方式工作以及拥有足够的计算资源之外,这还需要具有非常专业和互补的技能。对于最后一点,我们从 Scaleway 租用了非常强大的机器,这要感谢我们三位创始人的大量捐赠。
Moshi 能听懂多种口音,但助理目前只说英语。是否有长期计划其他语言以及一个附属问题,让LLM学习其他语言复杂吗?
我们计划包括其他语言,首先是法语和西班牙语。话虽如此,我们的想法是自由共享我们的模型和代码,使它们能够全部或部分地重新训练。因此,考虑到其他语言,即使实现起来并不简单,生态系统中的其他参与者也可以通过必要的资源(数据、技术、机器)和适当的用例来完成。
Moshi 所基于的法学硕士 Helium 有 70 亿个参数,这可能看起来很多,但与其他法学硕士相比如何(不知道 GPT-4 有多少参数),最重要的是——质量如何LLM 的参数数量有限吗?您使用了哪些训练数据?
这是一个中型型号。 “小”模型大约有 2 到 30 亿个参数,“大”模型的大小从几十到几百(甚至几千?)数十亿个参数不等。规模并不代表一切,但有了正确的数据(数量和质量)和最新的学习技术,更大的规模通常会在更广泛的任务中带来更好的表现。对于 Helium 预训练,我们使用相当标准的网络数据组合,特别是来自 CommonCrawl 项目的数据。大约写了一千亿(一万亿)字。
Moshi 的学习过程还涉及 100,000 次口语对话和文本转语音引擎。现在,我需要你向我解释它是如何工作的!
Helium“编写”这 100,000 个对话,而早期版本的 Moshi 允许对给定的声音进行语音合成,将其转换为音频对话。
莫西的“声音”背后是否有人?
我们与一位配音艺术家合作,通过他的录音,我们可以修复上述 100,000 次对话中的 AI 声音。
Kyutai 还开发了 Moshi 的变体,用于本地操作,因此不需要互联网连接。可以通过 GPU 在您的个人计算机上使用它。有两个问题:越来越多的 PC 和 Mac 都配备了 NPU,为什么不使用 NPU?智能手机的“纳米”版本是否可能?
我们的模型目前设计为在 Nvidia GPU 上进行训练和使用。因此,压缩本地版本的演示自然是在相同类型的芯片上进行的,但尺寸较小。作为一个研究实验室,我们主要希望展示我们模型的嵌入式版本的可行性。我们希望共享这些模板和相关代码将允许其他人根据他们的需求进一步实现可移植性。是的,我们最终可以想象一个更小、更专业的 Moshi 在移动设备上运行。
当我们谈论生成式人工智能时,安全问题很快就会出现。如何确保Moshi不被恶意利用?
与其他生成式人工智能一样,“微调”(大规模无监督预学习之后的监督学习阶段)的一部分致力于加强安全性以及其他功能。此外,我们正在研究模型生成的内容的隐形标记,这是一个既困难又重要的研究问题。
最后,我们坚信开源在安全性方面的优点(除其他外):更多的参与者可以检查、评估和保护由此共享的模型。在某种程度上,恶意使用越来越强大(在控制和现实主义方面)和越来越多的生成模型是不可避免的,不断普及和宣传这些技术主题对于限制损害至关重要。
莫西的未来会怎样?
我们正在继续开发它,以提高其一些功能(相关性、表达性、语言)……我们期待在我们共享模型、代码和技术信息后看到生态系统将如何使用和修改它(正在进行中) 。
Kyutai 在法国乃至欧洲都拥有相当独特的地位,因为该实验室是由泽维尔·尼尔 (Xavier Niel) 资助的。与其他投资者首先寻求盈利能力的人工智能公司相比,这是否安全?
还由埃里克·施密特和鲁道夫·萨德资助;这三个人都是捐助者,而不是投资者(我们是一个基金会)。所以,是的,这确保了我们在研究选择和团队构成方面具有极大的独立性,同时拥有特殊的资源。