当通过网络传输的音频数据量呈爆炸式增长时,Meta 拿出了一个研究项目,该项目可以大幅降低必要的速度和消耗的带宽。从昵称“EnCodec”来看,Meta 的音频代码有一个独创性:AI 占有突出的地位。 EnCodec 是 Facebook AI Research FAIR 实验室的一个项目,这是有充分理由的。对于沙文主义者来说,好消息是,发表这篇科学文章的四名研究人员中的三名(Alexandre Défossez、Jade Copet、Gabriel Synnaeve 和 Yossi Adi)是该研究的一部分。巴黎博览会!
在脚步声中来自 SoundStream 的编解码器、来自 Google 的,EnCodec使用卷积神经网络来压缩/解压缩声音文件。该技术很复杂,因为压缩磨机分三个阶段工作:第一次压缩以获得较低的第一射流帧率它给出了波长形状和目标尺寸。然后一个量化信号的向量将知道要保留哪些信息。在链的末端,信号的解压缩再次通过“调整”到压缩的神经网络完成,以恢复高质量的信号。我们鼓励您在 Meta 博客上收听不同编解码器和 EnCodec 之间的音频比较。
比MP3好十倍
如果这篇科学论文超出了普通人的能力范围,那么最终的承诺很容易理解:以 6 kbit/s 压缩的 EnCodec 文件承诺与以 64 kbit/s 压缩的 MP3 文件相同的音频质量。 x10 系数当然是理想的,但有点失真 - MP3 成为参考音频编解码器已经有一段时间了,但它的优点是可以很好地了解这项新技术带来的收益。
这项技术的到来显然也伴随着一些问题:如果 Meta 研究人员确认一个 CPU 核心“足够”进行实时解压,那么并非所有核心都是平等的。研究人员在“2019 款 MacBook Pro”上测试了他们的编解码器,但没有提供有关在 ARM 智能手机内核上可以做什么的更多细节。谈论 NPU(神经处理器)进行压缩/解压缩的使用也很不错——CPU 在“AI”任务中的效率通常低于 NPU。在延迟方面(实时应用程序的一个重要元素),48 kHz 压缩/解压缩目前对于此类使用来说效率不够高。但除了这种压缩已经非常适合音乐文件这一事实之外,研究人员也不排除在不久的将来提高实时性能的可能性。
首先是语音和音频,其次是视频
Facebook 传达的比特率示例是最适合语音和音乐的比特率示例。事实上,EnCodec 正是针对前两种用途进行了首次优化。当您查看时,这是有道理的商业当前元。借助 Facebook Messenger 和 WhatsApp,Meta 通过通话和其他消息处理大量音频。最微小的改进——在这里,它似乎很重要——承诺显着节省带宽和存储。因此成本。另一个好处,特别是对于电信基础设施较差的国家来说:显着提高音频质量,而不会造成网络超载。即使是最古老的:虽然 VoLTE 消耗 23.85 kbit/s,但 EnCodec 6 kbit/s 的高质量对于仅限于 12.2 kbit/s 的旧 3G 网络来说是一件幸事。
这段视频显然是 Meta 的瞄准目标。这家美国巨头在其博客中解释说“虽然我们的技术尚不支持视频,但这是一项举措的开始[…]这将能够增强视频会议、在线流媒体电影以及在 VR 中与朋友玩游戏等体验”。添加甚至超过“这些知识对于未来与元宇宙相关的实验将很有用”。目标依然是目标!
元在世界上令人讨厌……但在搜索世界中却并非如此
在其股价暴跌之间,他的“元宇宙”的嘲讽甚至对其服务的(通常是合理的)指控Facebook或者Instagram,Meta不在公众视野中。但在研究领域却有所不同,该公司在该领域仍然非常受尊重。
这就是如何框架AI中最著名的PyTorch是由Meta开发的,然后捐赠给Linux基金会。 Javascript 世界也是如此,这很大程度上要归功于 Meta 开发并授权了 MIT React,这是最重要的界面设计工具之一。这两个例子以及数十个开放且免费的工具(Fresco、Docusaurus 或 Zstandard)让我们对 EnCodec 得到同样的待遇抱有希望。
如果信守承诺并开放标准,Meta 编解码器的影响可能是巨大的。
来源 : 艺术技术