微软是最新的技术巨头,挑逗AI产品擅长生产Deepfake人类,因此对真正的人构成了威胁。在一个惊人的演示中,生成型AI的发展速度迅速,VASA-1除了单个静态图像,音频剪辑和文本脚本外,都可以从一无所有地生成“超现实的说话脸部视频”。一个研究论文Microsoft说,VASA-1产生“与音频精确同步的唇部运动”,加上“大量面部细微差别和自然头动作,这有助于对真实性和活泼性的感知”。
数十个随附的视频样本说明了这种能力,适用于真正的人类和人造面孔(在一个特别令人震惊的情况下,达芬奇的这是丽莎令人信服地说明了安妮·海瑟薇(Anne Hathaway)的经文。其他演示展示了人工智能使面孔唱歌,用不同语言说话以及从训练集外部处理照片和音频输入的能力。许多视频是如此现实,以至于大多数休闲观众永远不会想质疑他们的真实性。
如果向公众发布,VASA-1几乎可以赋予任何人创建的能力Deepfake视频带有一张照片和最少的音频输入。 Microsoft声称知道这一点。它的新闻稿说,其研究“着重于为虚拟AI化身生成视觉情感技能,旨在进行积极的应用。它并不是要创建用于误导或欺骗的内容。但是,Microsoft承认,与其他相关的内容生成技术一样,它仍然可能被误以为模仿人类。”
“鉴于这种情况,我们没有计划发布在线演示,API,产品,其他实施细节或任何相关产品,直到我们确定该技术将负责任地使用并按照适当的法规使用为止。”
微软的谨慎掩盖了生成AI潜力的热情
如一些观察者,创建一个强大的视频克隆工具,并说不应用它来创建深层效果,这有点像发明炸药,并说可能会滥用炸毁物品。微软宣布VASA-1和概述其功能的意图肯定不是道歉。它自己的语言清楚地表明,该公司如何权衡AI的风险与其利益的风险:“在承认滥用的可能性的同时,必须认识到我们技术的巨大积极潜力,”它说。 “好处 - 例如增强教育平等,改善具有沟通挑战的个人的可及性,提供陪伴或治疗支持对于有需要的人来说,除其他许多方面 - 强调了我们的研究和其他相关探索的重要性。”
生物特征验证公司主席Kevin Surace令牌,同意 - 到了一点。他在一篇文章中在寄存器。 “即使在旧图片上也是动画的。在某种程度上,这很有趣,对于另一个图片,它具有可靠的业务应用程序,我们将在未来几个月和几年内使用。”
然而,对于生物识别行业及其相关的监管界,它的技术和发展速度也对现有系统的可靠性提出了严重的问题。使用VASA-1和其他AI欺骗工具生成的深击可以用于欺骗面部识别系统。
VASA-1的主要跳跃之一是能够以“具有吸引力的视觉情感技能”来创造面孔。视觉情感技能(VAS)是让我们通过视觉刺激来感知和解释情绪的方法,例如面部表情和肢体语言。对于VASA-1,这些技能被颠倒了,以适用于虚假视频阿凡达(Avatar)在观众中唤起情感的能力。根据Microsoft,“核心创新包括基于扩散的整体面部动力学和头部运动生成模型,可在脸部潜在的空间中起作用,以及这种表现力和分散的面孔的发展潜在空间使用视频。”
换句话说,该算法在添加细节的同时降低了噪声,并捕获了整个面部和头部作为一个单元而不是不同的元素的运动,而不是不同的元素,该元素以高度精制和模块化代码表示。
调节生成AI模型可能非常困难
写作寄存器托马斯·克拉本(Thomas Claburn)说,瓦萨-1是政府争先恐后地制定法规的威胁。 “这些AI生成的视频可以令人信服地动画以克隆的声音说脚本单词,只是美国联邦贸易委员会上个月警告的事情,此前此前曾提出过一项规则,以防止AI技术被使用。模仿欺诈,”克拉本写道。
Surace认为,尽管在全球范围内弹出了以AI为中心的法律浪潮,但监管措施可能最终只是装饰性的。
他说:“微软和其他人暂时退缩了,直到他们解决隐私和使用问题。” “任何人都会为了正确的原因而规范谁使用它?因为该空间的开源性质,无论如何都无法调节它是不可能的。”