Openai推出了其最新的创新Sora模型,该模型能够根据文本输入制作长时间的视频。但是,在进行对其潜在滥用的彻底评估之前,公众将不容易访问该模型。

提示:一个时尚的女人走在东京街上,里面充满了温暖的霓虹灯和动画的城市标牌。她穿着黑色皮夹克,一件长长的红色连衣裙和黑色靴子,并带有黑色钱包。她戴太阳镜和红色唇膏。她自信和随便走路。街道潮湿且反射性,从而产生了五颜六色的灯光的镜子效果。许多行人走来走去。
从文本提示中生成长时间的视频
以日语单词的“天空”命名Engadget报道说,Sora代表了AI生成的视频技术的重大进步。
Openai并没有立即将Sora发布给公众,而是选择了与精选的学者和研究人员一起访问。他们的任务是评估模型的功能并评估与使用相关的任何风险。
Sora表现出极大的熟练程度,以产生具有多个字符,动态动作和详细环境的复杂场景。该模型不仅可以准确地解释文本提示,而且还可以理解所描绘方案中的空间关系。
索拉的局限性
根据Openai,Sora根据“对语言的深刻理解”进行操作,允许它准确地解释文本提示。但是,像大多数AI图像和视频生成器一样,Sora并非完美无瑕。
在一个例子中,达尔马提亚人透过窗户的要求的要素,人们“沿着运河街道行走和骑自行车”被产生的视频完全省略了。
此外,Openai警告说,该模型可能会在理解因果关系方面挣扎,这在视频中很明显,其中一个人被描绘成一个没有可见咬合的饼干。
通过测试与视频模型一起加入公司
Sora加入了由Meta,Google和Runway等公司开发的文本到视频模型的不断增长的景观。虽然已经引入或暗示了其他工具,但没有一个与Sora制作长度60秒的视频的能力相匹配的。
此外,与同行不同,Sora一口气生成完整的视频,从而确保整个视频中的主题一致,即使它们短暂退出了框架。
文本到视频工具的出现引起了人们对产生高度逼真的虚假内容的潜力的担忧。
华盛顿大学的教授Oren Etzioni专门研究人工智能,真正的媒体创始人表示深切关注,尤其是对潜在的对密切竞争选举的影响。
而且,《纽约时报》据报道,由于技术的能力,据报道,更广泛的生成AI采用引发了艺术家和创意专业人士的强烈反对。
为了应对这些问题,Openai强调了其与各个领域的专家的合作,包括错误信息,可恨的内容和偏见,以在公开发布之前彻底评估该工具的含义。
此外,该公司正在开发能够识别Sora生成的视频的检测工具,并在视频中嵌入元数据以促进检测。
尽管OpenAI并未透露有关Sora培训过程的具体细节,但它指出了版权持有人的公开视频和许可内容的利用。
