Google的AI工具成像可让您从文本推出中生成高分辨率视频

2022-10-07

AI生成的艺术品最近一直在上升。工具，例如从，Midjourney和稳定的扩散已经在改变艺术的景观，因为越来越多的人可以通过文本提示来生成数字艺术品。

但是，如果这种文本到图像生成趋势升至视频，会发生什么？如果您键入提示：“一头牛跳过月球”，并获得本文的运动剪辑怎么办？

也许，我们可以通过“在暴风雨海域中的海盗舰船之间进行激烈的战斗”而变得更加史诗般。

得益于Google的视频生成AI工具，这些提示现在可以转换为电影。

视频图像

Google的视频图像，仅在10月5日宣布了一种可以从文本输入中创建高清视频的文本对电视生成型AI模型。

文本条件的视频扩散模型能够以24 fps的帧速率生产最大分辨率为1280768的视频，首先报道VentureBeat。

在它的最近发行的论文，“成像视频：具有扩散模型的高清晰度生成，” Imagen视频具有高度的可控性和世界知识，并且可以以高保真度制作视频。

生成模型可以以各种美学风格来制作各种电影和文本动画，并解释3D，以及渲染和动画文本。该模型现在处于研究阶段，但它的引入仅在Imagen突出了基于合成模型的快速开发后仅五个月。

成像视频包括一个交织的空间和时间超分辨率扩散模型，基本的视频扩散模型和文本编码器（冷冻T5-XXL）。根据Google的说法，这种设计是使用过去对基于扩散的图像生成的研究所获得的知识创建的。

研究团队还将渐进式蒸馏融合在一起，以快速，高质量的抽样中的视频模型，而没有分类器的方向。

视频生成框架的文本条件视频制作，空间超分辨率和时间超分辨率功能是通过七个子视频扩散模型的级联来进行的。

整个喀斯喀特公司以128帧或大约1.26亿像素的方式以每秒24帧的速度生产高清1280768电影。

该模型的许多令人印象深刻的创意技能包括它可以创建受到诸如Vincent van Gogh等知名艺术家的绘画启发的视频，在保持其结构的同时以3D显示旋转对象，并以各种动画风格呈现文本。

由于生成模型可能会因产生有害内容而被滥用，因此Google表示，它已经采取了几项措施来减轻这些问题。该公司通过内部测试确认，它实施了输入文本提示过滤和输出视频内容过滤。

然而，谷歌发出警告，警告说，仍有一些重大的道德和安全问题需要解决。

因此，该公司尚未公开发布该模型，因为它们仍然必须处理这些问题并减轻潜在风险。

本文由技术时报拥有

由华金·维克多·塔克拉（Joaquin Victor Tacla）撰写