文本生成视频的优化算法出现——Runway技惊四座

Tags: 人工智能文本生成视频作者：MedSci原创更新：2023-04-10

文本生成视频并不新鲜，在“文字生成图片”到“文字生成视频（Text-to-Video，T2V）”自然也是AI在相关领域的自然发展。

Meta公司Make-A-Video让文本变视频成为可能

2022年9月，Meta就公布了旗下最新的T2V工具——“Make-A-Video”，不过整体来说，视频还有些问题。

“Make-A-Video”官网的论文显示，该工具的基础运行逻辑简单来说就是，当用户输入一串文字后，系统会生成16张在时间上有连续性的64X64像素的RGB图片，然后这作品图片将会通过插值模型增加视频的帧数，让前后帧之间的动作更加平滑，之后通过两个超分辨率模型，将图像的像素提升到256×256像素后，再提升到768×768像素，生成高分辨率和帧率的视频。

图：由文本直接生成的视频

几乎同时，Google也发布文本内容生成短视频工具：Imagen Video，这个工具主要功能是把段子自动生成短视频。谷歌项目研发团队希望人工智能模型能够“显着降低高质量内容生成的难度”。Imagen Video建立在Google的Imagen之上，这是一个类似于OpenAI的DALL-E的文本到图像程序。不过，谷歌表示：“我们决定不发布Imagen Video模型或其源代码，直到这些问题得到缓解。

Phenaki可以生成两分钟视频

此后，“Phenaki”的团队更是整了个大活，直接丢出了可以利用一大段文字生成短片的工具，该工具不仅可以生成短片，甚至可以用文字运镜，开发者甚至已经用该工具生成了一个时长两分钟的视频。

阿里低调开放文本生成视频大模型

今年3月22日，阿里达摩院低调地在魔搭社区（ModelScope）放出了“文本生成视频大模型”。

目前这个模型，由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间这3个子网络组成，整体模型参数约17亿，仅支持英文输入。扩散模型采用Unet3D结构，通过从纯高斯噪声视频中，迭代去噪的过程，实现视频生成的功能。

Runway模型Gen-2，技惊四座

3月21日， AI 初创公司 Runway宣布了一种新的 AI 视频生成模型Gen-2，这个模型可以实现从文本到视频的转化。Runway的新算法一出现，就技惊四座！这真正可以生成较长的视频，未来可能用于制作电影等！

Runway 提供了一个基于网络的视频编辑器，专门用于背景移除和姿势检测等 AI 工具。该公司帮助开发了开源文本到图像模型Stable Diffusion ，并于 2 月宣布了其首个 AI 视频编辑模型 Gen-1 。Gen-1 专注于转换现有的视频片段，让用户输入粗略的 3D 动画或摇晃的智能手机剪辑并应用 AI 生成的叠加层。例如，在下面的剪辑中，硬纸板包装的镜头与工业工厂的图像配对，制作出可用于故事板或推介更精美的功能的剪辑。

相比之下，Gen-2 似乎更专注于从头开始生成视频，尽管有很多注意事项。首先，Runway 分享的演示片段短小、不稳定，而且肯定不逼真，其次，访问受限。彭博社报道称，用户必须通过 Runway 的 Discord 注册才能加入 Gen-2 的候补名单，该公司发言人 Kelsey Rondenet 告诉 The Verge，Runway将“在未来几周内提供广泛的访问权限”。

换句话说，我们现在要判断 Gen-2的只是一个演示卷轴和一些剪辑（其中大部分已经作为 Gen-1 的一部分进行广告宣传）。

从上面可以看出，目前的AIGC领域有多卷了！

来源：MedSci原创

版权声明：
本网站所有注明“来源：梅斯医学”或“来源：MedSci原创”的文字、图片和音视频资料，版权均属于梅斯医学所有，非经授权，任何媒体、网站或个人不得转载，授权转载时须注明“来源：梅斯医学”。本网所有转载文章系出于传递更多信息之目的，且明确注明来源和作者，不希望被转载的媒体或个人可与我们联系，我们将立即进行删除处理。同时转载内容不代表本站立场。
在此留言

小提示：本篇资讯需要登录阅读，点击跳转登录

文本生成视频的优化算法出现——Runway技惊四座

相关推荐