梅斯医学MedSci APP
医路相伴,成就大医

文本生成视频的优化算法出现——Runway技惊四座

Tags: 人工智能   文本生成视频      作者:MedSci原创 更新:2023-04-10

文本生成视频并不新鲜,在“文字生成图片”到“文字生成视频(Text-to-Video,T2V)”自然也是AI在相关领域的自然发展。

Meta公司Make-A-Video让文本变视频成为可能

2022年9月,Meta就公布了旗下最新的T2V工具——“Make-A-Video”,不过整体来说,视频还有些问题。

“Make-A-Video”官网的论文显示,该工具的基础运行逻辑简单来说就是,当用户输入一串文字后,系统会生成16张在时间上有连续性的64X64像素的RGB图片,然后这作品图片将会通过插值模型增加视频的帧数,让前后帧之间的动作更加平滑,之后通过两个超分辨率模型,将图像的像素提升到256×256像素后,再提升到768×768像素,生成高分辨率和帧率的视频。

图:由文本直接生成的视频

几乎同时,Google也发布文本内容生成短视频工具:Imagen Video,这个工具主要功能是把段子自动生成短视频。谷歌项目研发团队希望人工智能模型能够“显着降低高质量内容生成的难度”。Imagen Video建立在Google的Imagen之上,这是一个类似于OpenAI的DALL-E的文本到图像程序。不过,谷歌表示:“我们决定不发布Imagen Video模型或其源代码,直到这些问题得到缓解。

Phenaki可以生成两分钟视频

此后,“Phenaki”的团队更是整了个大活,直接丢出了可以利用一大段文字生成短片的工具,该工具不仅可以生成短片,甚至可以用文字运镜,开发者甚至已经用该工具生成了一个时长两分钟的视频。

阿里低调开放文本生成视频大模型

今年3月22日,阿里达摩院低调地在魔搭社区(ModelScope)放出了“文本生成视频大模型”。

目前这个模型,由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间这3个子网络组成,整体模型参数约17亿,仅支持英文输入。扩散模型采用Unet3D结构,通过从纯高斯噪声视频中,迭代去噪的过程,实现视频生成的功能。

Runway模型Gen-2,技惊四座

3月21日, AI 初创公司 Runway宣布了一种新的 AI 视频生成模型Gen-2,这个模型可以实现从文本到视频的转化。Runway的新算法一出现,就技惊四座!这真正可以生成较长的视频,未来可能用于制作电影等!

Runway 提供了一个基于网络的视频编辑器,专门用于背景移除和姿势检测等 AI 工具。该公司帮助开发了开源文本到图像模型Stable Diffusion ,并于 2 月宣布了其首个 AI 视频编辑模型 Gen-1 。Gen-1 专注于转换现有的视频片段,让用户输入粗略的 3D 动画或摇晃的智能手机剪辑并应用 AI 生成的叠加层。例如,在下面的剪辑中,硬纸板包装的镜头与工业工厂的图像配对,制作出可用于故事板或推介更精美的功能的剪辑。

相比之下,Gen-2 似乎更专注于从头开始生成视频,尽管有很多注意事项。首先,Runway 分享的演示片段短小、不稳定,而且肯定不逼真,其次,访问受限。彭博社报道称,用户必须通过 Runway 的 Discord 注册才能加入 Gen-2 的候补名单,该公司发言人 Kelsey Rondenet 告诉 The Verge,Runway将“在未来几周内提供广泛的访问权限”。

换句话说,我们现在要判断 Gen-2的只是一个演示卷轴和一些剪辑(其中大部分已经作为 Gen-1 的一部分进行广告宣传)。

从上面可以看出,目前的AIGC领域有多卷了!

来源:MedSci原创
版权声明:
本网站所有注明“来源:梅斯医学”或“来源:MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有,非经授权,任何媒体、网站或个人不得转载,授权转载时须注明“来源:梅斯医学”。本网所有转载文章系出于传递更多信息之目的,且明确注明来源和作者,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。同时转载内容不代表本站立场。
在此留言
小提示:本篇资讯需要登录阅读,点击跳转登录

相关推荐

移动应用
medsci.cn © 2020