文章来源：东西互娱

图片来源：由无界AI生成

2024开年，视频大模型领域就迎来一系列重量级更新。

谷歌公司在不久前的1月23日重磅推出了Lumiere模型，此前以文生图工具闻名的Midjourney于1月2日正式官宣了该公司在未来几个月训练Text-to-Video模型的计划；Runway的Gen-2模型也迎来了又一次重要的功能更新。

而在国内，过去一个月，字节跳动和腾讯也分别公布了MagicVideo V2与VideoCrafter2。

AI生成视频会如何进化？近期，知名投资机构a16z在其官网发布了《为什么2023是AI视频的突破年，以及2024年的展望》一文，详细分析了AI视频在过去一年的进展，以及现在面临的问题和展望。

下为东西文娱的编译，版权属于原作者。

2023 年是AI视频的兴盛之年。23年初时，市面上还不存在公开的文本生成视频模型。但仅仅12个月后，就有数十种视频生成产品投入使用，全球范围内也有了数以百万计的用户根据文字或图片提示来制作短视频。

相对而言，这些产品仍然具有局限性——大多数只能生成 3 到 4 秒钟的视频，视频质量参差不齐，而人物风格一致性等问题也亟待解决。想凭借单一（或多个）文字提示就制作出皮克斯水平的短片，我们仍有很长的路要走。

不过，过去一年里视频生成技术上取得的进展说明，我们正处于大规模变革的起始阶段——这与图像生成技术的发展存在相似之处。文生视频模型正在不断演化进步，而图像生成视频和视频生成视频等分支也同样在蓬勃发展。

我们跟进了目前为止最重要的发展、值得关注的公司以及该领域尚存的潜在问题，以此来帮助人们理解这一创新上的大爆发。

现在的人们能够在哪里生成AI视频？

产品

今年，截至本文发布，我们已经跟进了21个公开的AI视频模型。虽然你可能早就听说过Runway、Pika、Genmo以及Stable Video Diffusion，但实际上，你还能在市面上发现更多模型。

这些产品大多出自初创公司之手，而其中大多都是从Discord机器人开始的，它们有一些优势：

1.你不需要建立面向消费者的界面，可以专注于模型质量。

2.你可以利用 Discord 每月1.5亿活跃用户的基础进行传播，尤其是你在平台的 “发现”页面上被推荐的话。

3.公共频道能够使新用户通过查看他人作品的方式轻松获得创作灵感，还能为用户的作品提供社交认证。

不过，越来越多的视频产品建立了自己的网站，甚至是移动端APP——尤其在其越发成熟的情况下。虽然Discord为制作团队提供了一个很好的启动平台，但它在纯生成基础上所添加的工作流程有限，制作团队对消费者体验的把握也非常有限。同样值得注意的是，还有很大一部分人不使用 Discord，因此这一部分人可能会觉得界面乱七八糟，或者干脆就不怎么用。

研究和科技巨头

然而，谷歌、Meta等等科技巨头去哪里了？尽管你可能已经知道了科技巨头们发表的诸多热度很高的帖子，比如说Meta的Emu Video, 谷歌的VideoPoet和Lumiere,以及字节跳动的MagicVideo,然而他们的模型却根本不在已公开模型的队伍里。

截至目前，除了阿里巴巴以外，其他的科技巨头都仍未公开发布自己的视频生成模型。但是，这些巨头却纷纷以各种各样的形式来发表视频生成的相关论文；同时，他们还在不声明模型是否会发布，或者什么时候发布的前提下对外发布演示版本的视频。

这些科技巨头坐拥数十亿用户，拥有巨大的分销优势。但为什么，当他们的演示作品看上去十分成熟，明明有机会可以在这一新兴市场里占据巨大份额时，他们却选择不发布自己的视频生成模型呢？

很重要的一点是，这些巨头的动作往往比较慢。虽然Instagram在去年年底为Stories推出了一款AI背景生成器，而TikTok也在暗中推出AI滤镜，但大部分巨头仍然没有发布文字-图像模型。出于法律、安全以及版权等方面的考虑，这些公司很难将科研成果转化成产品，因此需要推迟产品的发布，这就让行业新人获得了先发制人的机会。

AI视频的下一步是什么？

如果用过这些模型，你就会知道，AI视频还需要改进很多地方才能真正进入黄金时代。目前，让模型生成一个和你输入的内容相匹配的精彩短视频，这样的“神奇时刻”虽然是可能的，但是比较罕见。而更常见的情况是，你得点好几次 “重新生成”，然后裁剪或编辑最初的内容，才能获得专业级的短视频。

AI视频领域的大多数公司都专注于解决几个核心问题（目前尚未解决）：

控制——你能否同时控制场景中的事件（例如，如果你输入“往前走的人”，生成出来的人动作是否符合描述？）和“相机”的运动轨迹？关于后一点，很多模型都增加了一些允许缩放、平移摄像机，甚至能够添加特效的功能。

至于前一点——动作是否与描述相符——这一点更难解决。这是一个潜在的模型质量问题（模型是否能理解并正确执行指令）。不过，一些公司正在尝试为用户提供更多生成前的控制权。Runway的Motion Brush就是一个很好的例子，它可以让你高亮图像的特定区域，并决定它们的动作。

时间的连贯——你要怎样使人物、物体以及背景在不会变形或扭曲的前提下在不同帧之间保持一致？这是一个在所有公开的模型里十分常见的问题。如果你今天看到了一个能保持时间连贯性的视频，时长超过几秒钟，那很有可能是视频-视频模型的产物，即类似使用AnimateDiff这样的技术来制作视频和转化视频风格。

时长——你可以制作超过几秒钟时长的视频片段吗？这个问题与时间连贯性有很大的关系。许多公司都限制生成视频的时长，因为在时长超过几秒的情况下，他们无法保证任何形式的一致性。如果你看到一个时长较长的视频，你会注意到，这样的视频是由很多简短的片段构成的，而且往往需要输入几十甚至上百个指令。

待解决的问题

AI视频目前似乎仍处于 GPT-2 水平。我们在去年取得了长足进步，但距离产品平民化还有很长的路要走。视频的“ChatGPT 时刻”何时到来？该领域的研究人员和创始人尚未达成广泛共识，还有一些问题有待回答：

当前的扩散架构适用于视频吗？

目前的视频模型是基于扩散技术的：它们基本上是生成帧，在帧与帧之间创造时间上连贯的动画（多种策略实现）。它们对三维空间以及物体应如何交互没有内在的理解，这也是视频内人物扭曲和变形的原因。比如说，这样的情况经常会出现：片段的前半部分，一个人在在街道上行走，后半部分却融化在地面上——模型没有“坚硬”表面的概念。由于缺乏场景的三维概念，从不同角度生成相同片段也很困难。

有些人认为，视频模型不需要从本质上去了解三维空间。如果用足够多的高质量数据对它们进行训练，它们就能学会物体之间的关系以及如何从不同角度表现场景。另一些人则认为，这些模型需要一个三维引擎来生成时间上连贯的内容，尤其是超过几秒钟的内容。

高质量的训练数据从何而来？

与其他内容模态相比，视频模型的训练难度更大，这主要是因为没有那么多高质量、标签化的训练数据供这些模型学习。语言模型通常在公共数据集（如 Common Crawl）上进行训练，而图像模型则在标签化数据集（文本-图像对）（如 LAION 和 ImageNet）上进行训练。

视频数据较难获得。虽然 YouTube 和 TikTok 等平台上不乏可公开观看的视频，但这些视频都没有标签，而且可能不够多样化（诸如猫咪视频和网红道歉等内容在数据集中比例可能过高）。视频数据的“圣杯”可能来自工作室或制作公司，它们拥有从多个角度拍摄的长视频，并附有脚本和说明。不过，他们是否愿意将这些数据授权用于训练，目前还不得而知。

这些使用案例将如何在平台/模型之间进行细分？

我们在几乎所有的内容模态中都能看到，一种模型并不能“胜任”所有的使用案例。例如，Midjourney、Ideogram和DALL-E都具有独特的风格，擅长生成不同类型的图像。

我们预计视频也会有类似的动态变化。如果你测试一下今天的文字-视频模型和图像-视频模型，你会发现它们各自擅长不同的风格、动作类型和场景构成（下面我们将展示两个例子）。围绕这些模式开发的产品可能会在工作流程方面进一步分化，并服务于不同的终端市场。这还不包括那些不做纯文本到视频的相邻产品，它们处理的内容包括动画人物头像（如HeyGen）、视觉特效（如Wonder Dynamics）和视频到视频（如 DomoAI）。

指令：“雪花飘落在城市街道上，逼真”