新闻

一句话做“大片”?AI 文生视频现状洞察 | 初心海外专栏

2023.12.29

输入“马斯克穿着太空服,3D 动画”,一段包含马斯克和 Space X 的动画形象的视频就出现在了返回结果中……11 月 29 日,AI 生成视频领域的初创公司 Pika Labs 和这段 demo 宣传视频一同“出圈”。当天,Pika Labs 发布最新一代 AI 文生视频(text-to-video)模型 Pika 1.0,与此同时,这家成立仅半年、团队仅四人的明星创业公司也受到诸多关注。

创业半年、融资 5500 万美元、估值 2.5 亿美元,Pika Labs 这些醒目的标签背后不乏“天时地利”的际遇,但它引起的关注和讨论也折射出行业热点的迭代:继文生图之后,文生视频生成正在 AIGC 领域颇受瞩目的垂直赛道之一。

AI 视频生成的技术底色如何?活跃的创业产品有哪些?发展现状如何?未来的技术趋势和着重发力点应该是什么?初心系统梳理了 AI 视频生成的技术路线和行业现状,以期回答上述问题。

主要观点

  1. 视频生成经历了图像拼接、GAN 与自回归模型时代,当前基于 diffusion model 的视频生成模型成为行业主流,但在生成物体准确性、一致性与 motion 丰富程度上仍有较大提升空间。

  2. 视频生成的关键技术中时序性模块是当前的技术瓶颈,对其的研发与掌握能力影响与图像基座的耦合,叠加作用于最终生成结果。

  3. 视频生成模型不存在明确的先发优势。现阶段掌握时序性模块底层设计与修改能力、能够快速构建数据 infra 的团队有望率先推出可以视频生成领域的 Midjourney。

  4. 中短期内,算法是各家效果分化、在一致性上表现差异巨大的主因;长期而言,系统工程能力和用书数据飞轮是影响产品成功与否的关键。

  5. 投资视角下,现阶段应着重关注有望在中期内保持技术 SOTA 的团队。

01 图像拼接到自回归&扩散

视频生成是通过对 AI 的训练,使其能够根据给定的文本、图像、视频等单模态或多模态数据,自动生成符合描述的视频内容。当前最前沿也最具挑战的是文生视频(text-to-video),即以文本为模型输入进行生成的形式。拆分来看,文生视频由文生图、图生视频这两部组成,其技术发展大致分为图像拼接生成、GAN/VAE/Flow-based生成、自回归模型生成、扩散模型生成几个阶段。

640.png

图像拼接生成阶段

这一阶段的方法主要将每一帧静态图像拼接成连续的视频流,这种合成方法简单易用,缺点是视频生成质量低、连贯性较差。

GAN/VAE/Flow-based 生成阶段

这一阶段的工作主要集中于改进模型训练和生成算法,对视频直接建模难度很高,一些模型通过将前景和背景解耦、运动和内容分解等方式生成视频,或是基于对图像的翻译来改进生成效果,以加强连续帧之间的平滑过渡,但总体效果上生成视频的质量仍较低,难以实际使用。

自回归&扩散模型生成阶段

这两种模型或二者结合的视频生成架构是当前的文生视频主流。源自 Transformer 架构的自回归模型可以通过前一帧预测下一帧,生成的视频较为连贯自然,但存在生成效率低且错误易积累的问题。

扩散模型架构则是 Stable Diffusion 由语言生成和图像生成领域迁移到视频生成的结果。通过对图像生成架构的改进使其适应视频生成任务,这种方法的优点是生成的视频具有高保真的效果,但相应地也需要更多的训练数据、时间和计算资源。

除此,把 LLM 融合进视频生成也是一种方向。谷歌 2022 年发布的文生视频模型 Imagen Image 在文本处理阶段运用了预训练的 Transformer 语言模型 (T5-XXL),其好处是可以弥补这对文字元素生成方面的不足。

当前视频生成之所以值得关注,一大原因在于,在物体准确性、一致性,以及动作的正确与丰富程度上,当前生成技术与消费级水平仍有距离。 弥合这一距离需要突破哪些壁垒?首先需要回溯, 主流架构下 AI 视频生成的机制与原理。

AI 视频生成主要通过关键帧生成、插帧、超分三个环节实现。具体而言,图像基座模型在时序性模块的约束下,生成有时空关系的数个关键帧,再通过插帧、超分形成视频效果。

关键帧生成:这是最核心的环节,相当于为一棵大树埋下种子。所谓关键帧是指视频序列中被完整编码的帧,包含了完整的图像信息,是视频序列中独立存储和解码的基准点,有助于有效压缩和传输视频数据。采用 Stable Diffusion 生态的图像基座模型,会在时序性模块的约束下,把文字生成有时空关系的数个关键帧(一般为 3s 8 帧)。

插帧:是提高视频视觉流畅度的一个环节,指在视频或动画中插入额外的帧,从而增加每秒显示的图像数量。扩散模型架构会在时序性模块的约束下进行补帧,将 8 帧变成 24 帧(fps=8)。

超分:提高画面空间细节和清晰度的关键环节,通过增加图像分辨率,提升画面质量。在 AI 视频生成过程中,算法会对每一帧图像进行超分,提升画面分辨率。

可以看出,无论是哪个环节,图像基座模型和时序性模块都发挥着关键作用。其中,图像基座模型直接决定了画面丰富度、准确性、美感等静态效果,同时可以让画面实现影运镜、平移等静态空间效果。画面的动态效果则有赖于时序性模块控制关键帧元素来实现,这一过程需要连续的视频数据,并对其运动状态进行特殊标注,形成连续的文字-视频对(大量连续图片对),然后编码进入同一特征空间,难度远高于运镜和平移。

尽管“一静一动”,但图像基座模型和时序性模块并非互相孤立,视频最终的效果,主要指空间一致性(平移、运镜效果)和时空一致性(相对运动效果),取决于图像基座模型和时序性模块耦合的系统能力。如果时序性模块对生成基座模型的约束权重小,会让画面更具静态美感,但动不起来、仅能实现运镜效果。如果时序性模块的约束权重大,则会降低静态生成的准确性和多样性,但提升运动效果和画面连续性。

目前 AI 视频生成的主要技术瓶颈在于时序性模块,对其的研发与掌握能力影响与图像基座的耦合,叠加作用于最终生成结果。

02 海外代表性 AI 视频生成工具梳理

早期玩家:Runway

(1)产品介绍

Runway 成立于 2018 年,从 video-to-video 起家,最早的产品形态是一个关于机器学习模型的应用商店,其后基于算法发布了 30 多个 AI 创作工具,包含音频、图片、视频、3D 等,被业内视作全球首款包含 AI 生成视频功能的软件。

2023 年 2 月,Runway 通过社区 Discord 发布 video-to-video AI 视频生成模型 Gen-1,实现了程式化、视频风格化、面具、渲染等视频编辑功能,用户可以利用 Gen-1 更改原始视频的风格。短短两个月后,2023 年 4 月,Runway 发布支持 text-to-video 的视频生成模型 Gen-2,在延续 Gen-1 功能的基础上,新增了文字转视频、文字+图片转视频功能。用户可以把文字和图片作为提示信息,得到分辨率最高达 1280×720、时长最高达 30-60 秒的视频。

目前 Runway 的文生视频产品在用户量方面处于行业头部,且商业场景相对清晰,定位在影视制作领域。

微信图片_20240102165846.jpg

(2)创始团队

Cristobal Valenzuela 是 Runway 的 CEO,他本科就读于智利阿道夫伊瓦涅斯大学(AIU),获得经济学和工商管理学士学位,并于 2012 年获得了设计艺术硕士学位,毕业后留校任教。

(3)融资情况

最近一轮融资是 2023 年 6 月 29 日的 C+ 轮融资,融资金额 1.41 亿美元,由 Google 领投,投后估值 15 亿美元。此前于 2020-2022 年公司陆续完成 A-C 轮融资。

(4)技术路径

扩散模型是 Runway 产品一直沿用的框架,2021 年的 Latent Diffusion 和 2022 年的 Stable Diffusion 都验证了扩散模型在文生图领域的可行性。2023 年 2 月发布的 Gen-1 通过论文公开了其技术路径,其选择将扩散模型应用到了视频生成;Gen-2 至今尚未公布其具体的技术选型,但根据其生成效果倒推,行业人士倾向认为其选了的扩散模型生成图像与逐帧渲染结合。

后起“黑马”:Pika Labs

(1)产品介绍

Pika Labs 创立于 2023 年 4 月,最早发布的是 Discord 社区形态产品。用户在对话框输入文本,会收到 Pika 回复的视频结果。Discord 社区的形态使 Pika有便捷的交互形式,但限制了用户体验和公司利用用户数据。11 月 29 日,Pika 发布了网页端 1.0 产品,相较 Discord 版本功能没有太多迭代,但在生成的视频风格上,从早期只生产动漫开始向写实内容延伸。产品的目标场景也随之从动画制作开始往短视频等方向拓展。目前网页版用户需申请加入等待列表。

成立半年来,Pika 用户规模增长都颇为迅速。创始人 Demi Guo 接受媒体采访时表示,2023 年 4、5 月份,也就是 Pika Discord 版本上线伊始,有将近 50 万用户使用过该产品,每周有上百万的 generation。

(2)创始团队

两位核心创始人 Demi Guo 和 Demi Guo 是斯坦福大学人工智能博士。Demi Guo 还是哈佛大学计算机科学硕士、数学学士,主要研究领域为NLP和图形学的交叉领域。Chenlin Meng 还拥有斯坦福大学数学学士学位,研究领域为人工智能的应用。2023 年两人从斯坦福大学休学,全职投入 Pika Labs 中。创始工程师 karli Chen 拥有 CMU 的机器学习与计算机视觉硕士学位,团队另一位成员 Matan Cohen-Grumi 负责设计。

(3)融资情况

Pika 创始人的融资能力十分抢眼,成立以来,已通过三轮融资累计获投 5500 万美元,前两轮由 GitHub 前首席执行官 Nat Friedman 领投。最近一轮融资是来自 Lightspeed Venture Partners 的 A 轮融资,融资金额 3500 万美元 ,投后估值在 2 亿至 3 亿美元之间。

(4)技术路径

Pika 的技术表现之一也是扩散模型,主要通过关键帧生成、插帧、超分三个环节来完成视频生成。但 Demi Guo在接受媒体访谈时表示,Pika 也不能完全算 Diffusion Model。“我们开发了很多新东西,是一种新的模型。”她说。

新兴产品:Moonvalley

(1)产品介绍

Moonvalley 是由硅谷创业加速器 YC 孵化的 AI 视频生成项目,2023 年 9 月发布 Discord 社区形态 Beta 版本产品,支持文生视频,可通过从文本提示生成高清、16:9 的画质镜头,画面风格包括超现实主义、动漫、幻想、写实 3D 等五种。

微信图片_20240102165930.png

(2)创始团队

由 Zapier 的前产品增长负责人、UWaterloo 大学计算机视觉研究员 Naeem Ahmed 创立,co-founder 是 IBM 前商业分析师 John Thomas。两人都是多伦多大学 2015 年毕业生,曾于 2018 年共同创建 to-B AI 内容生成工具 Draft。该项目同为 YC 孵化项目,年收入(ARR)曾超过 500 万美元。

(3)融资情况&技术路径

得到了 Khosla Ventures、Y Combinator、Global Founders Capital、FJ Labs、Pioneer Fund、Soma Capital等多家投资者的支持。技术路径和 Pika 相似,均有扩散模型特征,且通过关键帧生成、插帧补帧、超分优化的方法来制作视频。

无限连贯 3D 场景生成:Wonder Journey

(1)产品介绍

Wonder Journey 是一款无限连贯 3D 场景视频生成工具,用户输入一张图或者一段文字,Wonder Journey 就能沿着相机轨迹生成无限连贯的 3D 场景。相当于可以根据一段话或一张图,“脑补”出符合逻辑的 zoom in 或 zoom out 的场景画面。其突破的核心难点如何在保持元素多样性的同时,生成符合逻辑的场景元素组合。目前 Wonder Journey 支持英文故事、中国古诗、日本诗的理解、生成。

(2)创始团队

由 Stanford SAIL 实验室李飞飞团队下的助理教授吴俊佳创建,他深耕多模态感知、生成式视觉模型、神经符号视觉推理、动力学模型、物理场景理解等 AI 领域研究,2022 年 4 月入选百度发布的全球首份 AI 华人青年学者榜单。

(3)技术路径

和上面 3 款工具依托于视频生成模型有所不同,Wonder Journey 的技术底座使用了 LLM,首先根据当前场景生成下一个场景的文本描述 ,再将文本描述转换为 3D 点云表示的场景 ,然后使用 VLM (visual-language model)验证生成的场景是否有不合理的结果,再生成最终的效果。

除了上述产品,目前仍有不少知名团队在进入文生视频赛道。12 月 12 日,斯坦福科学家李飞飞团队与谷歌合作推出文生视频模型 W.A.L.T,该模型是基于 Transformer 架构的先进扩散模型,暂不对外开放体验。早前,Meta 于 11 月 16 日推出文字生成视频的工具 Emu Video。

03 谁能成为视频生成领域的 Midjourney?

AIGC 元年文生视频工具层出不穷,但不管是 Runway 这样的先行者 ,还是 Pika 等“黑马”产品,整体而言,AI 视频生成在“片文匹配”、动作丰富度、时间和空间一致性等维度上都离消费级目标有不小的距离。

下面的测试可以印证上述判断。以“哆啦 A 梦和大雄在时光机旅行中吃铜锣烧”为指令(测试时输入了英文 propmt :Doraemon and Nobita were eating dorayaki while time traveling with the time machine),对比 Runway Gen-2、Pika、Moonvalley 的生成效果。

在视频和文字的匹配度上,三款工具生成的视频内容大体与文字内容一致,但关键元素的呈现均有不足。Moonvalley 生成的大雄和哆啦A梦与原始的IP形象有较大的差距;Pika 只生成了一个和哆啦 A 梦类似的形象,没有生成大雄,且铜锣烧也有明显瑕疵;Runway 的画面质感最高,对哆啦A梦和铜锣烧的还原度在三款软件中是最高的,但生成了两个和大雄类似的形象 ,且没有呈现出与“时光机旅行”相关的元素。另从动态效果来看,三个工具生成的视频动作都比较单一,且不同程度地出现出现关键元素变形、动作卡顿等问题。

这些瑕疵反映出现有工具在底层模型、时序性模块、模型与时序性模块耦合程度以及数据集等关键要素上都有很大的改进空间。尤其是当指令需求涉及到知名 IP 时,也考验着产品或平台的版权资源丰富度。从以上测试结果同时可以看出,目前文生视频生成模型没有明确的先发优势,Runway 虽然较其他玩家早半年发布其视频生成模型,但测试结果并非一骑绝尘。

对照文生图赛道,Midjourney 是公认的头号玩家。视频生成领域的 Midjourney 会是谁?我们认为,现阶段掌握时序性模块底层设计与修改能力,且能够快速构建数据 infra 的团队有望领先。

Video Diffusion Model 的技术演进方向大致分为三个:

(1)时序一致性:目前文生视频处于文生图的 Latent Diffusion 阶段,技术还不成熟,基于光流、深度图等 guidance 解决时序性问题(生成过程中用光流或深度图辅助生成)是常见做法,但光流预测、深度图解析本身存在误差,且工程和 tricks 的叠加会带来性能的下降。

(2)语义理解力和生成的可控性:文生视频是文生图技术栈的延伸,提升语义理解力和可控性一方面可转化为图生视频任务,复用 LoRA、GragGAN 等模型(该类模型只作用于图像基座模型,对时序性模块无影响),通过更灵活的用户交互+控制条件增加语义理解和匹配性;另一方面需要更好的 encoder,并在更大数据集上提升视频理解能力,帮助模型理解不同场景、动作组合和运动规律.

(3)泛化性:视频生成的泛化难度比图像高,单一场景上稳定生成内容不代表能在多场景上有良好表现,需要补充更多泛场景、多 motion 的数据集,但业内人士认为文生视频 scaling 相较于 LLM 的难度略低,初步验证算法和架构后通过 scaling+ 数据集解决泛化问题。 从技术发展趋势来看,我们认为实现纯运镜效果的视频(如 runway)是工程问题,短期内易解决、更多是产品取舍。比如,Runway 经常出现慢镜头 / 仅前景移动 / 前景和背景相对静止、仅有运镜效果 / 主体风格不断迁移 的情况,推测是原因有二:第一,可能将 1s 视频拉长成 3s 训练;第二,构建了一批合成数据,包括有相机位置的数据和抖音瞬息全宇宙效果的图片拼接等。背后的核心原因是未解决算法问题。

中期内,视频生成的核心技术难点在时序算法,动作不连贯、时空错位、多主体运动背后都是算法问题,包括空域上的 2d 卷积如何与时域信息集合、帧间注意力机制如何设计。中短期内算法是各家效果分化、在一致性上表现差异巨大的原因,但技术壁垒究竟有多高尚未可知。

长期来看,系统工程能力是形成壁垒的关键之一。我们认为,优秀的公司会有长期的顶层设计,从 day one 开始把算法下沉成系统层面的优势,通过模块化设计保证各区域的独立性,以适配诸如 SD 基座模型升级、LoRA 等控制模块引入的情况;co-train 提升图像基座模型和时序性模块的耦合程度,将单点算法优势下沉为 infra 级别的壁垒;搭建自研数据系统,将数据调参变为系统工程、降低标注成本,根据用户反馈迭代数据系统。

另一个构建护城河的关键是用户数据飞轮。我们认为,产品积累的用户数据能帮助理解用户需求、迭代数据系统,并通过 RLHF 提升模型表现、塑造长期壁垒。

基于整个行业有待弥合的技术短板,以及产品进入 scale 阶段后可预见的算力成本和版权成本,我们认为,关注 AI 文生视频正当其时。

初心荣获钛媒体「2023 年度投资机构先锋榜」两项荣誉|初心喜讯

做陪伴创业者
最早的投资机构

初心是积极布局新兴业态的早期股权投资基金,专注于企业级软件、科技创新等领域的投资。我们致力于捕捉因科技赋能而改变行业格局和通过软件帮助企业降本增效、优化运营的优秀企业,进行投资布局。欢迎留下你的联系方式,与我们取得联系。