Sora与世界模型

“真实感”本身就是一种涌现。

作者：费斌杰熵简科技CEO 来源：南风窗日期：2024-03-25

2月15日，OpenAI发布了Sora模型，能够根据提示词生成长达一分钟的视频，效果以假乱真。

Sora究竟是怎么做到的呢？

微软研究院在近期发布了一篇论文，对Sora背后的技术框架给出了猜测，还是有较高的可信度的。

我先给大家讲一下重点。

关键技术一：DiT。Sora模型与此前同类模型相比，最大的区别在于使用DiT作为模型的主网架构。

DiT全称为Diffusion Transformer，其本质是DDPM与Transformer的结合。DDPM即去噪扩散概率模型，是一种传统的扩散模型。

Sora和Runway、Pika都用了Diffusion扩散模型。不同之处在于，Sora把主网架构从U-Net换成了Transformer。

值得一提的事，DiT并不是一个新模型，是去年3月份发布的，两个作者分别是Peebles和谢赛宁。

Peeble在不久之后进入了OpenAI，成为Sora模型的核心主力，而谢赛宁教授则在纽约大学任教。

有趣的是，当时他俩的这篇跨时代的论文，被CVPR拒稿了，因为创新不足（limited novelty）。

关键技术二：视频压缩网络与时空区块。视频数据包含的信息量巨大，如果不进行压缩处理就开始训练，会消耗大量带宽和存储资源。

因此，Sora通过“视频压缩网络”技术，将输入的图片或视频压缩成一个更低维度的表示形式。

根据推测，这里的视频压缩网络，大概率使用了VAE，即变分自编码器。接下来，Sora将这些压缩后的数据进一步分解为“时空区块”（Spacetime Latent Patches），统一了图像、视频在“时间”与“空间”这两个维度上的数据表达。

这就是Sora能够不限分辨率、视频时长、视频尺寸进行训练的原因。

理论上看，只要算力足够，Sora生成的视频长度可以无限长，图像效果可以无限逼近真实。

我们知道，涌现能力（Emergent Abilities）是本轮AI的第一性原理。

如果说ChatGPT是涌现能力在文本生成方面的体现，那么Sora模型就是涌现能力在视频生成领域的体现。

关于Sora是否存在涌现，一直存在争议。我认为这个结论是相当明确的。

因为，“真实感”本身就是一种涌现。

这次Sora生成的视频，很多朋友看到的第一感受，就是“真实”。

其实，要让我们人类感觉到真实，是一件看起来简单，实则非常困难的事情。

因为真实感的背后，是无数细节的堆叠。

以Sora生成的猫猫走路视频为例。这个视频看起来很真实，是因为：

潮湿地面的光影反射，符合基本光学原理。猫猫走路是四肢协调，符合基本的曲柄连杆机械原理，以及自由度限制。猫咪毛茸茸且飘逸的毛发，符合基本的流体力学原理，等等。

只要其中有哪怕一处细节与常识严重不符，就会打破“真实感”。所以，真实感，其实也是一种涌现。需要无数个细节的拟真，才会涌现出真实感。

Sora告诉我们，通过训练大型视频生成模型，有望构建真正意义上的物理世界模型，从而增进我们对世界的理解。

相信Sora只是开始，还有更多的精彩在路上。

本刊及官网（南风窗在线）刊登的所有作品(包括但不限于文字、图片、声音、录像、图表、标志、标识、广告、商标、商号、域名、程序、版面设计、专栏目录与名称、内容分类标准及多媒体形式的新闻、信息等）未经南风窗杂志社书面许可，不得转载、摘编或以其他形式使用，违者必究。

版权合作垂询电话020-61036188转8088，文小姐。