Sora与世界模型

“真实感”本身就是一种涌现。

作者:费斌杰 熵简科技CEO 来源:南风窗 日期:2024-03-25

2月15日,OpenAI发布了Sora模型,能够根据提示词生成长达一分钟的视频,效果以假乱真。

Sora究竟是怎么做到的呢?

微软研究院在近期发布了一篇论文,对Sora背后的技术框架给出了猜测,还是有较高的可信度的。

我先给大家讲一下重点。

关键技术一:DiT。Sora模型与此前同类模型相比,最大的区别在于使用DiT作为模型的主网架构。

DiT全称为Diffusion Transformer,其本质是DDPM与Transformer的结合。DDPM即去噪扩散概率模型,是一种传统的扩散模型。

Sora和Runway、Pika都用了Diffusion扩散模型。不同之处在于,Sora把主网架构从U-Net换成了Transformer。

值得一提的事,DiT并不是一个新模型,是去年3月份发布的,两个作者分别是Peebles和谢赛宁。

Peeble在不久之后进入了OpenAI,成为Sora模型的核心主力,而谢赛宁教授则在纽约大学任教。

有趣的是,当时他俩的这篇跨时代的论文,被CVPR拒稿了,因为创新不足(limited novelty)。

关键技术二:视频压缩网络与时空区块。视频数据包含的信息量巨大,如果不进行压缩处理就开始训练,会消耗大量带宽和存储资源。

因此,Sora通过“视频压缩网络”技术,将输入的图片或视频压缩成一个更低维度的表示形式。

根据推测,这里的视频压缩网络,大概率使用了VAE,即变分自编码器。接下来,Sora将这些压缩后的数据进一步分解为“时空区块”(Spacetime Latent Patches),统一了图像、视频在“时间”与“空间”这两个维度上的数据表达。

这就是Sora能够不限分辨率、视频时长、视频尺寸进行训练的原因。

理论上看,只要算力足够,Sora生成的视频长度可以无限长,图像效果可以无限逼近真实。

我们知道,涌现能力(Emergent Abilities)是本轮AI的第一性原理。

如果说ChatGPT是涌现能力在文本生成方面的体现,那么Sora模型就是涌现能力在视频生成领域的体现。

关于Sora是否存在涌现,一直存在争议。我认为这个结论是相当明确的。

因为,“真实感”本身就是一种涌现。

这次Sora生成的视频,很多朋友看到的第一感受,就是“真实”。

其实,要让我们人类感觉到真实,是一件看起来简单,实则非常困难的事情。

因为真实感的背后,是无数细节的堆叠。

以Sora生成的猫猫走路视频为例。这个视频看起来很真实,是因为:

潮湿地面的光影反射,符合基本光学原理。猫猫走路是四肢协调,符合基本的曲柄连杆机械原理,以及自由度限制。猫咪毛茸茸且飘逸的毛发,符合基本的流体力学原理,等等。

只要其中有哪怕一处细节与常识严重不符,就会打破“真实感”。所以,真实感,其实也是一种涌现。需要无数个细节的拟真,才会涌现出真实感。

Sora告诉我们,通过训练大型视频生成模型,有望构建真正意义上的物理世界模型,从而增进我们对世界的理解。

相信Sora只是开始,还有更多的精彩在路上。


版权声明

本刊及官网(南风窗在线)刊登的所有作品(包括但不限于文字、图片、声音、录像、图表、标志、标识、广告、商标、商号、域名、程序、版面设计、专栏目录与名称、内容分类标准及多媒体形式的新闻、信息等)未经南风窗杂志社书面许可,不得转载、摘编或以其他形式使用,违者必究。

版权合作垂询电话020-61036188转8088,文小姐。