世界模型¶
简单说,世界模型大概分成四派:抽象表征、显式 3D 表征、隐空间表征、视频表征。目标都是用 action 控制预测,再做决策。
第一种比较抽象:用几何图结构表征世界。好处是模拟高效,只需要矩阵乘法,也不需要特别多数据。但泛化性不够好,不同性质的物体可能都要专门定义粒子表征。
第二种是显式 3D 表征,比如李飞飞老师的 World Labs。把世界重建成 3D 表示,比如点云(刻画物体几何表面的离散三维坐标点集)、3D Gaussian Splatting(用 3D 高斯表示并实时渲染场景的方法),或者 occupancy(占据表示,描述空间是否被物体占用的概率模型)。用 3D 表示可以很方便地操控物体、做空间编辑,而且一致性很好,因为有绝对坐标。但决策最终依赖的还是观测,所以它要先重建 3D,再渲染成 2D 画面。这个多阶段过程不太容易 data driven(数据驱动,主要依赖数据学习规律),也通常需要 3D 标注,不是完全 end-to-end(端到端,从输入到输出由同一训练目标整体优化)优化。
第三种是 Yann LeCun 推的隐空间表征,代表是 JEPA(Joint Embedding Predictive Architecture,联合嵌入预测架构)。它学习一个表征空间,比视频更紧致,易预测,计算量少,也更偏与决策相关 high level 信息。这个思路就像人在街上走,不需要精准预测每个行人的脸,只要知道大概有个人,就足够决策。但要先构建这个隐空间,而且要和其他决策模型接起来。评测和使用问题,都会带来障碍。
第四种也就是直接预测 video,输入输出都是 video。它是端到端的,可以直接用互联网视频训练。现在 video model 已经有能力预测很多细节,而细节预测本身也是采样,不一定会拖累决策。包括NVIDIA做的 DreamDojo,Google 的 Genie 系列.