世界模型¶

简单说，世界模型大概分成四派：抽象表征、显式 3D 表征、隐空间表征、视频表征。目标都是用 action 控制预测，再做决策。

第一种比较抽象：用几何图结构表征世界。好处是模拟高效，只需要矩阵乘法，也不需要特别多数据。但泛化性不够好，不同性质的物体可能都要专门定义粒子表征。

第二种是显式 3D 表征，比如李飞飞老师的 World Labs。把世界重建成 3D 表示，比如点云（刻画物体几何表面的离散三维坐标点集）、3D Gaussian Splatting（用 3D 高斯表示并实时渲染场景的方法），或者 occupancy（占据表示，描述空间是否被物体占用的概率模型）。用 3D 表示可以很方便地操控物体、做空间编辑，而且一致性很好，因为有绝对坐标。但决策最终依赖的还是观测，所以它要先重建 3D，再渲染成 2D 画面。这个多阶段过程不太容易 data driven（数据驱动，主要依赖数据学习规律），也通常需要 3D 标注，不是完全 end-to-end（端到端，从输入到输出由同一训练目标整体优化）优化。

第三种是 Yann LeCun 推的隐空间表征，代表是 JEPA（Joint Embedding Predictive Architecture，联合嵌入预测架构）。它学习一个表征空间，比视频更紧致，易预测，计算量少，也更偏与决策相关 high level 信息。这个思路就像人在街上走，不需要精准预测每个行人的脸，只要知道大概有个人，就足够决策。但要先构建这个隐空间，而且要和其他决策模型接起来。评测和使用问题，都会带来障碍。

第四种也就是直接预测 video，输入输出都是 video。它是端到端的，可以直接用互联网视频训练。现在 video model 已经有能力预测很多细节，而细节预测本身也是采样，不一定会拖累决策。包括NVIDIA做的 DreamDojo，Google 的 Genie 系列.