VLA¶

VLA 的核心运行机制¶

VLA 模型的本质是将机器人的连续控制问题，转化为类似大语言模型（LLM）的“下一个词预测”（Next-token prediction）问题。

输入端（Vision & Language）：接收来自摄像头的环境图像/视频流，以及人类的自然语言指令（如：“把红色的苹果放到抽屉里”）。图像通常经过视觉编码器（如 ViT 或 SigLIP）处理成视觉 Token，与文本 Token 拼接。

处理中枢（LLM Backbone）：多模态大模型对这些 Token 进行自回归推理，理解场景语义和物理关系。

输出端（Action Tokenization）：模型不输出文本，而是输出动作 Token。研究人员会将机器人底层的连续控制信号（例如末端执行器的 XYZ 坐标、姿态、夹爪开合度、关节电机角度等）离散化（通常称为 Action Quantization 或 Tokenization），映射到大模型的词表中。

学习路线¶

开源VLA模型¶

1、OpenVLA¶

特点：目前最具代表性、也是被工业界和学术界引用最多的 7B（70亿参数）端到端自回归 VLA 模型。基于 Llama 架构，使用了海量的 Open X-Embodiment (OXE) 数据集训练。

学习价值：它是学习“如何将动作离散化为 Token”的教科书。它的代码库对微调（特别是 LoRA 等低秩微调）的支持非常友好。

2、Octo¶

特点：与 OpenVLA 输出离散 Token 不同，Octo 采用了扩散策略（Diffusion Policy）。它直接输出连续的动作轨迹，动作更加平滑。此外，它极其轻量（有几十兆参数的版本）。

学习价值：如果你想了解非自回归（Non-autoregressive）的 VLA 是怎么运作的，以及如何解决机器人动作卡顿的问题，Octo 是首选。

3、SmolVLA / TinyVLA¶

特点：由 Hugging Face 等社区推动的轻量级 VLA 模型（通常在 500M 参数以下），专为平民玩家和消费级硬件设计，可以直接在笔记本电脑上跑。

学习价值：非常适合作为你在计算资源有限时的“跑通全流程”的练手项目。