π₀.₅ VLA 模型架构笔记

一、整体定位（核心问题）

开放世界泛化 (Open-World Generalization)

π₀.₅ 要解决的核心问题：机器人必须在从未见过的真实家庭环境中工作。

解决方案：异构任务协同训练 + 分层推理

来自其他机器人的数据
高级语义预测
人类口头指令
网络数据（图文对、问答、物体检测）

最终效果

能在全新房屋中执行 10-15 分钟 的长程任务，例如：清洁厨房、收拾卧室、挂毛巾、铺床

二、架构全景图

三、核心公式

πθ(a, ŷ | o, l) = πθ(a | o, ŷ) × πθ(ŷ | o, l)

符号	含义
`a`	动作序列 a_{t:t+H}
`ŷ`	输出的文本 token（高级子任务预测）
`o`	观测（图像 + 状态）
`l`	完整指令（"拿起红色的杯子放到蓝色盒子里"）

关键洞察：动作分布仅依赖 ŷ 而非 l，实现分层推理。

四、输入详解

4.1 观测 o_t 的组成

o_t = [I_t¹, ..., I_tⁿ, q_t]

4.2 图像输入 (4个摄像头)

摄像头	说明	编码器
top_head	前置	SigLIP So400m/14
front_high	高视角
cam_left	左腕
cam_right	右腕

4.3 状态 q_t (机器人本体感知)

关节角度 | 夹爪位姿 | 躯干升降 | 基座速度

状态处理：离散化(256 bins) → 作为文本token输入

4.4 文本指令 l

完整任务提示 (High-level command): "收拾盘子" / "清洁厨房" / "铺床"

模型输出 ŷ (子任务预测): "拿起盘子" / "打开抽屉" / "放下衣物"

五、Tokenizer 体系

类型	模型	输出
图像 Tokenizer	SigLIP ViT	[B, 257, 1024] per camera
文本 Tokenizer	SentencePiece	[B, seq_len] (256k 词表)
状态 Tokenizer	离散化	256 bins → text token

六、注意力机制

π₀.₅ 使用双向注意力（不是因果注意力）

传统 LLM (因果注意力):
Token₁ → Token₂ → Token₃ → Token₄ → Token₅
只能看到前面的 token

π₀.₅ (双向注意力):
Token ←→ Token ←→ Token ←→ Token ←→ Token
可以看到所有 token

为什么要双向注意力？

图像块之间需要互相注意（捕获空间关系）
文本可以关注所有图像块
动作 token 可以看到完整上下文

七、训练数据来源 (协同训练核心)

数据源	说明	作用
MM	Mobile Manipulator (~400小时, ~100家庭)	直接相关于评估任务
ME	Multi-Environment (非移动机械手)	不同构型/场景迁移
CE	Cross-Embodiment Lab (OXE数据集)	跨任务迁移
HL	High-Level Subtask Prediction	子任务分解（如"打扫卧室"→"整理毯子"）
WD	Web Data (COCO, VQAv2等)	提升语义泛化能力
VI	Verbal Instruction (口头指令)	后训练阶段，人类指导

关键发现：97.6% 的训练数据来自非移动机械手数据！

八、两阶段训练流程

第一阶段：预训练 (280k 梯度步)

所有任务都用离散 token 表示（FAST tokenizer）
下一个 token 预测损失
数据：MM + ME + CE + HL + WD
目标：让模型适应各种机器人任务

第二阶段：后训练 (80k 梯度步)

添加 Flow Matching 动作专家（随机初始化）
损失：文本 CE + α × Flow Matching，α = 10.0
数据：MM + ME + WD + HL + VI
目标：专门化于移动操作

九、Flow Matching 动作生成

前向过程 (添加噪声)

x^τ,ω = τ·a + (1-τ)·ω, ω~N(0,I)

逆向过程 (推理时去噪，10步)

1. 初始化: x₁ = random_noise
2. 迭代去噪 (10步):
   for i in range(10):
       τ = 1 - i/10
       v_t = model(x_t, τ)  # 预测噪声
       x_{t-1} = x_t - dt * v_t  # 欧拉更新
3. 最终 x₀ ≈ 预测的动作

损失函数

L = ||v_t - (ω - a)||² = MSE(预测噪声, 真实噪声)

十、机器人系统详情

硬件构型

轮式完整基座 (2D线性 + 1D角速度)
躯干升降机构 (1D 或 2D)
双臂 (各6 DoF)
平行钳口夹持器
4个 RGB 摄像头 (2腕式 + 2身前)
状态/动作空间维度: 18 或 19

控制系统

控制频率: 50 Hz
动作分块: H = 16 步 (320ms 的动作序列)
直接目标姿态控制 (无轨迹规划)
简单 PD 控制器
无额外碰撞检测
端到端: 所有操作和导航控制均为端到端

十一、实验结果与关键发现

Q1: π₀.₅ 能在真实新家中泛化吗？

✓ 能！在每个真实家庭中持续成功完成各种任务，任务持续2-5分钟，涉及多个阶段。

Q2: 泛化能力如何随训练场景数量变化？

训练位置数量越多，泛化性能越好。104个位置训练的模型 ≈ 在测试家庭直接训练。

Q3: 各协同训练成分的重要性？

无 ME/CE: 性能显著下降（跨构型迁移很重要！）
无 WD: 分布外(OOD)物体性能显著下降
所有数据源都有贡献，ME/CE/WD 最为关键

Q4: 与其他 VLA 比较？

π₀.₅ >> π₀，即使给 π₀ 更长训练时间仍明显更好。

Q5: 高级推理有多重要？

高级推理显著提升性能，帮助模型理解任务结构和场景语义。

十二、知识隔离机制

问题：传统 VLA 微调会破坏预训练知识

π₀.₅ 解决方案：

冻结 SigLIP + Gemma-2B ← 保留互联网规模视觉-语言知识
仅训练 Action Expert (Gemma-300M) ← 专门学习机器人控制

效果：保持预训练的语义理解和视觉能力，同时学习细粒度动作控制。

十三、π₀ vs π₀.₅ 核心对比

特性	π₀	π₀.₅
状态处理	连续值 → suffix	离散化 → prefix (文本token)
输出	仅动作	文本(子任务) + 动作
注意力	因果注意力	双向注意力
高级推理	不支持	支持 (分层推理)
协同训练	无	异构数据协同训练
泛化能力	有限	开放世界泛化
任务时长	短程	10-15分钟长程

十四、论文核心贡献

协同训练框架 - 利用异构数据源实现广泛泛化，97.6% 数据来自非直接相关任务
分层推理架构 - 高级语义子任务预测 + 低级动作生成，同一模型实现两级推理
开放世界泛化 - 首个能在全新家庭执行长程任务的端到端系统
跨构型知识迁移 - 从其他机器人数据迁移动作知识，从网络数据迁移语义理解

π₀.₅ VLA 模型完整架构笔记