π₀.₅ VLA 模型完整架构笔记

Physical Intelligence | Vision-Language-Action Model with Open-World Generalization

论文: arxiv.org/abs/2504.16054 | 2025-04-22

一、整体定位(核心问题)

开放世界泛化 (Open-World Generalization)

π₀.₅ 要解决的核心问题:机器人必须在从未见过的真实家庭环境中工作

解决方案:异构任务协同训练 + 分层推理

最终效果

能在全新房屋中执行 10-15 分钟 的长程任务,例如:清洁厨房、收拾卧室、挂毛巾、铺床

二、架构全景图

PI0.5 Architecture Diagram

三、核心公式

πθ(a, ŷ | o, l) = πθ(a | o, ŷ) × πθ(ŷ | o, l)
符号 含义
a 动作序列 a_{t:t+H}
ŷ 输出的文本 token(高级子任务预测)
o 观测(图像 + 状态)
l 完整指令("拿起红色的杯子放到蓝色盒子里")

关键洞察:动作分布仅依赖 ŷ 而非 l,实现分层推理。

四、输入详解

4.1 观测 o_t 的组成

o_t = [I_t¹, ..., I_tⁿ, q_t]

4.2 图像输入 (4个摄像头)

摄像头说明编码器
top_head前置SigLIP So400m/14
front_high高视角
cam_left左腕
cam_right右腕

4.3 状态 q_t (机器人本体感知)

关节角度 | 夹爪位姿 | 躯干升降 | 基座速度

状态处理:离散化(256 bins) → 作为文本token输入

4.4 文本指令 l

完整任务提示 (High-level command): "收拾盘子" / "清洁厨房" / "铺床"

模型输出 ŷ (子任务预测): "拿起盘子" / "打开抽屉" / "放下衣物"

五、Tokenizer 体系

类型模型输出
图像 TokenizerSigLIP ViT[B, 257, 1024] per camera
文本 TokenizerSentencePiece[B, seq_len] (256k 词表)
状态 Tokenizer离散化256 bins → text token

六、注意力机制

π₀.₅ 使用双向注意力(不是因果注意力)

传统 LLM (因果注意力):
Token₁ → Token₂ → Token₃ → Token₄ → Token₅
只能看到前面的 token

π₀.₅ (双向注意力):
Token ←→ Token ←→ Token ←→ Token ←→ Token
可以看到所有 token

为什么要双向注意力?

七、训练数据来源 (协同训练核心)

数据源说明作用
MM Mobile Manipulator (~400小时, ~100家庭) 直接相关于评估任务
ME Multi-Environment (非移动机械手) 不同构型/场景迁移
CE Cross-Embodiment Lab (OXE数据集) 跨任务迁移
HL High-Level Subtask Prediction 子任务分解(如"打扫卧室"→"整理毯子")
WD Web Data (COCO, VQAv2等) 提升语义泛化能力
VI Verbal Instruction (口头指令) 后训练阶段,人类指导
关键发现:97.6% 的训练数据来自非移动机械手数据!

八、两阶段训练流程

第一阶段:预训练 (280k 梯度步)

第二阶段:后训练 (80k 梯度步)

九、Flow Matching 动作生成

前向过程 (添加噪声)

x^τ,ω = τ·a + (1-τ)·ω, ω~N(0,I)

逆向过程 (推理时去噪,10步)

1. 初始化: x₁ = random_noise
2. 迭代去噪 (10步):
   for i in range(10):
       τ = 1 - i/10
       v_t = model(x_t, τ)  # 预测噪声
       x_{t-1} = x_t - dt * v_t  # 欧拉更新
3. 最终 x₀ ≈ 预测的动作

损失函数

L = ||v_t - (ω - a)||² = MSE(预测噪声, 真实噪声)

十、机器人系统详情

硬件构型

控制系统

十一、实验结果与关键发现

Q1: π₀.₅ 能在真实新家中泛化吗?

✓ 能!在每个真实家庭中持续成功完成各种任务,任务持续2-5分钟,涉及多个阶段。

Q2: 泛化能力如何随训练场景数量变化?

训练位置数量越多,泛化性能越好。104个位置训练的模型 ≈ 在测试家庭直接训练。

Q3: 各协同训练成分的重要性?

Q4: 与其他 VLA 比较?

π₀.₅ >> π₀,即使给 π₀ 更长训练时间仍明显更好。

Q5: 高级推理有多重要?

高级推理显著提升性能,帮助模型理解任务结构和场景语义。

十二、知识隔离机制

问题:传统 VLA 微调会破坏预训练知识

π₀.₅ 解决方案:

效果:保持预训练的语义理解和视觉能力,同时学习细粒度动作控制。

十三、π₀ vs π₀.₅ 核心对比

特性π₀π₀.₅
状态处理连续值 → suffix离散化 → prefix (文本token)
输出仅动作文本(子任务) + 动作
注意力因果注意力双向注意力
高级推理不支持支持 (分层推理)
协同训练异构数据协同训练
泛化能力有限开放世界泛化
任务时长短程10-15分钟长程

十四、论文核心贡献

  1. 协同训练框架 - 利用异构数据源实现广泛泛化,97.6% 数据来自非直接相关任务
  2. 分层推理架构 - 高级语义子任务预测 + 低级动作生成,同一模型实现两级推理
  3. 开放世界泛化 - 首个能在全新家庭执行长程任务的端到端系统
  4. 跨构型知识迁移 - 从其他机器人数据迁移动作知识,从网络数据迁移语义理解

十五、参考资料