4.7 VLA 策略替换
本节目标
用 SmolVLA / π0 / π0.5 训练抓放策略,把 run_pick_place 的硬编码/遥操实现替换为 VLA 推理,进入自主抓放,并与 4.5 传统基线对比单步可靠性。
产出物
- 训好的 VLA 抓放策略。
run_pick_place= VLA 推理(接口不变,一行替换)。- 硬编码基线 vs VLA 的单步成功率 p 对比表。
用到的技术栈与学习算法
- LeRobot(训练/部署框架)。
- SmolVLA(起步,消费级 GPU)→ π0 / π0.5(进阶,需大 GPU)。
- 语言条件抓放;coarse-to-fine 闭环(EasyInsert 范式,相对(delta)位姿回归绕开 PnP)。
验收标准
- VLA 能自主完成抓放。
- 接口零摩擦替换。
- 单步可靠性已量化并与 4.5 基线对照。
- 编排/重试复用 4.3 起的实现。
⚠️ 真机与安全
⚠️ 真机 VLA 推理由 Jeff 运行。
选型与重试说明
- π0 开源(openpi + LeRobot 集成);π0.5 权重请在
github.com/Physical-Intelligence/openpi确认。 - VLA 本身不“重试”——“失败→重来”的重试在编排层(4.8)。
知识点(开发中记录)
📝 开发时在此记录本节涉及的原理、算法、概念。
操作过程(开发中记录)
🛠️ 开发时在此记录命令、步骤、配置与复现流程。
难点与坑(开发中记录)
⚠️ 开发时在此记录踩坑、失败现象、调参与解决方案。