4.7 VLA 策略替换

本节目标

用 SmolVLA / π0 / π0.5 训练抓放策略，把 run_pick_place 的硬编码/遥操实现替换为 VLA 推理，进入自主抓放，并与 4.5 传统基线对比单步可靠性。

产出物

训好的 VLA 抓放策略。
run_pick_place = VLA 推理（接口不变，一行替换）。
硬编码基线 vs VLA 的单步成功率 p 对比表。

用到的技术栈与学习算法

LeRobot（训练/部署框架）。
SmolVLA（起步，消费级 GPU）→ π0 / π0.5（进阶，需大 GPU）。
语言条件抓放；coarse-to-fine 闭环（EasyInsert 范式，相对(delta)位姿回归绕开 PnP）。

验收标准

VLA 能自主完成抓放。
接口零摩擦替换。
单步可靠性已量化并与 4.5 基线对照。
编排/重试复用 4.3 起的实现。

⚠️ 真机与安全

⚠️ 真机 VLA 推理由 Jeff 运行。

选型与重试说明

π0 开源（openpi + LeRobot 集成）；π0.5 权重请在 github.com/Physical-Intelligence/openpi 确认。
VLA 本身不“重试”——“失败→重来”的重试在编排层（4.8）。

知识点（开发中记录）

📝 开发时在此记录本节涉及的原理、算法、概念。

操作过程（开发中记录）

🛠️ 开发时在此记录命令、步骤、配置与复现流程。

难点与坑（开发中记录）

⚠️ 开发时在此记录踩坑、失败现象、调参与解决方案。