5.2 主流模型框架介绍

本节按技术发展的先后顺序，把当前主流的机器人操作模型框架串成一条进化链：每一代模型都是在补上一代的短板——传统方法存在什么问题、学习派如何接手、接手后又出现什么新问题、下一代又如何解决。读完你得到的不是一堆并列的模型，而是一条能看清来龙去脉的进化链。

写法约定：每出现一个术语，先用一句话解释，再展开；论文、模型、接口名保留英文（方便查证），串联叙述用中文。每一节配一张示意图，随页面直接渲染。

导读 · 技术谱系总览

先认两条主干道。 后面要讲十几个模型，乍看眼花，其实它们顺着两条主干道在走：路线 A 几何派先把"在哪、有多准"算清楚（传统几何 → 神经 3D 表征 → 指向型空间 VLM），强项是空间精度；路线 B 学习派干脆让一个大模型端到端，从画面加指令直接吐动作（模仿学习骨架 → 统一 VLA → 流匹配旗舰 π0），强项是泛化。最有意思的是结尾——B 在 VLA 这一站回头把 A 的空间感吸了回来（这就是后面反复出现的"螺旋上升"）。先看这张主干道总览：

两条主干道：A 几何派 vs B 学习派，最终在 VLA 螺旋汇流 — 两条主干道：A 几何派求"准"，B 学习派求"通用"，最终在 VLA 螺旋汇流

记住这两条路（A 求"准"、B 求"通用"），再看下面这张更细的全景图就不会迷路了。它把每一节要讲的模型，按"时间（横向）+ 技术路线（纵向）"摆在一起，并用箭头标出谁站在谁的肩膀上；底色对应路线归属——浅蓝是 A、浅黄是 B、浅灰是贯穿两条的工程化补充。

怎么读这张图：

横轴是时间，从 2011 一直到 2025 下半年。可以看到真正的爆发集中在 2023 至 2025 这三年。
纵向是七条路线：⓪ 传统几何 → ① 模仿学习骨架 → ② 神经 3D 表征 → ③ 指向型空间 VLM → ④ 统一 VLA → ⑤ 闭环纠错 → ⑥ 数据效率 → ⑦ 真机下棋。
这七条路线归到两条主干道（对应上一张总览图，也对应这张图的底色）：⓪②③ 属路线 A 几何派（浅蓝底，求"准"）；①④ 属路线 B 学习派（浅黄底，求"通用"）；⑤⑥⑦ 是贯穿两条的工程化补充（浅灰底）。
黑色实线箭头表示同一条路线里"后人站在前人肩上"（比如 Act3D → 3D Diffuser Actor → RVT-2 → SAM2Act）。
红色虚线箭头表示跨路线的"吸收"，是整张图最值得留意的地方：比如"② 3D 表征"被"④ VLA"回头吸收（FALCON），"③ 语义指向"也被 VLA 吸收。这一领域的发展并不是一条线性的超越，而是后一代把前几代的长处重新融入自己——这正是本节要讲清楚的主线。

接下来我们就顺着这张图，从最左边的传统方法开始，一节一节往下读。

一、传统几何流水线及其局限

要理解学习派"在解决什么"，得先看清它想取代的是什么。在深度学习进入机器人抓取之前，工业界几十年来用的是一套"几何流水线"。

这套传统流水线由四个环节串成（图上排）：

相机拍照：拿到一张 2D 彩色图。
PnP 位姿估计（Perspective-n-Point）：一句话——"看一张照片，反推出物体在三维空间里的精确位置和朝向"。它用几何方法把 2D 图里的物体还原成 3D 的 6 自由度位姿。6 自由度位姿（6-DoF pose）就是描述一个物体完整状态的 6 个数：3 个管位置（前后/左右/上下），3 个管姿态（绕三个轴各转多少）。
手眼标定（hand-eye calibration）：相机和机械臂各有各的坐标系，必须先精确测出两者之间的固定换算关系。标定不准，后面全错；而且它会随时间"漂移"（机械松动、温度变化），要反复重标。
运动规划 + 脚本执行：知道爪子要去哪之后，用 MoveIt、OMPL 这类规划器算一条不撞到东西的轨迹，机械臂照着轨迹按部就班地走。

它的不足（图上排右侧标红）：标定繁琐且容易漂移、换个新物体或新场景就不灵（不泛化）、四个环节的误差还会一环一环累积下去。

学习派想做的事（图下排）：把中间那一长串"算出来"的环节，压成一个"学出来"的模型——输入相机画面与语言指令，模型直接输出关节动作，绕开 PnP 和手眼标定。好处是泛化能力强、省去标定；代价（后面会反复看到）是单次精度存在天花板。

本项目的硬约束正是针对这一点而来：不允许把传统几何流水线当作主要答案，而要以学习派为主。原因是这是一个求职、简历性质的项目，要体现"用现代 AI 解决机器人问题"的能力，而不是把成熟的工业标定再拼一遍。

顺带交代一个 2011 年的"传统派代表作"——Gambit（详见第 9 节）：它是用经典感知加视觉伺服造出来的真机下棋臂，自主成功率 91.6%。记住这个数字，后面对照学习派时，它是一个很好的标尺。

这一节的小结，也是后面所有章节的出发点：传统方法的问题是"标定繁琐、不泛化"；学习派接手解决了这两点，但随即要面对一个新难题——怎么让模型有足够的"空间感"，把爪子准确送到该去的地方。第 2 节开始的所有努力，本质上都在回答这个新难题。

二、模仿学习的两大骨架：ACT 与扩散策略

学习派的第一步，是先得有一个"能从示范里学会动作"的基本框架。2023 年，两个骨架几乎同时成为后续一切工作的地基。先解释这一代赖以成立的核心概念。

模仿学习 / 行为克隆（imitation learning / behavior cloning）：人先遥控机械臂把任务做几十上百遍（每一遍叫一条 demo / 示范），录下"看到的画面 → 当时做的动作"。神经网络去模仿这个"看到什么就做什么"的映射。这是当前机器人学习最主流的训练方式。
为什么需要专门的骨架？ 直接让网络"看一帧图、预测下一个瞬间的动作"会遇到两个老大难：一是动作不连贯、发抖；二是同一个场景人可能有好几种正确做法（比如从左边绕和从右边绕都行），网络如果硬学，会把两种做法"平均"成一个谁都不对的中间动作。下面两个骨架分别解决这两点。

1. ACT：动作分块

ACT（Action Chunking Transformer，来自 ALOHA 项目，2023）虽然没有单独展开，但它是绕不开的地基，先点明它的贡献。

它的关键做法叫"动作分块"（action chunking）：模型一次不只预测下一个瞬间，而是一口气预测未来一小段（比如未来若干步）的动作，当成一个"块"打包输出。这样动作更连贯，推理也更高效。
为什么重要：后面几乎所有先进策略（包括 VLA）都继承了"分块预测动作"这个思路。OpenVLA-OFT（第 5 节）专门验证了"动作分块 + 连续动作"能显著提升精度。

2. Diffusion Policy：扩散去噪生成动作

Chi et al., RSS 2023 · arXiv

一句话定位：把"生成动作"建模成扩散去噪，是当前模仿学习最主流的骨架之一，强项在于能表达"多种都对"的动作。
它怎么做："扩散"原本是 AI 绘图的技术——从一团随机噪声出发，一步步"去噪"，最后生成一张清晰图像。Diffusion Policy 把这套方法搬来生成动作：从随机噪声出发，逐步去噪得到一段合理的动作序列。
为什么解决了"平均"问题：扩散天生擅长表达多模态分布（也就是"有好几个都对的答案"）。左绕和右绕在它眼里是两个并存的"峰"，它会随机挑一个完整执行，而不会把两者平均成一条撞上去的直线。
对项目：除 ACT 外的另一种主流抓放骨架。后面第 3 节的 3D Diffuser Actor、第 7 节的 ResiP、第 8 节的等变扩散，全都建在它之上——这正是它作为"地基"的分量所在。单个策略达不到 98%，需要配合闭环和重试。

这一节的承上启下：有了 ACT 和扩散策略，"从示范学动作"这件事算是立住了。但很快暴露出一个新短板——这些骨架大多以 2D 图像为输入，缺乏真正的三维空间感：在物体被遮挡、需要判断准确空间位置时容易出错。于是从 2023 年起，研究兵分两路去补"空间感"。第 3 节是第一路（把感知抬进 3D），第 4 节是第二路（借助大模型的语义空间理解）。

三、神经 3D 表征

这一路的核心想法：既然 2D 策略空间感差，那就干脆让模型在三维空间里思考。而且换一个角度——不去估计"物体在哪"（那是被禁用的 PnP 在做的事），而是直接算"我的爪子该去哪"。具体做法是把相机画面"抬"进三维，建立一个 3D 特征表示，让网络在其中直接"检测"或"扩散"出爪子的 6-DoF 位姿。位姿是从 3D 特征里"生长"出来的，而非几何解算得到的。

这是目前证据最扎实、最成熟的学习派 WHERE 路线。下面这张图是它的通用工作流，也是这一整条链共享的骨架：

这一路是教科书级的"一代接一代"，下面顺着链条来讲。

1. Act3D（2023）：3D 特征场

CoRL 2023 · arXiv

它补了谁的短板：补 2.x 那一代 2D 策略"空间感弱"的问题。
它怎么做：先用一个预训练好的 2D 视觉-语言模型提取图像特征，再借助深度图把这些 2D 特征"抬"到三维，构成一个 3D 特征场（3D feature field——可以想象成"空间里每一个点都挂着一串描述它的特征向量"）。然后用 由粗到细（coarse-to-fine：先大范围粗选位置，再在选中的小块里精细打分）的方式，在 3D 空间里采样一批候选点、逐个打分，分数最高的那个点就是爪子该去的位姿。
能做到多准：在 RLBench 仿真上，比上一代最强的 2D 多视角方法（PerAct）绝对高 10%，比上一代最强的 3D 方法绝对高 22%，且节省 3 倍算力。注意：论文只给出"相对提升"，没有给出"棋格级 3~5cm、98% 单次"这类绝对数字，而 RLBench 任务的平均成功率离 98% 还很远。（RLBench 是一个仿真机器人操作基准；仿真里没有真实的光照、滑动、标定误差，数字普遍偏乐观——这一点贯穿全文：仿真 97% 不等于真机 97%。）
它留下的短板，引出下一个：采样打分的方式表达能力有限，遇到"多种都对"的位姿时不够灵活。于是有人想到：能不能把第 2 节的扩散策略接进来？

2. 3D Diffuser Actor（2024）：3D 表征 + 扩散

CoRL 2024 · arXiv

它站在谁肩上：站在 Act3D（3D 特征场）和 Diffusion Policy（扩散）两个肩膀上——这是一次典型的"两条线汇流"。
它怎么做：把 RGB-D 反投影成 3D 场景 token（token 即"一小块打包好的特征单元"），然后用一个 3D 去噪 transformer（扩散模型）反复迭代去噪，最后"扩散"出末端执行器的平移和旋转。它沿用 Act3D 的 3D 表征，但输出位姿的方式从"采样打分"升级为"扩散去噪"，更能表达多模态。
能做到多准：在 RLBench 上比当时最强方法绝对提升 +18.1%（多视角）/ +13.1%（单视角），CALVIN 基准 +9%。但 RLBench 多任务整体仍在 80% 这一段，且是仿真数字。
它留下的短板，引出下一个：它需要 RGB-D（深度），且多视角处理开销不小。于是 RVT-2 想出了一个更省的办法。

3. RVT-2（2024）：虚拟视图渲染

RSS 2024 · arXiv

它补的短板：3D 表征的计算开销大。RVT-2 改走"渲染虚拟视图"这条更轻量的路。
它怎么做：把多个相机的画面渲染成几张标准的"虚拟正视图"（好比给场景拍几张标准证件照），然后在这些视图上像做目标检测一样"检测"出爪子的目标位姿，再用 由粗到细 的两级放大来提升精度，绕开显式位姿估计。
能做到多准：RLBench 多任务成功率从 65% 提升到 82%（刷新当时的 SOTA），而且只用 10 条示范就能学会高精度任务。但 82% 远低于 98%，且仍是仿真整任务。
它留下的短板，引出下一个：它的视觉特征还是"自己训出来的"，不够强。能不能借用一个见多识广的视觉大模型？

4. SAM2Act（2025）：接入视觉基础模型

2025 · arXiv

它站在谁肩上：站在 RVT-2 的多视图框架上，外挂一个视觉基础模型 SAM2 的特征。视觉基础模型指在海量图像上预训练、能力很通用的大视觉模型（SAM2 是 Meta 的图像分割大模型）。
它怎么做：借 SAM2 的多分辨率上采样特征来增强空间定位，对"插桩"这类高精度子任务提升明显。
能做到多准：RLBench 18 个任务平均 86.8%，比 RVT-2 高 5.4 个百分点，是当时的 SOTA。仍低于 98%，且为仿真整任务。
它说明了什么：用更强的基础模型特征能够继续提升精度，但单个策略的仿真天花板还是卡在约 87%。

5. HyperTASR（2025）：随阶段切换精细度

PMLR v305, 2025 · arXiv

它补的短板：上面这些策略对"任务进行到哪一步"是无感知的——抓取早期需要大范围粗定位，临到落子又需要精细几何，用同一套表征不够灵活。
它怎么做：用 超网络（hypernetwork——一个"专门生成另一个网络参数的网络"）按照"任务规格 + 当前执行到第几步"动态生成表征变换参数，让空间特征随阶段演化：先粗略定位，临近接触时再切换到细粒度几何感知。它不是独立的策略，而是给路线②的 3D 策略加装的"动态精修"插件。
对项目："接近落子时切换到精细定位"这个需求和它正好对口，可以作为增强项；但它只评估了关键位姿预测，没有格级 98% 的数字。

这一节小结：Act3D → 3D Diffuser Actor → RVT-2 → SAM2Act → HyperTASR，是一条脉络清晰的"每一代补前一代短板"的链。它们的共同优点是绕开标定、空间感强、证据扎实；共同短板是单个策略的仿真天花板约 87%，且大多需要深度相机。它们可以充当执行端骨架，但要谈达标，必须叠加第 7 节的闭环和重试。

四、指向型空间 VLM

回到第 2 节末尾的分岔口。补"空间感"的第二路，走的完全是另一种思路：不自己建 3D，而是借助一个本来就见多识广的视觉语言大模型（VLM），让它直接在图上"指"出目标在哪。

VLM（Vision-Language Model，视觉语言模型）：一类既能看图、又能理解语言的大模型。
这一路的取舍：把"在哪"从"估计完整位姿"降级为"指一个 2D 点或框"，再用深度投影到三维。好处是简单、数据成本低、语义强（能听懂"放那个空格子里"）；代价是精度只够做粗定位。

所以先把结论放在前面，以免误用：这一路对我们项目而言的正确位置，是顶视全局相机识别"哪个棋子、哪个格子"的语义层，绝不能用来做亚厘米级的精确落子。下面按发展顺序来看。

1. SpatialVLM（2024）：定量空间推理

Google, 2024 · 项目主页

它补的短板：普通 VLM 能说出"杯子在桌上"，但答不准"杯子离碗多远""谁在谁左边"这类定量空间问题。
它怎么做：用大规模 3D 空间问答数据训练 VLM，注入定量空间推理能力（估计距离、方位、大小）。
对项目：它提升的是"语义级空间推理"，不是亚厘米级的执行精度。适合"哪个格离哪个子多远"这类高层推理，是这一路的认知地基。

2. RoboPoint（2024）：输出 2D 指向点

CoRL 2024 · arXiv

它站在谁肩上：站在"VLM 具备空间理解"这个前提上，把它落实成机器人能用的形式——指点。
它怎么做：微调一个 VLM，从"图 + 语言指令"直接输出图像里的归一化 2D affordance 关键点（该放哪、空位在哪），再用深度图投影到 3D。它纯用合成数据训练，不需要真机示范。affordance（可供性）指"这个地方能用来做什么"，比如"这块桌面能放东西"。它把 WHERE 从"位姿估计"降级为"点预测"。
能做到多准（关键的反面证据）：点落进目标区域的命中率，Where2Place 为 46.77%、RoboRefIt 为 49.82%——都不到 50%（不过已显著优于 GPT-4o 的 29%、Qwen-VL 的 24%）。7 个真机语言条件任务平均成功率为 61%（GPT-4V 仅 24%）。
结论：只适合做语义层（识别哪个子、哪个格），绝不能作为亚厘米级落子精度的来源。后续的 RoboRefer（NeurIPS 2025）更强，但"只能粗定位"这个量级的结论不变。

3. Molmo / PixMo Pointing（2024）：开源指向后端

AI2, 2024 · 博客

它补的短板 / 价值：在 RoboPoint 之外，给社区提供一个开源、能自行部署的"指向"能力。其训练数据专门包含"指向"标注，能对图里的物体输出 2D 指向坐标。
对项目：适合做"指认哪个棋子、哪个格"的语义后端，可自行托管而不依赖闭源 API。但它仍是 2D 像素级，不具备执行精度。

4. RoboBrain 2.0（2025）：通用具身 VLM

2025 · arXiv

它怎么做：一个通用的具身 VLM，直接产出 affordance 预测、空间指代和轨迹预测。其输出是 2D 像素级的点或框，而不是 3D 位姿——它是一个感知组件，后面还得接一个下游控制器才能驱动机械臂。
对项目：定位与 RoboPoint 相同，适合"棋局语义理解、指代"，落子精度则交给闭环策略来保证。

5. SpatialVLA（2025）：空间表征注入 VLA

2025 · 项目主页

它怎么做：在 VLA 模型里显式注入 3D 空间表征（如以自我为中心的 3D 位置编码、自适应空间网格），增强空间接地、改善对位置的泛化。
它的特殊意义：注意它已经不是纯粹的"指向 VLM"了，而是把空间理解嵌入到 VLA 之中。这正是第 5 节那个"螺旋"的前奏——空间这一路最终汇入了大一统的 VLA。

这一节小结：SpatialVLM → RoboPoint → Molmo → RoboBrain2 → SpatialVLA，是一条"让大模型越来越懂空间、并越来越接近能动手的 VLA"的链。它们的统一画像是"VLM 指点，成本低、语义强，但精度只有 50% 至 61%"。对我们而言，它的正确岗位是顶视相机输出 FEN（棋盘状态）那一层的语义识别，不涉及落子精度。

五、统一 VLA 与空间感的回归

前两章是"分兵补短板"。到了 2024 至 2025 年，出现一个收敛的大趋势：干脆用一个大模型把读懂指令、理解场景、决定动作全部包揽——这就是 VLA（Vision-Language-Action，视觉-语言-动作模型）。它是最端到端、最具"AI 感"、简历上最亮眼的路线，也是当前的旗舰方向。

先看它的内部结构，以及那个最值得讲的"螺旋上升"：

VLA 这一支也有清晰的传承：（RT-2 等早期工作）→ OpenVLA（开源化）→ π0 / π0.5（流匹配旗舰）→ OpenVLA-OFT（微调配方）→ FALCON / SpatialVLA（把空间感注回来）。

1. OpenVLA（2024）：开源可微调底座

OpenVLA（2024，未单独展开，但它是后面 π0 的前提）把"大规模预训练的 VLA"开源出来，让研究者能在自己的数据上微调。它确立了"拿一个预训练好的 VLA、用少量自己的 demo 微调"这一主流做法。它的短板——建立在 2D 编码器上、空间感不足——正是后面 FALCON、SpatialVLA 要补的。

2. π0 / π0.5（2025）：端到端旗舰，无规划器

Physical Intelligence, 2025 · 博客 · arXiv

一句话定位：单一模型，用语义推理决定"去哪"，用流匹配输出底层关节动作，全程没有规划器。（结构见上图）
它怎么做：一个模型里分两层——高层用离散自回归 token 解码来"推理目标位置"（类似 思维链 chain-of-thought：让模型像人一样先一步步想清楚要做什么）；低层用 流匹配（flow matching，可理解为扩散的"提速版表亲"，同样从噪声生成连续动作，但路径更直、更快）直接输出 50 步（约 1 秒）的连续关节动作块。它的空间接地是语义化的（靠网络上的检测、图文描述数据共同训练得来），而不是显式的几何位姿。论文原话很有代表性："全程端到端……直接给出目标位姿，由简单的 PD 控制器跟踪，没有任何轨迹规划或碰撞检测。"（PD 控制器是最基础的底层伺服，不是规划器。）
能做到多准：真机整任务，同分布 83% / 新环境 94%（这是长程移动操作的整任务成功率，不是棋格单步）。
结论：这是最"端到端、无规划器"的范式，简历亮点很足。但旗舰 VLA 在真机上也只有 83% 至 94%，达不到 98% 单次。它可以充当抓放骨架，但必须靠重试来补足。

3. OpenVLA-OFT（2025）：VLA 微调配方

RSS 2025 · arXiv

它补的短板：VLA 微调之后又慢又不够准。OFT（Optimized Fine-Tuning，优化微调）给出一套配方。
它怎么做：四个技巧——并行解码（一次把动作块全部解出来，不再一步步挤）、动作分块（继承自 ACT）、连续动作表示（用 L1 回归直接输出连续数值，而不是把动作切成离散 token），加上多种输入融合。关键发现：用连续动作比用离散 token，绝对成功率高约 5%，原因是"动作预测更精确"；推理还提速约 26 倍。
能做到多准：LIBERO（仿真四套件，是另一个仿真模仿学习基准）平均从 76.5% 提升到 97.1%（SOTA）。在真机双臂 ALOHA 上，灵巧任务平均 87.8%，优于 π0 的 77.1%、RDT-1B 的 78.4%、Diffusion Policy 的 77.5%、ACT 的 72.3%。
它说明了什么：仿真已逼近 97%，真机仍只有 78% 至 88%——再次印证仿真不等于真机。它的"动作分块 + 连续动作"是值得我们借鉴的提精度技巧。

4. π0 in the Wild（2025）：第三方真机实测

Penn PAL, 2025 · 项目主页

它怎么做：第三方在开放的真实环境里独立复现并评测 π0，看它真实的泛化能力究竟如何。
对项目：它佐证了"旗舰 VLA 在真机上就是落在中高成功率段，而非 98%"，是"不要高估单次 VLA 精度"的一个旁证。

5. FALCON（2025）：VLA 吸收 3D 几何先验

ICLR 2026 接收 · arXiv

它补的短板（本节的高潮）：前面的 VLA（OpenVLA、π0）大多建立在 2D 编码器上，空间感不足，论文称之为"空间推理鸿沟"。FALCON 的解法是——把第 3 节那条 3D 表征路线的成果，重新注回 VLA。这正是上图那个红色螺旋。
它怎么做：用 空间基础模型（spatial foundation model，一类专门擅长从图像推断三维几何的预训练大模型）从 RGB 单图 提取强几何先验，深度和位姿数据则作为"可选增强，且不必重新训练"。关键设计在于：把丰富的 3D 空间 token 注入到 动作头（action head，即模型最后输出动作的那部分），而不是塞进视觉-语言主干——这样在做空间定位时就不会牺牲语言推理能力。
能做到多准：摘要称其在 3 个仿真基准加 11 个真实任务上达到 SOTA，对杂乱场景、物体尺度变化具有鲁棒性；但摘要没有给出具体成功率，细节在正文表格中。
对项目的特殊价值：只靠 RGB 就能拿到几何先验，深度可选——这对"我们到底要不要上深度相机、要不要 ROS"有直接的参考意义（详见第 11 节）。

这一节小结，也是全文"螺旋"主旨的体现：VLA 不是简单地超越前几代，而是把第 3 节的 3D 几何先验、第 4 节的语义指向，重新融入自己（SpatialVLA、FALCON 就是证据）。但即便如此，即使是最强的 π0.5、OpenVLA-OFT，真机单任务也只有 78% 至 94%。这把我们逼到一个诚实的结论：指望靠"把单个模型做得更强"来达到 98%，目前此路不通。于是整个领域迎来一次集体觉醒——见第 7 节。（第 6 节先补一个并行的小分支。）

六、关键点约束：ReKep

在 3D 表征、语义指向、统一 VLA 之外，还有一条小而有趣的支线。它把"在哪"换成了一种全新的表示方式，且天生自带闭环——很适合作为我们落子对准的灵感来源。

1. ReKep（2024）：关键点约束求解

2024 · arXiv

它的新思路：既不输出位姿（路线②），也不输出点（路线③），而是输出一个数学约束——"只要这几个关键点满足某个数值条件，任务就算完成了"，再用优化求解器解出满足约束的爪子轨迹。
它怎么做：
自动生成约束：用大视觉模型（DINOv2、SAM）从画面里提取一批候选关键点，再用 VLM（GPT-4o）读取自由语言指令、自动写出约束程序（一个 Python 函数：给定一组 3D 关键点，算出"代价值"，代价小于等于 0 就表示约束满足），不需要人为逐个任务手工指定。
求解：分层优化——高层求解"满足约束的爪子位姿"，低层做轨迹优化。关键点以 20Hz 实时更新（每秒刷新 20 次）形成实时闭环，输出一串 SE(3) 位姿（SE(3) 是"位置加姿态"的数学表示），而不是写死的脚本轨迹。
它的最大亮点：自带闭环纠错。需要注意的是，它最后仍然要运行一个下游求解器来解出位姿，所以"位姿"并没有被完全消除，但它替代掉的是显式的逐物体位姿估计那一环。
对项目：可以借鉴"关键点约束 + 实时闭环"的思路来做落子对准。目前没有格级 98% 的直接证据，更适合作为"架构灵感"。

这一节小结：ReKep 证明"在哪"还可以用"约束 + 闭环优化"来表达，而其中闭环是它最有价值的部分。这恰好把我们引向第 7 节——整个领域发现：与其追求单次完美，不如把功夫下在"边做边修 + 失败重试"上。

七、闭环纠错与重试

读到这里你应该已经感觉到了：无论是 3D 表征（约 87%）、语义指向（低于 61%）还是旗舰 VLA（83% 至 94%），没有任何一条路线的单次精度能摸到 98%。这不是哪篇论文不够努力，而是当前学习派的真实天花板。

于是这一领域迎来一次成熟的觉醒：承认"单次抓放就是做不到 98%"，转而在执行环节想办法——一边做一边用相机反馈纠偏（闭环），失败了就检测出来再来一次（重试）。 这一节是把整个项目从"做不到"变成"能达标"的关键。

先讲贯穿全章的一对概念：

开环（open-loop）：算好一条动作就照做，中途不看反馈、不做修正，准不准全看一开始。
闭环（closed-loop）：一边做一边用相机查看实际是否到位，发现偏了就实时修正。下面这些方法基本上都在做闭环。

这条路线同样是一代代递进的，下面按时间顺序来看。

1. IndustReal（2023）：精密装配的精度天花板

RSS 2023 · arXiv

它的意义：它专攻最难的精密装配，用它的成绩当作"标尺"，能让我们对天花板心里有数。
它怎么做：在仿真里用 强化学习 训练精密插入策略，再迁移到真机，完成亚毫米间隙（0.5~0.6mm）的装配。强化学习（RL） 是指"让智能体不断试错、按奖励自我学习"，与模仿学习互补。sim-to-real（仿真到现实）是指"在仿真里训练好再搬到真机"，能节省真机数据，但有"现实差距"需要克服。
能做到多准（天花板证据）：插桩 76.7% 成功 / 86.7% 接合；齿轮 92.5% / 95.0%。全部低于 98%——即便专攻精密装配，接触密集型任务的学习策略单次上限也就在 77% 至 95%。
它说明了什么：靠单次达标并不现实，必须重试。这给后面所有闭环工作定下了基调。

2. ResiP（2024）：残差闭环纠错

2024 · arXiv · 项目主页

它站在谁肩上：站在第 2 节的扩散、分块骨架上——主策略沿用它，自己只负责补上"纠错"。
它怎么做：残差（residual）是指"在主策略输出的基础上额外叠加的一点修正量"。ResiP 给一个已经训练好、冻结不动的分块模仿策略，外挂一个用 RL 训练的残差策略，实时盯着、补上小幅修正，把原本开环的动作块执行变成闭环纠错。可以概括为"模仿学习产生轨迹 + 强化学习做闭环纠错"。
⚠️ 一条经核查被否定的说法：网上流传"ResiP 把 FurnitureBench 插桩从 5% 提到 99%、one_leg 从 54% 提到 98%"——经 3 票一致核查，原文并不支持这一说法。不要把它当作"学习闭环已达 98%"的证据。
对项目：值得借鉴的是它的架构模板（冻结主策略 + 残差闭环纠错），但不能拿它当作达标的证据。

3. YAY Robot（2024）：实时语言纠正闭环

2024 · 项目主页

它怎么做：执行时人用实时语言下达纠正指令（"往左一点""松开"），这些纠正被策略吸收，形成"越用越好"的闭环。Yell At Your robot 直译就是"对你的机器人喊话"。
对项目：它代表"人在环路、语言纠错"放大可靠性的思路。对我们的早期采数、调试阶段有用（人工介入纠正失败的抓放）；到了自主阶段，再把"人工喊话"换成"自动失败检测 + 重试"。

4. EasyInsert（2025）：相对位姿回归 + 由粗到细闭环

2025 · arXiv · 项目主页

为什么单独拿出来强调：它是这条线里最值得我们直接迁移的范式，和棋子抓放、落子几乎同构。
它怎么做：核心是 相对（delta）位姿回归——不去估计"插头在世界坐标系里的绝对坐标"，而是直接预测"插头相对插孔还差多少"（这个差值叫 delta）。它在双腕上各装一台 RealSense D405 彩色相机，由扩散策略预测插头与插孔之间的 delta 位姿，驱动一个多相位、由粗到细的闭环控制器反复收敛对准。不需要 CAD 模型、数字孪生或经典位姿估计。 数据也很省：1 小时遥操作引导加自动采集（80% 自动探索 + 20% 手动精细），约 5 小时的数据就够用。
能做到多准：每次尝试成功率大于 90%；快速微调后，15 个新物体里有 13 个零样本就能达到 90% 以上。
对项目（最该借鉴的范式）："对准一个已知目标，再做闭环 delta 收敛"和棋子抓放、落子是同一类问题。用相对位姿回归绕开 PnP，由粗到细的闭环把单次成功率推到 90% 以上，再靠重试补到 98%。最小传统成分只剩下"腕部相机的几何加多相位控制器结构"。⚠️ 它目前只验证了插入，迁移到抓放还需要我们自己测试。

5. 软腕 + VLM 失败恢复（2025）：机械顺应 + 失败恢复

2025 · arXiv

它的独特贡献：把"可靠性的来源"从纯算法扩展到了硬件。
它怎么做：被动顺应（passive compliance）指机械结构本身具有弹性，对不准时能自己"让一让"，在物理层面吸收误差，而不依赖算法。这个软腕能容忍 5° 的抓取错位和 20mm 的孔位误差。失败时用 GPT-4o 判断是哪一类失败，再选择对应的恢复技能。
能做到多准：完全不做恢复（全随机）只有 47%，加入 GPT-4o 恢复后仿真为 83% / 真机大于 80%（35 次试验，样本偏小）。
对项目：① 它证明"失败检测 + 恢复"这一方向有效（47% 提升到 83%）；② 但它封顶在约 80% 至 83%，单靠它达不到 98%，仍需叠加重试；③ 它的可靠性主要来自机械顺应这种"非学习"的传统成分——这提示我们：被动柔顺的夹爪、手腕是性价比极高的可靠性来源，值得在硬件层面考虑。

这一节小结：IndustReal（确定天花板）→ ResiP（残差闭环）→ YAY（人工语言纠正）→ EasyInsert（delta 闭环的正面样板）→ 软腕恢复（机械顺应兜底）。核心套路有三种，且可以叠加——闭环纠偏、机械顺应、失败检测后重试或恢复。单独使用都到不了 98%，但叠加在策略骨架之上、再配合重试，就能把整体可靠性提升到位。为什么"重试"这么有效？第 10 节用数学讲清楚。

八、数据效率：等变扩散

前面的路线大多假设"数据充足"。但我们是自己遥操作采集数据，采得越少越省力。所以"数据效率"是一条横切所有路线的关注点，单独成章。

1. Equivariant Diffusion Policy / EquiDiff（2024）：用对称性提升数据效率

CoRL 2024 Oral · arXiv · 项目主页

它站在谁肩上：站在第 2 节的 Diffusion Policy 上，为它加上一条物理先验。
它怎么做：等变 / 对称性（equivariance / symmetry）的直觉是——如果把整个场景旋转或平移一下，正确的动作也应当跟着做同样的旋转或平移。EquiDiff 把这条规律（如 SO(2) 旋转对称）直接写进网络结构，于是模型不必从数据里费力学习这条规律，样本效率大幅提升。
能做到多准 / 多省数据：在 12 个 MimicGen 仿真任务上平均比基线 Diffusion Policy 高 21.9 个百分点。真机 6 个任务只用 20~60 条示范就能学会，而基线 Diffusion Policy 在这么少的数据下根本学不动。
对项目（重点推荐的候选骨架）：棋盘的平移、旋转对称性极强（一个格子和另一个格子的抓放，本质上就是平移、旋转的关系），与等变先验天然契合；少于 60 条示范的数据成本，对自采遥操作来说完全可以承受。再配合 EasyInsert 式的自动数据扩增就更省了。它报告的仍然是"相对提升、中高成功率"，而非 98% 单步，因此仍需靠重试来补。

这一节小结：在"demo 预算紧张"的现实下，EquiDiff 是最契合棋盘任务的骨架候选——既省数据，又能吃到棋盘对称性带来的红利。

九、真机下棋系统的实证

前面讲的都是通用操作论文。这一节则是真正造出来用于下棋的机械臂系统。它们大多使用传统成分（而非现代学习栈），不能直接照搬，但作为旁证极其有价值：它们用真实数据告诉我们"真机下棋单步到底多准""重试到底有没有用"。

1. Gambit（2011）：经典 6 自由度下棋臂

UW, ICRA 2011 · PDF

系统：定制的 6 自由度臂 + 2011 年的经典感知（SVM 棋子分类）+ 可选的局部 视觉伺服（visual servoing：用相机实时反馈引导机械臂对准，是一种闭环）。
关键数字（最有价值）：6 局共 786 次操作，自主成功率 91.6%，4.8% 需人工介入，3.6% 为静默失败。还有一个"反角实验"：在最难的摆放下，闭环视觉伺服把抓取成功率从 17.5%（7/40）提升到 77.5%（31/40），抓取质量从 1.4 提到 3.1。
对项目（决定性旁证）：① 真机下棋单步抓放本来就在约 90% 这个量级，整局是靠重试和人工介入完成的，并非单次达标；② 闭环视觉伺服确实能大幅放大可靠性（17.5% 提升到 77.5%），但单层封顶约 77.5%，还得叠加重试。⚠️ 它的可靠性来自传统成分，不能直接外推到现代学习栈。

2. Quanser QArm 下棋臂（2025）：重试达标的实证

Wiley Eng. Reports, 2025 · DOI

系统：QArm + 微调的 YOLOv8 感知 + 预标定 waypoint + TinyIK 逆运动学（运动是传统脚本，学习只用在感知环节）。逆运动学（inverse kinematics, IK）是指"已知爪子要到达的位置，反算每个关节该转多少角度"。
关键数字（重试达标的直接证据）：单步抓放首次成功率 87%，一次重试后达到 97%。这与重试数学高度吻合：1-(1-0.87)^2 ≈ 0.983，实测 97% 略低于理论值，说明真机失败具有"相关性"（并非完全独立），所以重试必须是"带反馈的独立尝试"。
对项目：它最直接地证明了"检测失败再重试能把 87% 推到 97%"；但一次重试还差 98%，需要 k 取 2 至 3 次，并让每次重试尽量独立。⚠️ 它不是 VLA、端到端方案，只作为重试机制的旁证。

3. 视觉伺服 + LLM 规划下棋臂（2025）：检测 + 闭环伺服的精度上限

Neural Computing and Applications (Springer), 2025/2026 · DOI

系统：感知与定位用 YOLOv8 目标检测（mAP > 97%）加视觉伺服闭环来做抓放；LLM 负责"任务规划、决策层"（把自然语言指令拆解成可执行的计划），不负责底层定位精度。它属于"传统 CV 检测 + 视觉伺服"，而非端到端 VLA。
关键数字：抓放成功率"大于 90%"，低于我们要求的 ≥98% 单步；YOLOv8 检测 mAP > 97%；避障算法让平均移动时间减少 15%。
对项目：它的"在哪"用 YOLO 检测框加视觉伺服，而非 PnP——是"学习派检测 + 闭环伺服"的折中方案。但抓放只到大于 90%，说明这条折中路线在棋格级任务上同样达不到 98%，是"混合、学习派检测路线精度上限"的反面证据。

这一节小结：三个真机系统异口同声地说明了同一件事——真机下棋单步就在 87% 至 92% 这个量级，谁也没能做到单次 98%；能下完一整局，靠的是闭环纠偏 + 重试 + 偶尔的人工介入。 这正是我们方案的现实依据。

十、核心洞见：重试是达标关键

读完所有模型，最重要的结论不在任何单个模型身上，而在它们共同指向的一件事。这一节用一张图把它讲透。

1. 一句话结论

纯学习派、端到端方案目前做不到真机 98% 单次抓放——没有任何一篇公开论文给出过这一证据。 但"学习派为主 + 最小传统成分 + 失败检测后带反馈重试"的混合方案在工程上可行，且能达标，达标的机制是"重试"，而非"单次能力"。 我们这个任务恰好满足"可重试 + 时间不敏感 + 棋盘刚性已知"，是少数能够靠重试现实达标的场景。

2. 重试数学（图左）

设单步成功率为 p，每步允许最多 k 次"带反馈的重试"，那么整步可靠性 = 1-(1-p)^k（意思是"只有 k 次全失败才算失败"）：

p=0.90：k=2 → 0.99；k=3 → 0.999
p=0.85：k=3 → 0.9966
p=0.95：k=2 → 0.9975

图左的三条曲线就是这三个 p 值随 k 上升的轨迹。看红色虚线（98% 目标线）：哪怕单次只有 85% 至 90%，重试 2 至 3 次就能越过 98%。这就是为什么"单次做不到 98%"并不可怕。

3. 必须重视的陷阱：失败相关性（图右）

上面的公式有一个前提——各次失败相互独立。但真机失败往往是相关的：同一个系统偏差、同一个难抓的姿势，会让你"每次都在同一个地方失败"。这正是 QArm 实测只到 97%、而非理论值 98.3% 的原因。

所以重试不能是"重放同一条轨迹"，必须是"带反馈的独立尝试"（如图右的状态机所示）：执行 → 失败检测 → 重新感知 → 更换抓取点或重新规划 → 再来一次。只有让每次尝试尽量独立，重试数学才大致成立。

4. 闭环放大可靠性，但单层有上限

Gambit 的反角实验证明：闭环视觉伺服能把最坏情况下的抓取从 17.5% 提升到 77.5%——闭环纠错确实大幅放大了可靠性。但单层闭环封顶仍然在约 77.5%，必须在闭环之上再叠加重试，两个机制相乘起来才够。

结论：我们的 98% 目标应理解为"整步（含重试）的可靠性"，而不是苛求单次抓放就达到 98%。这在棋类任务（可重试、不赶时间）中完全现实，拿它作为简历指标也站得住脚。

十一、四层落地架构

把前面十章的进化成果各取所长，拼成一个能落地的架构——"学习派为主 + 最小传统成分 + 闭环重试"。

四层架构从上到下：

① 符号层（非学习）：Stockfish 计算走法（如 e2→e4），再由 python-chess 校验合法性。这一层和机器人无关，是纯软件。
② 感知 / WHERE 层（学习派为主）：顶视全局相机，用 CV 或 VLM 输出 FEN（认出"哪个子、哪个格"，这是第 4 节指向型 VLM 的强项）；外加一个失败检测器（落子到位了没？是否抓空？据此触发重试）。
③ 抓放策略层（学习派核心）★ 项目主体：腕部相机加目标格，输入学习策略（第 2 节的 ACT、扩散，第 8 节的等变扩散）；由粗到细的闭环（迁移自第 7 节 EasyInsert 范式）预测相对 delta 位姿并迭代收敛，绕开 PnP。
④ 编排 / 重试层（达标关键）：状态机"执行 → 检测 → 重试（k 取 2 至 3，重新感知并更换抓取点）"；以及棋类特殊规则的编排（吃子时先把被吃子移走、易位需移动两子、升变需更换棋子）。

最小传统成分压缩到唯一一处（图右黄框）：一次性的棋盘平面外参，以及深度图的 2D 到 3D 投影（棋盘刚性已知，这一点几何先验几乎是免费的）。此外还有可选的机械顺应（被动柔顺的夹爪或手腕，在物理层面吸收对准误差，性价比极高）。其余的感知与控制全部交给学习模型。

要不要 ROS（图右下）：不需要把 ROS 作为感知、控制的必要环节。所有学习派系统（π0、OpenVLA、EasyInsert 等）都是"策略推理 → delta 或残差动作 → 底层伺服"，没有一个依赖 MoveIt、OMPL 几何规划——相机直接用 Python 读取数据流（OpenCV、RealSense SDK）接入 LeRobot 即可。ROS 唯一合理的定位是充当"工程编排、重试状态机 + 硬件驱动 + 安全"的黏合层，而不是充当被禁用的"位姿估计 + 轨迹规划"的替代品。对于单机单臂，纯 Python 状态机其实就够用，ROS 在这里是可选项。

骨架选型建议（按数据预算）：

demo 预算紧张 → 首选等变扩散 EquiDiff（少于 60 条 demo，棋盘对称性强，最为契合），再配 EasyInsert 式的自动数据扩增。
想借助 VLA 的关注度、增加简历亮点 → 用 π0 / SmolVLA 微调来做抓放策略（LeRobot 原生支持），但需要更多数据，单次仍只有约 85% 至 90%，靠重试来补。
WHERE 粗定位、语义 → 用指向型空间 VLM（RoboPoint 或后续的 RoboRefer）只做"识别哪个格"，绝不用于亚厘米级落子。

十二、横向对比表

模型 / 系统	路线	出现时间	站在谁肩上 / 解决的短板	怎么解决"在哪"	最强精度数字	真机?	要深度?
Gambit	⓪/⑦	2011	传统派代表作	经典感知 + 视觉伺服	自主 91.6%	真机棋类	—
ACT	①	2023	动作不连贯	动作分块预测	骨架	真机	看输入
Diffusion Policy	①	2023	多种正确做法被平均	扩散去噪出动作序列	骨架基线	仿真+真机	看输入
Act3D	②	2023	2D 策略空间感弱	3D 特征场采样打分	RLBench 相对 +22%	仿真	是
3D Diffuser Actor	②	2024	Act3D 表达力有限	3D token + 扩散去噪	RLBench +18.1%	仿真	是
RVT-2	②	2024	3D 算得重	虚拟视图上检测位姿	RLBench 82%	仿真	多视角
SAM2Act	②	2025	RVT-2 特征不够强	RVT-2 + SAM2 基础模型特征	RLBench 86.8%	仿真	多视角
HyperTASR	②增强	2025	对任务阶段无感	超网络按阶段切粗/细	关键位姿预测提升	—	—
SpatialVLM	③	2024	VLM 不会定量空间推理	空间问答训练	语义级	—	否
RoboPoint	③	2024	空间理解难落地	VLM 吐 2D 关键点	命中 <50%，真机 61%	真机粗定位	投影需深度
Molmo-Point	③	2024	缺开源指向后端	开源 VLM 指向坐标	2D 像素级	感知组件	否
RoboBrain 2.0	③	2025	—	VLM 吐点/框/轨迹	2D 像素级	感知组件	否
SpatialVLA	③/④	2025	VLA 空间感弱	VLA 注入 3D 空间表征	无 98% 证据	—	否
OpenVLA	④	2024	VLA 不开源难微调	开源预训练 VLA 底座	（底座）	真机	否
π0 / π0.5	④	2024-25	要更端到端	语义推理 + 流匹配动作	真机整任务 83%/94%	真机整任务	否
OpenVLA-OFT	④	2025	VLA 微调慢且不够准	并行解码+连续动作配方	仿真 97.1% / 真机 78~88%	仿真+真机	否
π0 in the Wild	④	2025	验证真机泛化	π0 真机实测	中高成功率段	真机	否
FALCON	②→④	2025	VLA 空间推理鸿沟	RGB 单图提几何先验注入动作头	3 仿真+11 真机 SOTA	仿真+真机	否(可选)
ReKep	⑤	2024	位姿/点表示太死	关键点约束 + 实时闭环优化	自带闭环，无格级 98%	真机	是
IndustReal	⑤	2023	给执行端定天花板	sim2real RL 精密插入	peg 76.7%/gear 92.5%	真机插入	—
ResiP	⑤	2024	开环执行会漂移	冻结主策略 + 残差闭环RL	（98% 传言被否决）	仿真+真机	—
YAY Robot	⑤	2024	自主纠错难	人实时语言纠正闭环	长程灵巧任务	真机	—
EasyInsert	⑤	2025	绝对位姿估计依赖标定	相对 delta 回归 + 由粗到细闭环	每次尝试 >90%	真机插入	是(腕部RGB)
软腕 + VLM 恢复	⑤	2025	纯算法可靠性有限	机械顺应 + GPT-4o 恢复	47%→83%(仿真)/>80%(真机)	真机插入	—
EquiDiff	⑥	2024	demo 太贵	等变扩散利用对称性	比 DP +21.9pp，<60 demo	仿真+真机	看输入
QArm 下棋臂	⑦	2025	—	YOLO + 预标定 waypoint	首次 87%→重试 97%	真机棋类	—
视觉伺服+LLM 下棋	⑦	2025	—	YOLO 检测 + 视觉伺服	抓放 >90%	真机棋类	—

注：ACT、OpenVLA 未单独展开，作为发展脉络的必要节点列出。

十三、能力边界与未解问题

撰写项目方案时，主动说清这些"诚实的边界"，反而更显专业：

单次达标不可能：没有任何经过核查的工作给出纯学习真机 ≥98% 的单次抓放；最强的也只有 77% 至 94%。
达标全靠重试：98% 来自 1-(1-p)^k 加上棋类重试的实证，而非单次能力——不要误读，也不要在简历里写成"单次 98%"。
重试有相关性陷阱：失败相关会让实际需要的 k 高于理论值；必须做"带反馈的独立重试"。
失败检测器是隐藏的关键：整步达到 0.98 还取决于失败检测的漏检率（漏检指该重试却没有重试），本轮调研没有覆盖检测器的可靠性——这是需要我们自己补上的工程风险点。
空间 VLM 只适合做语义层：指向精度在 50% 至 61% 之间，绝不能作为落子精度的来源。
两个真机下棋系统的可靠性来自传统成分（QArm 的预标定 waypoint、Gambit 的经典感知）——它们证明了"重试有效"，但不能直接外推到现代学习栈。

仍然未解、留给实做阶段验证的问题：

带反馈重抓的"失败相关性"到底有多大？它决定了真实需要的 k 值和单步 p 的下限。
EasyInsert 式由粗到细的闭环从"插入"迁移到"抓放"后，单次能否稳定保持在 0.9 以上？（EasyInsert 只验证了插入）
EquiDiff（数据高效）与 ResiP（闭环残差纠错）叠加使用，是否有人做过联合评测？两者分别是"数据高效"和"闭环纠错"的最佳代表。
失败检测器本身的准确率、漏检率是多少？这是整步可靠性的隐藏天花板。

十四、参考文献

按技术发展脉络归类的代表工作：

模仿学习骨架：ACT（Zhao et al., 2023）、Diffusion Policy（Chi et al., RSS 2023）
神经 3D 表征：Act3D（CoRL 2023）→ 3D Diffuser Actor（CoRL 2024）→ RVT-2（RSS 2024）→ SAM2Act（2025）→ HyperTASR（2025）
指向型空间 VLM：SpatialVLM（2024）→ RoboPoint（CoRL 2024）→ Molmo / PixMo（2024）→ RoboBrain 2.0（2025）→ SpatialVLA（2025）
统一 VLA：OpenVLA（2024）、π0 / π0.5（2025）、OpenVLA-OFT（RSS 2025）、FALCON（ICLR 2026）
关键点约束：ReKep（2024）
闭环纠错：IndustReal（RSS 2023）→ ResiP（2024）→ YAY Robot（2024）→ EasyInsert（2025）→ 软腕 + VLM 失败恢复（2025）
数据效率：Equivariant Diffusion Policy（CoRL 2024）
真机棋类系统：Gambit（ICRA 2011）、Quanser QArm（2025）、视觉伺服 + LLM 规划（2025）