Soma Zero Tutorials
🔍 搜索功能尚未开启,敬请期待。

5.2 主流模型框架介绍

本节按技术发展的先后顺序,把当前主流的机器人操作模型框架串成一条进化链:每一代模型都是在补上一代的短板——传统方法存在什么问题、学习派如何接手、接手后又出现什么新问题、下一代又如何解决。读完你得到的不是一堆并列的模型,而是一条能看清来龙去脉的进化链。

写法约定:每出现一个术语,先用一句话解释,再展开;论文、模型、接口名保留英文(方便查证),串联叙述用中文。每一节配一张示意图,随页面直接渲染。


导读 · 技术谱系总览

先认两条主干道。 后面要讲十几个模型,乍看眼花,其实它们顺着两条主干道在走:路线 A 几何派先把"在哪、有多准"算清楚(传统几何 → 神经 3D 表征 → 指向型空间 VLM),强项是空间精度;路线 B 学习派干脆让一个大模型端到端,从画面加指令直接吐动作(模仿学习骨架 → 统一 VLA → 流匹配旗舰 π0),强项是泛化。最有意思的是结尾——B 在 VLA 这一站回头把 A 的空间感吸了回来(这就是后面反复出现的"螺旋上升")。先看这张主干道总览:

两条主干道:A 几何派 vs B 学习派,最终在 VLA 螺旋汇流
两条主干道:A 几何派求"准",B 学习派求"通用",最终在 VLA 螺旋汇流

记住这两条路(A 求"准"、B 求"通用"),再看下面这张更细的全景图就不会迷路了。它把每一节要讲的模型,按"时间(横向)+ 技术路线(纵向)"摆在一起,并用箭头标出谁站在谁的肩膀上;底色对应路线归属——浅蓝是 A、浅黄是 B、浅灰是贯穿两条的工程化补充。

技术谱系与发展时间线
技术谱系与发展时间线

怎么读这张图

  • 横轴是时间,从 2011 一直到 2025 下半年。可以看到真正的爆发集中在 2023 至 2025 这三年。
  • 纵向是七条路线:⓪ 传统几何 → ① 模仿学习骨架 → ② 神经 3D 表征 → ③ 指向型空间 VLM → ④ 统一 VLA → ⑤ 闭环纠错 → ⑥ 数据效率 → ⑦ 真机下棋。
  • 这七条路线归到两条主干道(对应上一张总览图,也对应这张图的底色):⓪②③ 属路线 A 几何派(浅蓝底,求"准");①④ 属路线 B 学习派(浅黄底,求"通用");⑤⑥⑦ 是贯穿两条的工程化补充(浅灰底)。
  • 黑色实线箭头表示同一条路线里"后人站在前人肩上"(比如 Act3D → 3D Diffuser Actor → RVT-2 → SAM2Act)。
  • 红色虚线箭头表示跨路线的"吸收",是整张图最值得留意的地方:比如"② 3D 表征"被"④ VLA"回头吸收(FALCON),"③ 语义指向"也被 VLA 吸收。这一领域的发展并不是一条线性的超越,而是后一代把前几代的长处重新融入自己——这正是本节要讲清楚的主线。

接下来我们就顺着这张图,从最左边的传统方法开始,一节一节往下读。


一、传统几何流水线及其局限

要理解学习派"在解决什么",得先看清它想取代的是什么。在深度学习进入机器人抓取之前,工业界几十年来用的是一套"几何流水线"。

传统几何流水线 vs 学习派端到端
传统几何流水线 vs 学习派端到端

这套传统流水线由四个环节串成(图上排)

  1. 相机拍照:拿到一张 2D 彩色图。
  2. PnP 位姿估计(Perspective-n-Point):一句话——"看一张照片,反推出物体在三维空间里的精确位置和朝向"。它用几何方法把 2D 图里的物体还原成 3D 的 6 自由度位姿。6 自由度位姿(6-DoF pose)就是描述一个物体完整状态的 6 个数:3 个管位置(前后/左右/上下),3 个管姿态(绕三个轴各转多少)。
  3. 手眼标定(hand-eye calibration):相机和机械臂各有各的坐标系,必须先精确测出两者之间的固定换算关系。标定不准,后面全错;而且它会随时间"漂移"(机械松动、温度变化),要反复重标。
  4. 运动规划 + 脚本执行:知道爪子要去哪之后,用 MoveIt、OMPL 这类规划器算一条不撞到东西的轨迹,机械臂照着轨迹按部就班地走。

它的不足(图上排右侧标红):标定繁琐且容易漂移、换个新物体或新场景就不灵(不泛化)、四个环节的误差还会一环一环累积下去。

学习派想做的事(图下排):把中间那一长串"算出来"的环节,压成一个"学出来"的模型——输入相机画面与语言指令,模型直接输出关节动作,绕开 PnP 和手眼标定。好处是泛化能力强、省去标定;代价(后面会反复看到)是单次精度存在天花板

本项目的硬约束正是针对这一点而来:不允许把传统几何流水线当作主要答案,而要以学习派为主。原因是这是一个求职、简历性质的项目,要体现"用现代 AI 解决机器人问题"的能力,而不是把成熟的工业标定再拼一遍。

顺带交代一个 2011 年的"传统派代表作"——Gambit(详见第 9 节):它是用经典感知加视觉伺服造出来的真机下棋臂,自主成功率 91.6%。记住这个数字,后面对照学习派时,它是一个很好的标尺。

这一节的小结,也是后面所有章节的出发点:传统方法的问题是"标定繁琐、不泛化";学习派接手解决了这两点,但随即要面对一个新难题——怎么让模型有足够的"空间感",把爪子准确送到该去的地方。第 2 节开始的所有努力,本质上都在回答这个新难题。


二、模仿学习的两大骨架:ACT 与扩散策略

学习派的第一步,是先得有一个"能从示范里学会动作"的基本框架。2023 年,两个骨架几乎同时成为后续一切工作的地基。先解释这一代赖以成立的核心概念。

  • 模仿学习 / 行为克隆(imitation learning / behavior cloning):人先遥控机械臂把任务做几十上百遍(每一遍叫一条 demo / 示范),录下"看到的画面 → 当时做的动作"。神经网络去模仿这个"看到什么就做什么"的映射。这是当前机器人学习最主流的训练方式。
  • 为什么需要专门的骨架? 直接让网络"看一帧图、预测下一个瞬间的动作"会遇到两个老大难:一是动作不连贯、发抖;二是同一个场景人可能有好几种正确做法(比如从左边绕和从右边绕都行),网络如果硬学,会把两种做法"平均"成一个谁都不对的中间动作。下面两个骨架分别解决这两点。

1. ACT:动作分块

ACT(Action Chunking Transformer,来自 ALOHA 项目,2023)虽然没有单独展开,但它是绕不开的地基,先点明它的贡献。

  • 它的关键做法叫"动作分块"(action chunking):模型一次不只预测下一个瞬间,而是一口气预测未来一小段(比如未来若干步)的动作,当成一个"块"打包输出。这样动作更连贯,推理也更高效。
  • 为什么重要:后面几乎所有先进策略(包括 VLA)都继承了"分块预测动作"这个思路。OpenVLA-OFT(第 5 节)专门验证了"动作分块 + 连续动作"能显著提升精度。

2. Diffusion Policy:扩散去噪生成动作

Chi et al., RSS 2023 · arXiv

  • 一句话定位:把"生成动作"建模成扩散去噪,是当前模仿学习最主流的骨架之一,强项在于能表达"多种都对"的动作。
  • 它怎么做:"扩散"原本是 AI 绘图的技术——从一团随机噪声出发,一步步"去噪",最后生成一张清晰图像。Diffusion Policy 把这套方法搬来生成动作:从随机噪声出发,逐步去噪得到一段合理的动作序列。
  • 为什么解决了"平均"问题:扩散天生擅长表达多模态分布(也就是"有好几个都对的答案")。左绕和右绕在它眼里是两个并存的"峰",它会随机挑一个完整执行,而不会把两者平均成一条撞上去的直线。
  • 对项目:除 ACT 外的另一种主流抓放骨架。后面第 3 节的 3D Diffuser Actor、第 7 节的 ResiP、第 8 节的等变扩散,全都建在它之上——这正是它作为"地基"的分量所在。单个策略达不到 98%,需要配合闭环和重试。

这一节的承上启下:有了 ACT 和扩散策略,"从示范学动作"这件事算是立住了。但很快暴露出一个新短板——这些骨架大多以 2D 图像为输入,缺乏真正的三维空间感:在物体被遮挡、需要判断准确空间位置时容易出错。于是从 2023 年起,研究兵分两路去补"空间感"。第 3 节是第一路(把感知抬进 3D),第 4 节是第二路(借助大模型的语义空间理解)。


三、神经 3D 表征

这一路的核心想法:既然 2D 策略空间感差,那就干脆让模型在三维空间里思考。而且换一个角度——不去估计"物体在哪"(那是被禁用的 PnP 在做的事),而是直接算"我的爪子该去哪"。具体做法是把相机画面"抬"进三维,建立一个 3D 特征表示,让网络在其中直接"检测"或"扩散"出爪子的 6-DoF 位姿。位姿是从 3D 特征里"生长"出来的,而非几何解算得到的。

这是目前证据最扎实、最成熟的学习派 WHERE 路线。下面这张图是它的通用工作流,也是这一整条链共享的骨架:

神经 3D 表征工作流
神经 3D 表征工作流

这一路是教科书级的"一代接一代",下面顺着链条来讲。

1. Act3D(2023):3D 特征场

CoRL 2023 · arXiv

  • 它补了谁的短板:补 2.x 那一代 2D 策略"空间感弱"的问题。
  • 它怎么做:先用一个预训练好的 2D 视觉-语言模型提取图像特征,再借助深度图把这些 2D 特征"抬"到三维,构成一个 3D 特征场(3D feature field——可以想象成"空间里每一个点都挂着一串描述它的特征向量")。然后用 由粗到细(coarse-to-fine:先大范围粗选位置,再在选中的小块里精细打分)的方式,在 3D 空间里采样一批候选点、逐个打分,分数最高的那个点就是爪子该去的位姿。
  • 能做到多准:在 RLBench 仿真上,比上一代最强的 2D 多视角方法(PerAct)绝对高 10%,比上一代最强的 3D 方法绝对高 22%,且节省 3 倍算力。注意:论文只给出"相对提升",没有给出"棋格级 3~5cm、98% 单次"这类绝对数字,而 RLBench 任务的平均成功率离 98% 还很远。(RLBench 是一个仿真机器人操作基准;仿真里没有真实的光照、滑动、标定误差,数字普遍偏乐观——这一点贯穿全文:仿真 97% 不等于真机 97%。)
  • 它留下的短板,引出下一个:采样打分的方式表达能力有限,遇到"多种都对"的位姿时不够灵活。于是有人想到:能不能把第 2 节的扩散策略接进来?

2. 3D Diffuser Actor(2024):3D 表征 + 扩散

CoRL 2024 · arXiv

  • 它站在谁肩上:站在 Act3D(3D 特征场)和 Diffusion Policy(扩散)两个肩膀上——这是一次典型的"两条线汇流"。
  • 它怎么做:把 RGB-D 反投影成 3D 场景 token(token 即"一小块打包好的特征单元"),然后用一个 3D 去噪 transformer(扩散模型)反复迭代去噪,最后"扩散"出末端执行器的平移和旋转。它沿用 Act3D 的 3D 表征,但输出位姿的方式从"采样打分"升级为"扩散去噪",更能表达多模态。
  • 能做到多准:在 RLBench 上比当时最强方法绝对提升 +18.1%(多视角)/ +13.1%(单视角),CALVIN 基准 +9%。但 RLBench 多任务整体仍在 80% 这一段,且是仿真数字。
  • 它留下的短板,引出下一个:它需要 RGB-D(深度),且多视角处理开销不小。于是 RVT-2 想出了一个更省的办法。

3. RVT-2(2024):虚拟视图渲染

RSS 2024 · arXiv

  • 它补的短板:3D 表征的计算开销大。RVT-2 改走"渲染虚拟视图"这条更轻量的路。
  • 它怎么做:把多个相机的画面渲染成几张标准的"虚拟正视图"(好比给场景拍几张标准证件照),然后在这些视图上像做目标检测一样"检测"出爪子的目标位姿,再用 由粗到细 的两级放大来提升精度,绕开显式位姿估计。
  • 能做到多准:RLBench 多任务成功率从 65% 提升到 82%(刷新当时的 SOTA),而且只用 10 条示范就能学会高精度任务。但 82% 远低于 98%,且仍是仿真整任务。
  • 它留下的短板,引出下一个:它的视觉特征还是"自己训出来的",不够强。能不能借用一个见多识广的视觉大模型?

4. SAM2Act(2025):接入视觉基础模型

2025 · arXiv

  • 它站在谁肩上:站在 RVT-2 的多视图框架上,外挂一个视觉基础模型 SAM2 的特征。视觉基础模型指在海量图像上预训练、能力很通用的大视觉模型(SAM2 是 Meta 的图像分割大模型)。
  • 它怎么做:借 SAM2 的多分辨率上采样特征来增强空间定位,对"插桩"这类高精度子任务提升明显。
  • 能做到多准:RLBench 18 个任务平均 86.8%,比 RVT-2 高 5.4 个百分点,是当时的 SOTA。仍低于 98%,且为仿真整任务。
  • 它说明了什么:用更强的基础模型特征能够继续提升精度,但单个策略的仿真天花板还是卡在约 87%

5. HyperTASR(2025):随阶段切换精细度

PMLR v305, 2025 · arXiv

  • 它补的短板:上面这些策略对"任务进行到哪一步"是无感知的——抓取早期需要大范围粗定位,临到落子又需要精细几何,用同一套表征不够灵活。
  • 它怎么做:用 超网络(hypernetwork——一个"专门生成另一个网络参数的网络")按照"任务规格 + 当前执行到第几步"动态生成表征变换参数,让空间特征随阶段演化:先粗略定位,临近接触时再切换到细粒度几何感知。它不是独立的策略,而是给路线②的 3D 策略加装的"动态精修"插件。
  • 对项目:"接近落子时切换到精细定位"这个需求和它正好对口,可以作为增强项;但它只评估了关键位姿预测,没有格级 98% 的数字。

这一节小结:Act3D → 3D Diffuser Actor → RVT-2 → SAM2Act → HyperTASR,是一条脉络清晰的"每一代补前一代短板"的链。它们的共同优点是绕开标定、空间感强、证据扎实;共同短板是单个策略的仿真天花板约 87%,且大多需要深度相机。它们可以充当执行端骨架,但要谈达标,必须叠加第 7 节的闭环和重试。


四、指向型空间 VLM

回到第 2 节末尾的分岔口。补"空间感"的第二路,走的完全是另一种思路:不自己建 3D,而是借助一个本来就见多识广的视觉语言大模型(VLM),让它直接在图上"指"出目标在哪。

  • VLM(Vision-Language Model,视觉语言模型):一类既能看图、又能理解语言的大模型。
  • 这一路的取舍:把"在哪"从"估计完整位姿"降级为"指一个 2D 点或框",再用深度投影到三维。好处是简单、数据成本低、语义强(能听懂"放那个空格子里");代价是精度只够做粗定位

所以先把结论放在前面,以免误用:这一路对我们项目而言的正确位置,是顶视全局相机识别"哪个棋子、哪个格子"的语义层,绝不能用来做亚厘米级的精确落子。下面按发展顺序来看。

1. SpatialVLM(2024):定量空间推理

Google, 2024 · 项目主页

  • 它补的短板:普通 VLM 能说出"杯子在桌上",但答不准"杯子离碗多远""谁在谁左边"这类定量空间问题。
  • 它怎么做:用大规模 3D 空间问答数据训练 VLM,注入定量空间推理能力(估计距离、方位、大小)。
  • 对项目:它提升的是"语义级空间推理",不是亚厘米级的执行精度。适合"哪个格离哪个子多远"这类高层推理,是这一路的认知地基。

2. RoboPoint(2024):输出 2D 指向点

CoRL 2024 · arXiv

  • 它站在谁肩上:站在"VLM 具备空间理解"这个前提上,把它落实成机器人能用的形式——指点
  • 它怎么做:微调一个 VLM,从"图 + 语言指令"直接输出图像里的归一化 2D affordance 关键点(该放哪、空位在哪),再用深度图投影到 3D。它纯用合成数据训练,不需要真机示范。affordance(可供性)指"这个地方能用来做什么",比如"这块桌面能放东西"。它把 WHERE 从"位姿估计"降级为"点预测"。
  • 能做到多准(关键的反面证据):点落进目标区域的命中率,Where2Place 为 46.77%、RoboRefIt 为 49.82%——都不到 50%(不过已显著优于 GPT-4o 的 29%、Qwen-VL 的 24%)。7 个真机语言条件任务平均成功率为 61%(GPT-4V 仅 24%)。
  • 结论只适合做语义层(识别哪个子、哪个格),绝不能作为亚厘米级落子精度的来源。后续的 RoboRefer(NeurIPS 2025)更强,但"只能粗定位"这个量级的结论不变。

3. Molmo / PixMo Pointing(2024):开源指向后端

AI2, 2024 · 博客

  • 它补的短板 / 价值:在 RoboPoint 之外,给社区提供一个开源、能自行部署的"指向"能力。其训练数据专门包含"指向"标注,能对图里的物体输出 2D 指向坐标。
  • 对项目:适合做"指认哪个棋子、哪个格"的语义后端,可自行托管而不依赖闭源 API。但它仍是 2D 像素级,不具备执行精度。

4. RoboBrain 2.0(2025):通用具身 VLM

2025 · arXiv

  • 它怎么做:一个通用的具身 VLM,直接产出 affordance 预测、空间指代和轨迹预测。其输出是 2D 像素级的点或框,而不是 3D 位姿——它是一个感知组件,后面还得接一个下游控制器才能驱动机械臂。
  • 对项目:定位与 RoboPoint 相同,适合"棋局语义理解、指代",落子精度则交给闭环策略来保证。

5. SpatialVLA(2025):空间表征注入 VLA

2025 · 项目主页

  • 它怎么做:在 VLA 模型里显式注入 3D 空间表征(如以自我为中心的 3D 位置编码、自适应空间网格),增强空间接地、改善对位置的泛化。
  • 它的特殊意义:注意它已经不是纯粹的"指向 VLM"了,而是把空间理解嵌入到 VLA 之中。这正是第 5 节那个"螺旋"的前奏——空间这一路最终汇入了大一统的 VLA。

这一节小结:SpatialVLM → RoboPoint → Molmo → RoboBrain2 → SpatialVLA,是一条"让大模型越来越懂空间、并越来越接近能动手的 VLA"的链。它们的统一画像是"VLM 指点,成本低、语义强,但精度只有 50% 至 61%"。对我们而言,它的正确岗位是顶视相机输出 FEN(棋盘状态)那一层的语义识别,不涉及落子精度。


五、统一 VLA 与空间感的回归

前两章是"分兵补短板"。到了 2024 至 2025 年,出现一个收敛的大趋势:干脆用一个大模型把读懂指令、理解场景、决定动作全部包揽——这就是 VLA(Vision-Language-Action,视觉-语言-动作模型)。它是最端到端、最具"AI 感"、简历上最亮眼的路线,也是当前的旗舰方向。

先看它的内部结构,以及那个最值得讲的"螺旋上升":

VLA 结构与空间感的螺旋回归
VLA 结构与空间感的螺旋回归

VLA 这一支也有清晰的传承:(RT-2 等早期工作)→ OpenVLA(开源化)→ π0 / π0.5(流匹配旗舰)→ OpenVLA-OFT(微调配方)→ FALCON / SpatialVLA(把空间感注回来)。

1. OpenVLA(2024):开源可微调底座

OpenVLA(2024,未单独展开,但它是后面 π0 的前提)把"大规模预训练的 VLA"开源出来,让研究者能在自己的数据上微调。它确立了"拿一个预训练好的 VLA、用少量自己的 demo 微调"这一主流做法。它的短板——建立在 2D 编码器上、空间感不足——正是后面 FALCON、SpatialVLA 要补的。

2. π0 / π0.5(2025):端到端旗舰,无规划器

Physical Intelligence, 2025 · 博客 · arXiv

  • 一句话定位:单一模型,用语义推理决定"去哪",用流匹配输出底层关节动作,全程没有规划器。(结构见上图)
  • 它怎么做:一个模型里分两层——高层用离散自回归 token 解码来"推理目标位置"(类似 思维链 chain-of-thought:让模型像人一样先一步步想清楚要做什么);低层流匹配(flow matching,可理解为扩散的"提速版表亲",同样从噪声生成连续动作,但路径更直、更快)直接输出 50 步(约 1 秒)的连续关节动作块。它的空间接地是语义化的(靠网络上的检测、图文描述数据共同训练得来),而不是显式的几何位姿。论文原话很有代表性:"全程端到端……直接给出目标位姿,由简单的 PD 控制器跟踪,没有任何轨迹规划或碰撞检测。"(PD 控制器是最基础的底层伺服,不是规划器。)
  • 能做到多准:真机整任务,同分布 83% / 新环境 94%(这是长程移动操作的整任务成功率,不是棋格单步)。
  • 结论:这是最"端到端、无规划器"的范式,简历亮点很足。但旗舰 VLA 在真机上也只有 83% 至 94%,达不到 98% 单次。它可以充当抓放骨架,但必须靠重试来补足。

3. OpenVLA-OFT(2025):VLA 微调配方

RSS 2025 · arXiv

  • 它补的短板:VLA 微调之后又慢又不够准。OFT(Optimized Fine-Tuning,优化微调)给出一套配方。
  • 它怎么做:四个技巧——并行解码(一次把动作块全部解出来,不再一步步挤)、动作分块(继承自 ACT)、连续动作表示(用 L1 回归直接输出连续数值,而不是把动作切成离散 token),加上多种输入融合。关键发现:用连续动作比用离散 token,绝对成功率高约 5%,原因是"动作预测更精确";推理还提速约 26 倍。
  • 能做到多准:LIBERO(仿真四套件,是另一个仿真模仿学习基准)平均从 76.5% 提升到 97.1%(SOTA)。在真机双臂 ALOHA 上,灵巧任务平均 87.8%,优于 π0 的 77.1%、RDT-1B 的 78.4%、Diffusion Policy 的 77.5%、ACT 的 72.3%。
  • 它说明了什么仿真已逼近 97%,真机仍只有 78% 至 88%——再次印证仿真不等于真机。它的"动作分块 + 连续动作"是值得我们借鉴的提精度技巧。

4. π0 in the Wild(2025):第三方真机实测

Penn PAL, 2025 · 项目主页

  • 它怎么做:第三方在开放的真实环境里独立复现并评测 π0,看它真实的泛化能力究竟如何。
  • 对项目:它佐证了"旗舰 VLA 在真机上就是落在中高成功率段,而非 98%",是"不要高估单次 VLA 精度"的一个旁证。

5. FALCON(2025):VLA 吸收 3D 几何先验

ICLR 2026 接收 · arXiv

  • 它补的短板(本节的高潮):前面的 VLA(OpenVLA、π0)大多建立在 2D 编码器上,空间感不足,论文称之为"空间推理鸿沟"。FALCON 的解法是——把第 3 节那条 3D 表征路线的成果,重新注回 VLA。这正是上图那个红色螺旋。
  • 它怎么做:用 空间基础模型(spatial foundation model,一类专门擅长从图像推断三维几何的预训练大模型)从 RGB 单图 提取强几何先验,深度和位姿数据则作为"可选增强,且不必重新训练"。关键设计在于:把丰富的 3D 空间 token 注入到 动作头(action head,即模型最后输出动作的那部分),而不是塞进视觉-语言主干——这样在做空间定位时就不会牺牲语言推理能力。
  • 能做到多准:摘要称其在 3 个仿真基准加 11 个真实任务上达到 SOTA,对杂乱场景、物体尺度变化具有鲁棒性;但摘要没有给出具体成功率,细节在正文表格中。
  • 对项目的特殊价值只靠 RGB 就能拿到几何先验,深度可选——这对"我们到底要不要上深度相机、要不要 ROS"有直接的参考意义(详见第 11 节)。

这一节小结,也是全文"螺旋"主旨的体现:VLA 不是简单地超越前几代,而是把第 3 节的 3D 几何先验、第 4 节的语义指向,重新融入自己(SpatialVLA、FALCON 就是证据)。但即便如此,即使是最强的 π0.5、OpenVLA-OFT,真机单任务也只有 78% 至 94%。这把我们逼到一个诚实的结论:指望靠"把单个模型做得更强"来达到 98%,目前此路不通。于是整个领域迎来一次集体觉醒——见第 7 节。(第 6 节先补一个并行的小分支。)


六、关键点约束:ReKep

在 3D 表征、语义指向、统一 VLA 之外,还有一条小而有趣的支线。它把"在哪"换成了一种全新的表示方式,且天生自带闭环——很适合作为我们落子对准的灵感来源。

1. ReKep(2024):关键点约束求解

2024 · arXiv

  • 它的新思路:既不输出位姿(路线②),也不输出点(路线③),而是输出一个数学约束——"只要这几个关键点满足某个数值条件,任务就算完成了",再用优化求解器解出满足约束的爪子轨迹。
  • 它怎么做
  • 自动生成约束:用大视觉模型(DINOv2、SAM)从画面里提取一批候选关键点,再用 VLM(GPT-4o)读取自由语言指令、自动写出约束程序(一个 Python 函数:给定一组 3D 关键点,算出"代价值",代价小于等于 0 就表示约束满足),不需要人为逐个任务手工指定。
  • 求解:分层优化——高层求解"满足约束的爪子位姿",低层做轨迹优化。关键点以 20Hz 实时更新(每秒刷新 20 次)形成实时闭环,输出一串 SE(3) 位姿(SE(3) 是"位置加姿态"的数学表示),而不是写死的脚本轨迹。
  • 它的最大亮点自带闭环纠错。需要注意的是,它最后仍然要运行一个下游求解器来解出位姿,所以"位姿"并没有被完全消除,但它替代掉的是显式的逐物体位姿估计那一环。
  • 对项目:可以借鉴"关键点约束 + 实时闭环"的思路来做落子对准。目前没有格级 98% 的直接证据,更适合作为"架构灵感"。

这一节小结:ReKep 证明"在哪"还可以用"约束 + 闭环优化"来表达,而其中闭环是它最有价值的部分。这恰好把我们引向第 7 节——整个领域发现:与其追求单次完美,不如把功夫下在"边做边修 + 失败重试"上。


七、闭环纠错与重试

读到这里你应该已经感觉到了:无论是 3D 表征(约 87%)、语义指向(低于 61%)还是旗舰 VLA(83% 至 94%),没有任何一条路线的单次精度能摸到 98%。这不是哪篇论文不够努力,而是当前学习派的真实天花板。

于是这一领域迎来一次成熟的觉醒:承认"单次抓放就是做不到 98%",转而在执行环节想办法——一边做一边用相机反馈纠偏(闭环),失败了就检测出来再来一次(重试)。 这一节是把整个项目从"做不到"变成"能达标"的关键。

先讲贯穿全章的一对概念:

  • 开环(open-loop):算好一条动作就照做,中途不看反馈、不做修正,准不准全看一开始。
  • 闭环(closed-loop):一边做一边用相机查看实际是否到位,发现偏了就实时修正。下面这些方法基本上都在做闭环。

这条路线同样是一代代递进的,下面按时间顺序来看。

1. IndustReal(2023):精密装配的精度天花板

RSS 2023 · arXiv

  • 它的意义:它专攻最难的精密装配,用它的成绩当作"标尺",能让我们对天花板心里有数。
  • 它怎么做:在仿真里用 强化学习 训练精密插入策略,再迁移到真机,完成亚毫米间隙(0.5~0.6mm)的装配。强化学习(RL) 是指"让智能体不断试错、按奖励自我学习",与模仿学习互补。sim-to-real(仿真到现实)是指"在仿真里训练好再搬到真机",能节省真机数据,但有"现实差距"需要克服。
  • 能做到多准(天花板证据):插桩 76.7% 成功 / 86.7% 接合;齿轮 92.5% / 95.0%。全部低于 98%——即便专攻精密装配,接触密集型任务的学习策略单次上限也就在 77% 至 95%。
  • 它说明了什么:靠单次达标并不现实,必须重试。这给后面所有闭环工作定下了基调。

2. ResiP(2024):残差闭环纠错

2024 · arXiv · 项目主页

  • 它站在谁肩上:站在第 2 节的扩散、分块骨架上——主策略沿用它,自己只负责补上"纠错"。
  • 它怎么做残差(residual)是指"在主策略输出的基础上额外叠加的一点修正量"。ResiP 给一个已经训练好、冻结不动的分块模仿策略,外挂一个用 RL 训练的残差策略,实时盯着、补上小幅修正,把原本开环的动作块执行变成闭环纠错。可以概括为"模仿学习产生轨迹 + 强化学习做闭环纠错"。
  • ⚠️ 一条经核查被否定的说法:网上流传"ResiP 把 FurnitureBench 插桩从 5% 提到 99%、one_leg 从 54% 提到 98%"——经 3 票一致核查,原文并不支持这一说法不要把它当作"学习闭环已达 98%"的证据。
  • 对项目:值得借鉴的是它的架构模板(冻结主策略 + 残差闭环纠错),但不能拿它当作达标的证据。

3. YAY Robot(2024):实时语言纠正闭环

2024 · 项目主页

  • 它怎么做:执行时人用实时语言下达纠正指令("往左一点""松开"),这些纠正被策略吸收,形成"越用越好"的闭环。Yell At Your robot 直译就是"对你的机器人喊话"。
  • 对项目:它代表"人在环路、语言纠错"放大可靠性的思路。对我们的早期采数、调试阶段有用(人工介入纠正失败的抓放);到了自主阶段,再把"人工喊话"换成"自动失败检测 + 重试"。

4. EasyInsert(2025):相对位姿回归 + 由粗到细闭环

2025 · arXiv · 项目主页

  • 为什么单独拿出来强调:它是这条线里最值得我们直接迁移的范式,和棋子抓放、落子几乎同构。
  • 它怎么做:核心是 相对(delta)位姿回归——不去估计"插头在世界坐标系里的绝对坐标",而是直接预测"插头相对插孔还差多少"(这个差值叫 delta)。它在双腕上各装一台 RealSense D405 彩色相机,由扩散策略预测插头与插孔之间的 delta 位姿,驱动一个多相位、由粗到细的闭环控制器反复收敛对准。不需要 CAD 模型、数字孪生或经典位姿估计。 数据也很省:1 小时遥操作引导加自动采集(80% 自动探索 + 20% 手动精细),约 5 小时的数据就够用。
  • 能做到多准每次尝试成功率大于 90%;快速微调后,15 个新物体里有 13 个零样本就能达到 90% 以上。
  • 对项目(最该借鉴的范式):"对准一个已知目标,再做闭环 delta 收敛"和棋子抓放、落子是同一类问题。用相对位姿回归绕开 PnP,由粗到细的闭环把单次成功率推到 90% 以上,再靠重试补到 98%。最小传统成分只剩下"腕部相机的几何加多相位控制器结构"。⚠️ 它目前只验证了插入,迁移到抓放还需要我们自己测试。

5. 软腕 + VLM 失败恢复(2025):机械顺应 + 失败恢复

2025 · arXiv

  • 它的独特贡献:把"可靠性的来源"从纯算法扩展到了硬件
  • 它怎么做被动顺应(passive compliance)指机械结构本身具有弹性,对不准时能自己"让一让",在物理层面吸收误差,而不依赖算法。这个软腕能容忍 5° 的抓取错位和 20mm 的孔位误差。失败时用 GPT-4o 判断是哪一类失败,再选择对应的恢复技能。
  • 能做到多准:完全不做恢复(全随机)只有 47%,加入 GPT-4o 恢复后仿真为 83% / 真机大于 80%(35 次试验,样本偏小)。
  • 对项目:① 它证明"失败检测 + 恢复"这一方向有效(47% 提升到 83%);② 但它封顶在约 80% 至 83%,单靠它达不到 98%,仍需叠加重试;③ 它的可靠性主要来自机械顺应这种"非学习"的传统成分——这提示我们:被动柔顺的夹爪、手腕是性价比极高的可靠性来源,值得在硬件层面考虑。

这一节小结:IndustReal(确定天花板)→ ResiP(残差闭环)→ YAY(人工语言纠正)→ EasyInsert(delta 闭环的正面样板)→ 软腕恢复(机械顺应兜底)。核心套路有三种,且可以叠加——闭环纠偏、机械顺应、失败检测后重试或恢复。单独使用都到不了 98%,但叠加在策略骨架之上、再配合重试,就能把整体可靠性提升到位。为什么"重试"这么有效?第 10 节用数学讲清楚。


八、数据效率:等变扩散

前面的路线大多假设"数据充足"。但我们是自己遥操作采集数据,采得越少越省力。所以"数据效率"是一条横切所有路线的关注点,单独成章。

1. Equivariant Diffusion Policy / EquiDiff(2024):用对称性提升数据效率

CoRL 2024 Oral · arXiv · 项目主页

  • 它站在谁肩上:站在第 2 节的 Diffusion Policy 上,为它加上一条物理先验。
  • 它怎么做等变 / 对称性(equivariance / symmetry)的直觉是——如果把整个场景旋转或平移一下,正确的动作也应当跟着做同样的旋转或平移。EquiDiff 把这条规律(如 SO(2) 旋转对称)直接写进网络结构,于是模型不必从数据里费力学习这条规律,样本效率大幅提升
  • 能做到多准 / 多省数据:在 12 个 MimicGen 仿真任务上平均比基线 Diffusion Policy 高 21.9 个百分点。真机 6 个任务只用 20~60 条示范就能学会,而基线 Diffusion Policy 在这么少的数据下根本学不动。
  • 对项目(重点推荐的候选骨架)棋盘的平移、旋转对称性极强(一个格子和另一个格子的抓放,本质上就是平移、旋转的关系),与等变先验天然契合;少于 60 条示范的数据成本,对自采遥操作来说完全可以承受。再配合 EasyInsert 式的自动数据扩增就更省了。它报告的仍然是"相对提升、中高成功率",而非 98% 单步,因此仍需靠重试来补。

这一节小结:在"demo 预算紧张"的现实下,EquiDiff 是最契合棋盘任务的骨架候选——既省数据,又能吃到棋盘对称性带来的红利。


九、真机下棋系统的实证

前面讲的都是通用操作论文。这一节则是真正造出来用于下棋的机械臂系统。它们大多使用传统成分(而非现代学习栈),不能直接照搬,但作为旁证极其有价值:它们用真实数据告诉我们"真机下棋单步到底多准""重试到底有没有用"。

1. Gambit(2011):经典 6 自由度下棋臂

UW, ICRA 2011 · PDF

  • 系统:定制的 6 自由度臂 + 2011 年的经典感知(SVM 棋子分类)+ 可选的局部 视觉伺服(visual servoing:用相机实时反馈引导机械臂对准,是一种闭环)。
  • 关键数字(最有价值):6 局共 786 次操作,自主成功率 91.6%,4.8% 需人工介入,3.6% 为静默失败。还有一个"反角实验":在最难的摆放下,闭环视觉伺服把抓取成功率从 17.5%(7/40)提升到 77.5%(31/40),抓取质量从 1.4 提到 3.1。
  • 对项目(决定性旁证):① 真机下棋单步抓放本来就在约 90% 这个量级,整局是靠重试和人工介入完成的,并非单次达标;② 闭环视觉伺服确实能大幅放大可靠性(17.5% 提升到 77.5%),但单层封顶约 77.5%,还得叠加重试。⚠️ 它的可靠性来自传统成分,不能直接外推到现代学习栈。

2. Quanser QArm 下棋臂(2025):重试达标的实证

Wiley Eng. Reports, 2025 · DOI

  • 系统:QArm + 微调的 YOLOv8 感知 + 预标定 waypoint + TinyIK 逆运动学(运动是传统脚本,学习只用在感知环节)。逆运动学(inverse kinematics, IK)是指"已知爪子要到达的位置,反算每个关节该转多少角度"。
  • 关键数字(重试达标的直接证据):单步抓放首次成功率 87%,一次重试后达到 97%。这与重试数学高度吻合:1-(1-0.87)^2 ≈ 0.983,实测 97% 略低于理论值,说明真机失败具有"相关性"(并非完全独立),所以重试必须是"带反馈的独立尝试"。
  • 对项目:它最直接地证明了"检测失败再重试能把 87% 推到 97%";但一次重试还差 98%,需要 k 取 2 至 3 次,并让每次重试尽量独立。⚠️ 它不是 VLA、端到端方案,只作为重试机制的旁证。

3. 视觉伺服 + LLM 规划下棋臂(2025):检测 + 闭环伺服的精度上限

Neural Computing and Applications (Springer), 2025/2026 · DOI

  • 系统:感知与定位用 YOLOv8 目标检测(mAP > 97%)加视觉伺服闭环来做抓放;LLM 负责"任务规划、决策层"(把自然语言指令拆解成可执行的计划),不负责底层定位精度。它属于"传统 CV 检测 + 视觉伺服",而非端到端 VLA。
  • 关键数字:抓放成功率"大于 90%",低于我们要求的 ≥98% 单步;YOLOv8 检测 mAP > 97%;避障算法让平均移动时间减少 15%。
  • 对项目:它的"在哪"用 YOLO 检测框加视觉伺服,而非 PnP——是"学习派检测 + 闭环伺服"的折中方案。但抓放只到大于 90%,说明这条折中路线在棋格级任务上同样达不到 98%,是"混合、学习派检测路线精度上限"的反面证据。

这一节小结:三个真机系统异口同声地说明了同一件事——真机下棋单步就在 87% 至 92% 这个量级,谁也没能做到单次 98%;能下完一整局,靠的是闭环纠偏 + 重试 + 偶尔的人工介入。 这正是我们方案的现实依据。


十、核心洞见:重试是达标关键

读完所有模型,最重要的结论不在任何单个模型身上,而在它们共同指向的一件事。这一节用一张图把它讲透。

重试数学与重试状态机
重试数学与重试状态机

1. 一句话结论

纯学习派、端到端方案目前做不到真机 98% 单次抓放——没有任何一篇公开论文给出过这一证据。 但"学习派为主 + 最小传统成分 + 失败检测后带反馈重试"的混合方案在工程上可行,且能达标,达标的机制是"重试",而非"单次能力"。 我们这个任务恰好满足"可重试 + 时间不敏感 + 棋盘刚性已知",是少数能够靠重试现实达标的场景。

2. 重试数学(图左)

设单步成功率为 p,每步允许最多 k 次"带反馈的重试",那么整步可靠性 = 1-(1-p)^k(意思是"只有 k 次全失败才算失败"):

  • p=0.90:k=2 → 0.99;k=3 → 0.999
  • p=0.85:k=3 → 0.9966
  • p=0.95:k=2 → 0.9975

图左的三条曲线就是这三个 p 值随 k 上升的轨迹。看红色虚线(98% 目标线):哪怕单次只有 85% 至 90%,重试 2 至 3 次就能越过 98%。这就是为什么"单次做不到 98%"并不可怕。

3. 必须重视的陷阱:失败相关性(图右)

上面的公式有一个前提——各次失败相互独立。但真机失败往往是相关的:同一个系统偏差、同一个难抓的姿势,会让你"每次都在同一个地方失败"。这正是 QArm 实测只到 97%、而非理论值 98.3% 的原因。

所以重试不能是"重放同一条轨迹",必须是"带反馈的独立尝试"(如图右的状态机所示):执行 → 失败检测 → 重新感知 → 更换抓取点或重新规划 → 再来一次。只有让每次尝试尽量独立,重试数学才大致成立。

4. 闭环放大可靠性,但单层有上限

Gambit 的反角实验证明:闭环视觉伺服能把最坏情况下的抓取从 17.5% 提升到 77.5%——闭环纠错确实大幅放大了可靠性。但单层闭环封顶仍然在约 77.5%,必须在闭环之上再叠加重试,两个机制相乘起来才够。

结论:我们的 98% 目标应理解为"整步(含重试)的可靠性",而不是苛求单次抓放就达到 98%。这在棋类任务(可重试、不赶时间)中完全现实,拿它作为简历指标也站得住脚。


十一、四层落地架构

把前面十章的进化成果各取所长,拼成一个能落地的架构——"学习派为主 + 最小传统成分 + 闭环重试"。

四层落地架构
四层落地架构

四层架构从上到下

  • ① 符号层(非学习):Stockfish 计算走法(如 e2→e4),再由 python-chess 校验合法性。这一层和机器人无关,是纯软件。
  • ② 感知 / WHERE 层(学习派为主):顶视全局相机,用 CV 或 VLM 输出 FEN(认出"哪个子、哪个格",这是第 4 节指向型 VLM 的强项);外加一个失败检测器(落子到位了没?是否抓空?据此触发重试)。
  • ③ 抓放策略层(学习派核心)★ 项目主体:腕部相机加目标格,输入学习策略(第 2 节的 ACT、扩散,第 8 节的等变扩散);由粗到细的闭环(迁移自第 7 节 EasyInsert 范式)预测相对 delta 位姿并迭代收敛,绕开 PnP
  • ④ 编排 / 重试层(达标关键):状态机"执行 → 检测 → 重试(k 取 2 至 3,重新感知并更换抓取点)";以及棋类特殊规则的编排(吃子时先把被吃子移走、易位需移动两子、升变需更换棋子)。

最小传统成分压缩到唯一一处(图右黄框):一次性的棋盘平面外参,以及深度图的 2D 到 3D 投影(棋盘刚性已知,这一点几何先验几乎是免费的)。此外还有可选的机械顺应(被动柔顺的夹爪或手腕,在物理层面吸收对准误差,性价比极高)。其余的感知与控制全部交给学习模型。

要不要 ROS(图右下):不需要把 ROS 作为感知、控制的必要环节。所有学习派系统(π0、OpenVLA、EasyInsert 等)都是"策略推理 → delta 或残差动作 → 底层伺服",没有一个依赖 MoveIt、OMPL 几何规划——相机直接用 Python 读取数据流(OpenCV、RealSense SDK)接入 LeRobot 即可。ROS 唯一合理的定位是充当"工程编排、重试状态机 + 硬件驱动 + 安全"的黏合层,而不是充当被禁用的"位姿估计 + 轨迹规划"的替代品。对于单机单臂,纯 Python 状态机其实就够用,ROS 在这里是可选项。

骨架选型建议(按数据预算)

  • demo 预算紧张 → 首选等变扩散 EquiDiff(少于 60 条 demo,棋盘对称性强,最为契合),再配 EasyInsert 式的自动数据扩增。
  • 想借助 VLA 的关注度、增加简历亮点 → 用 π0 / SmolVLA 微调来做抓放策略(LeRobot 原生支持),但需要更多数据,单次仍只有约 85% 至 90%,靠重试来补。
  • WHERE 粗定位、语义 → 用指向型空间 VLM(RoboPoint 或后续的 RoboRefer)只做"识别哪个格",绝不用于亚厘米级落子。

十二、横向对比表

模型 / 系统 路线 出现时间 站在谁肩上 / 解决的短板 怎么解决"在哪" 最强精度数字 真机? 要深度?
Gambit ⓪/⑦ 2011 传统派代表作 经典感知 + 视觉伺服 自主 91.6% 真机棋类
ACT 2023 动作不连贯 动作分块预测 骨架 真机 看输入
Diffusion Policy 2023 多种正确做法被平均 扩散去噪出动作序列 骨架基线 仿真+真机 看输入
Act3D 2023 2D 策略空间感弱 3D 特征场采样打分 RLBench 相对 +22% 仿真
3D Diffuser Actor 2024 Act3D 表达力有限 3D token + 扩散去噪 RLBench +18.1% 仿真
RVT-2 2024 3D 算得重 虚拟视图上检测位姿 RLBench 82% 仿真 多视角
SAM2Act 2025 RVT-2 特征不够强 RVT-2 + SAM2 基础模型特征 RLBench 86.8% 仿真 多视角
HyperTASR ②增强 2025 对任务阶段无感 超网络按阶段切粗/细 关键位姿预测提升
SpatialVLM 2024 VLM 不会定量空间推理 空间问答训练 语义级
RoboPoint 2024 空间理解难落地 VLM 吐 2D 关键点 命中 <50%,真机 61% 真机粗定位 投影需深度
Molmo-Point 2024 缺开源指向后端 开源 VLM 指向坐标 2D 像素级 感知组件
RoboBrain 2.0 2025 VLM 吐点/框/轨迹 2D 像素级 感知组件
SpatialVLA ③/④ 2025 VLA 空间感弱 VLA 注入 3D 空间表征 无 98% 证据
OpenVLA 2024 VLA 不开源难微调 开源预训练 VLA 底座 (底座) 真机
π0 / π0.5 2024-25 要更端到端 语义推理 + 流匹配动作 真机整任务 83%/94% 真机整任务
OpenVLA-OFT 2025 VLA 微调慢且不够准 并行解码+连续动作配方 仿真 97.1% / 真机 78~88% 仿真+真机
π0 in the Wild 2025 验证真机泛化 π0 真机实测 中高成功率段 真机
FALCON ②→④ 2025 VLA 空间推理鸿沟 RGB 单图提几何先验注入动作头 3 仿真+11 真机 SOTA 仿真+真机 否(可选)
ReKep 2024 位姿/点表示太死 关键点约束 + 实时闭环优化 自带闭环,无格级 98% 真机
IndustReal 2023 给执行端定天花板 sim2real RL 精密插入 peg 76.7%/gear 92.5% 真机插入
ResiP 2024 开环执行会漂移 冻结主策略 + 残差闭环RL (98% 传言被否决) 仿真+真机
YAY Robot 2024 自主纠错难 人实时语言纠正闭环 长程灵巧任务 真机
EasyInsert 2025 绝对位姿估计依赖标定 相对 delta 回归 + 由粗到细闭环 每次尝试 >90% 真机插入 是(腕部RGB)
软腕 + VLM 恢复 2025 纯算法可靠性有限 机械顺应 + GPT-4o 恢复 47%→83%(仿真)/>80%(真机) 真机插入
EquiDiff 2024 demo 太贵 等变扩散利用对称性 比 DP +21.9pp,<60 demo 仿真+真机 看输入
QArm 下棋臂 2025 YOLO + 预标定 waypoint 首次 87%→重试 97% 真机棋类
视觉伺服+LLM 下棋 2025 YOLO 检测 + 视觉伺服 抓放 >90% 真机棋类

注:ACT、OpenVLA 未单独展开,作为发展脉络的必要节点列出。


十三、能力边界与未解问题

撰写项目方案时,主动说清这些"诚实的边界",反而更显专业:

  1. 单次达标不可能:没有任何经过核查的工作给出纯学习真机 ≥98% 的单次抓放;最强的也只有 77% 至 94%。
  2. 达标全靠重试:98% 来自 1-(1-p)^k 加上棋类重试的实证,而非单次能力——不要误读,也不要在简历里写成"单次 98%"。
  3. 重试有相关性陷阱:失败相关会让实际需要的 k 高于理论值;必须做"带反馈的独立重试"。
  4. 失败检测器是隐藏的关键:整步达到 0.98 还取决于失败检测的漏检率(漏检指该重试却没有重试),本轮调研没有覆盖检测器的可靠性——这是需要我们自己补上的工程风险点。
  5. 空间 VLM 只适合做语义层:指向精度在 50% 至 61% 之间,绝不能作为落子精度的来源。
  6. 两个真机下棋系统的可靠性来自传统成分(QArm 的预标定 waypoint、Gambit 的经典感知)——它们证明了"重试有效",但不能直接外推到现代学习栈。

仍然未解、留给实做阶段验证的问题

  • 带反馈重抓的"失败相关性"到底有多大?它决定了真实需要的 k 值和单步 p 的下限。
  • EasyInsert 式由粗到细的闭环从"插入"迁移到"抓放"后,单次能否稳定保持在 0.9 以上?(EasyInsert 只验证了插入)
  • EquiDiff(数据高效)与 ResiP(闭环残差纠错)叠加使用,是否有人做过联合评测?两者分别是"数据高效"和"闭环纠错"的最佳代表。
  • 失败检测器本身的准确率、漏检率是多少?这是整步可靠性的隐藏天花板。

十四、参考文献

按技术发展脉络归类的代表工作:

  • 模仿学习骨架:ACT(Zhao et al., 2023)、Diffusion Policy(Chi et al., RSS 2023)
  • 神经 3D 表征:Act3D(CoRL 2023)→ 3D Diffuser Actor(CoRL 2024)→ RVT-2(RSS 2024)→ SAM2Act(2025)→ HyperTASR(2025)
  • 指向型空间 VLM:SpatialVLM(2024)→ RoboPoint(CoRL 2024)→ Molmo / PixMo(2024)→ RoboBrain 2.0(2025)→ SpatialVLA(2025)
  • 统一 VLA:OpenVLA(2024)、π0 / π0.5(2025)、OpenVLA-OFT(RSS 2025)、FALCON(ICLR 2026)
  • 关键点约束:ReKep(2024)
  • 闭环纠错:IndustReal(RSS 2023)→ ResiP(2024)→ YAY Robot(2024)→ EasyInsert(2025)→ 软腕 + VLM 失败恢复(2025)
  • 数据效率:Equivariant Diffusion Policy(CoRL 2024)
  • 真机棋类系统:Gambit(ICRA 2011)、Quanser QArm(2025)、视觉伺服 + LLM 规划(2025)