Soma Zero Tutorials
🔍 搜索功能尚未开启,敬请期待。

附录1 脑规划框架调研

为什么调研「脑规划」框架

4.2 要给 Anima 设计顶层认知框架(脑怎么指挥手)。在动手前,我们调研了 30+ 个业界框架,发现一条主线:业界已从「端到端 scale 一切」摆回分层——慢脑(System 2)负责理解与规划、快手(System 1)负责执行,二者异步分频。本附录挑出最主流、最具代表性的 3 个,配架构图讲清「脑怎么指挥手」,并在最后给出我们 ANIMA 的映射

完整设计见根目录 ANIMA-v1.1.txt。本附录只负责把 3 个母版框架与我们的架构画清楚

框架一 · DeepMind Gemini Robotics(ER + VLA)2025 · 最对口

双模型分层System 2 = Gemini Robotics-ER(Embodied Reasoning,推理脑)擅长视觉空间理解、多步规划、进度/成功估计原生调用工具(Google 搜索 / 调 VLA / 用户自定义函数),逐步向手下达自然语言子指令System 1 = Gemini Robotics VLA(执行手)把子指令变成动作,且自己「先想后做」。闭环:ER 持续估计进度与成功,据此调整后续指令。这就是我们的母版——把 ER 换成 Anima(LLM + Stockfish/python-chess/检测器)、VLA 换成我们的 VLA 手,几乎 1:1 对应。

工具(ER 原生调用) Google 搜索 调用 VLA 用户自定义函数 Gemini Robotics-ER System 2 · 推理脑(慢) · 视觉空间推理 / 多步规划 · 进度 / 成功估计 · 原生工具调用 + 编排 → 下达自然语言子指令 Gemini Robotics VLA System 1 · 执行手(快) 把子指令变成动作 「先想后做」 自然语言子指令 "pick the red block" 真实世界 / 机器人本体 动作 进度 / 成功估计 → 闭环再规划
图1 Gemini Robotics:ER 推理脑(调工具 + 估计成功)→ 自然语言子指令 → VLA 执行手 → 闭环

框架二 · Physical Intelligence π0.5 / Hi Robot2024–2025 · 接口范式

π0.5:同一个模型跑两遍——先自回归生成一句人类可读的子任务文本 ℓ̂(如 "pick up the plate"),再只据 ℓ̂ 生成动作;高层蹭网络语义数据、低层蹭跨本体动作数据,二者解耦。★但论文明确承认自身没有 replanning/闭环纠错——这是个警示:分层本身不自带纠错,闭环要我们自己显式加Hi Robot:高层 VLM + 低层 π0,接口=语言字符串;「距上次 1 秒 或 有用户介入」就触发式重算下一步,还能口头确认/澄清。我们借它的人类可读原子指令接口(可被棋类工具介入)+ 触发式重规划 + 口头确认。

高层 VLM(推理脑) π0.5:同模型「第一遍」 Hi Robot:独立 VLM 理解复杂指令 + 人类反馈 低层 π0 VLA(执行手) flow-matching 连续动作 只据 ℓ̂ 出动作 π0.5:同模型「第二遍」 人类可读子任务文本 ℓ̂ "pick up the plate" 真实世界 距上次 1 秒 / 用户介入 → 触发式重算 ★ π0.5 承认:无 replanning → 纠错要自己加 口头确认:「我要走 Nf3,对吗?」
图2 π0.5 / Hi Robot:脑先出「人类可读子任务文本」,手只据该文本动作;触发式重算 + 口头确认

框架三 · Figure Helix2025 · 快慢双系统

「快慢双系统」最清晰的工程范本:System 2 = 7B VLM,7–9 Hz(场景/语言理解,决定「做什么」);System 1 = 80M transformer,200 Hz(把语义实时变成连续关节动作);异步双频——慢思考不阻塞快控制。接口 = 单个 latent 向量(端到端共训)。我们借异步双频、不借 latent 接口:想棋(秒级)vs 视觉伺服(高频)应解耦异步;但接口要可读、可被 Stockfish/python-chess 介入,故取框架二的语言接口,不取 Helix 的 latent 黑箱。

System 2 · 7B VLM 7–9 Hz 场景 / 语言理解 决定「做什么」(慢) System 1 · 80M Transformer 200 Hz 实时连续关节动作 反应式控制(快) 单个 latent 向量 (黑箱不可读 → 我们不采用) 异步双频:慢思考不阻塞快控制(各跑各的最优频率) 我们借:异步分频思想 我们弃:latent 接口(改用人类可读语言指令)
图3 Figure Helix:S2(7B,7–9Hz) 经 latent 向量驱动 S1(80M,200Hz),异步双频

荣誉提名 · NVIDIA GR00T N1.5(2025):VLM(~10Hz)+DiT(~120Hz) 双系统,但本身无显式失败检测——再次印证「高可靠的纠错必须自己显式加」。其余端到端路线(Tesla Optimus / 1X / Skild / Covariant)的惊艳演示多含遥操作、透明度低;TRI 的 LBM 实证更指出「零样本未必胜过任务专属策略、工程细节常盖过架构」。故我们不走端到端单一大模型,而走分层 + 显式工具 + 自加闭环。

我们的映射 · ANIMA(脑=LLM编排器+工具,手=VLA)

把上面 3 个框架的精华合到一起:分层(取三者)+ 人类可读语言接口(取 PI,弃 Helix latent)+ 异步分频(取 Helix)+ 闭环纠错自己加(Gemini-ER 的「成功估计」为范本)关键纠正:真机上「棋子有没有放对」是视觉裁判问题——python-chess 只是 tool,持有「应该是什么」(expected),它看不见物理棋盘;裁判 = 眼读 observed × python-chess 的 expected,由脑判定,这个视觉裁判有噪声、是核心挑战。

用户(对话) ANIMA 编排器 · System 2(脑) 理解对话 / 编排 / 调 tool / 恢复决策 嵌在「行为树」里,非自由 ReAct 红线:不算棋 · 不当规则引擎 · 不持真值 工具(脑借用) Stockfish 算棋 python-chess真值/合法/expected VLA 手 System 1(快) run_pick_place() 只执行一次 不自重试·不自判 pick e2→place e4 物理棋盘(真机) 抓空/碰倒/放偏 都可能发生 动作 眼 = 相机 + 检测器/VLM 读物理盘 → observed(有噪声) 拍照 ★ 视觉裁判 = observed(眼) ⟷ expected(python-chess) 由「脑」判定成败 → 失败则带 diff 重试(1−(1−p)^k)
图4 ANIMA 映射:脑(LLM+工具)→VLA 手→物理棋盘;眼读 observed,与 python-chess 的 expected 对比,由脑当裁判并驱动重试

一句话:脑(Anima + Stockfish/python-chess/检测器)定「下哪步」,手(VLA)执行「怎么落子」,眼(相机+检测器)+ python-chess 的 expected 构成视觉裁判与重试闭环。逻辑真值在 python-chess,物理真相靠眼,判定靠脑,Anima 只编排。