附录1 脑规划框架调研

为什么调研「脑规划」框架

4.2 要给 Anima 设计顶层认知框架（脑怎么指挥手）。在动手前，我们调研了 30+ 个业界框架，发现一条主线：业界已从「端到端 scale 一切」摆回分层——慢脑（System 2）负责理解与规划、快手（System 1）负责执行，二者异步分频。本附录挑出最主流、最具代表性的 3 个，配架构图讲清「脑怎么指挥手」，并在最后给出我们 ANIMA 的映射。

完整设计见根目录 ANIMA-v1.1.txt。本附录只负责把 3 个母版框架与我们的架构画清楚。

框架一 · DeepMind Gemini Robotics（ER + VLA）2025 · 最对口

双模型分层：System 2 = Gemini Robotics-ER（Embodied Reasoning，推理脑）擅长视觉空间理解、多步规划、进度/成功估计，原生调用工具（Google 搜索 / 调 VLA / 用户自定义函数），逐步向手下达自然语言子指令；System 1 = Gemini Robotics VLA（执行手）把子指令变成动作，且自己「先想后做」。闭环：ER 持续估计进度与成功，据此调整后续指令。这就是我们的母版——把 ER 换成 Anima(LLM + Stockfish/python-chess/检测器)、VLA 换成我们的 VLA 手，几乎 1:1 对应。

图1　Gemini Robotics：ER 推理脑（调工具 + 估计成功）→ 自然语言子指令 → VLA 执行手 → 闭环

框架二 · Physical Intelligence π0.5 / Hi Robot2024–2025 · 接口范式

π0.5：同一个模型跑两遍——先自回归生成一句人类可读的子任务文本 ℓ̂（如 "pick up the plate"），再只据 ℓ̂ 生成动作；高层蹭网络语义数据、低层蹭跨本体动作数据，二者解耦。★但论文明确承认自身没有 replanning/闭环纠错——这是个警示：分层本身不自带纠错，闭环要我们自己显式加。Hi Robot：高层 VLM + 低层 π0，接口=语言字符串；「距上次 1 秒或有用户介入」就触发式重算下一步，还能口头确认/澄清。我们借它的人类可读原子指令接口（可被棋类工具介入）+ 触发式重规划 + 口头确认。

图2　π0.5 / Hi Robot：脑先出「人类可读子任务文本」，手只据该文本动作；触发式重算 + 口头确认

框架三 · Figure Helix2025 · 快慢双系统

「快慢双系统」最清晰的工程范本：System 2 = 7B VLM，7–9 Hz（场景/语言理解，决定「做什么」）；System 1 = 80M transformer，200 Hz（把语义实时变成连续关节动作）；异步双频——慢思考不阻塞快控制。接口 = 单个 latent 向量（端到端共训）。我们借异步双频、不借 latent 接口：想棋（秒级）vs 视觉伺服（高频）应解耦异步；但接口要可读、可被 Stockfish/python-chess 介入，故取框架二的语言接口，不取 Helix 的 latent 黑箱。

图3　Figure Helix：S2(7B,7–9Hz) 经 latent 向量驱动 S1(80M,200Hz)，异步双频

荣誉提名 · NVIDIA GR00T N1.5（2025）：VLM(~10Hz)+DiT(~120Hz) 双系统，但本身无显式失败检测——再次印证「高可靠的纠错必须自己显式加」。其余端到端路线（Tesla Optimus / 1X / Skild / Covariant）的惊艳演示多含遥操作、透明度低；TRI 的 LBM 实证更指出「零样本未必胜过任务专属策略、工程细节常盖过架构」。故我们不走端到端单一大模型，而走分层 + 显式工具 + 自加闭环。

我们的映射 · ANIMA（脑=LLM编排器+工具，手=VLA）

把上面 3 个框架的精华合到一起：分层（取三者）+ 人类可读语言接口（取 PI，弃 Helix latent）+ 异步分频（取 Helix）+ 闭环纠错自己加（Gemini-ER 的「成功估计」为范本）。关键纠正：真机上「棋子有没有放对」是视觉裁判问题——python-chess 只是 tool，持有「应该是什么」(expected)，它看不见物理棋盘；裁判 = 眼读 observed × python-chess 的 expected，由脑判定，这个视觉裁判有噪声、是核心挑战。

图4　ANIMA 映射：脑(LLM+工具)→VLA 手→物理棋盘；眼读 observed，与 python-chess 的 expected 对比，由脑当裁判并驱动重试

一句话：脑（Anima + Stockfish/python-chess/检测器）定「下哪步」，手（VLA）执行「怎么落子」，眼（相机+检测器）+ python-chess 的 expected 构成视觉裁判与重试闭环。逻辑真值在 python-chess，物理真相靠眼，判定靠脑，Anima 只编排。