附录1 脑规划框架调研
为什么调研「脑规划」框架
4.2 要给 Anima 设计顶层认知框架(脑怎么指挥手)。在动手前,我们调研了 30+ 个业界框架,发现一条主线:业界已从「端到端 scale 一切」摆回分层——慢脑(System 2)负责理解与规划、快手(System 1)负责执行,二者异步分频。本附录挑出最主流、最具代表性的 3 个,配架构图讲清「脑怎么指挥手」,并在最后给出我们 ANIMA 的映射。
完整设计见根目录
ANIMA-v1.1.txt。本附录只负责把 3 个母版框架与我们的架构画清楚。
框架一 · DeepMind Gemini Robotics(ER + VLA)2025 · 最对口
双模型分层:System 2 = Gemini Robotics-ER(Embodied Reasoning,推理脑)擅长视觉空间理解、多步规划、进度/成功估计,原生调用工具(Google 搜索 / 调 VLA / 用户自定义函数),逐步向手下达自然语言子指令;System 1 = Gemini Robotics VLA(执行手)把子指令变成动作,且自己「先想后做」。闭环:ER 持续估计进度与成功,据此调整后续指令。这就是我们的母版——把 ER 换成 Anima(LLM + Stockfish/python-chess/检测器)、VLA 换成我们的 VLA 手,几乎 1:1 对应。
框架二 · Physical Intelligence π0.5 / Hi Robot2024–2025 · 接口范式
π0.5:同一个模型跑两遍——先自回归生成一句人类可读的子任务文本 ℓ̂(如 "pick up the plate"),再只据 ℓ̂ 生成动作;高层蹭网络语义数据、低层蹭跨本体动作数据,二者解耦。★但论文明确承认自身没有 replanning/闭环纠错——这是个警示:分层本身不自带纠错,闭环要我们自己显式加。Hi Robot:高层 VLM + 低层 π0,接口=语言字符串;「距上次 1 秒 或 有用户介入」就触发式重算下一步,还能口头确认/澄清。我们借它的人类可读原子指令接口(可被棋类工具介入)+ 触发式重规划 + 口头确认。
框架三 · Figure Helix2025 · 快慢双系统
「快慢双系统」最清晰的工程范本:System 2 = 7B VLM,7–9 Hz(场景/语言理解,决定「做什么」);System 1 = 80M transformer,200 Hz(把语义实时变成连续关节动作);异步双频——慢思考不阻塞快控制。接口 = 单个 latent 向量(端到端共训)。我们借异步双频、不借 latent 接口:想棋(秒级)vs 视觉伺服(高频)应解耦异步;但接口要可读、可被 Stockfish/python-chess 介入,故取框架二的语言接口,不取 Helix 的 latent 黑箱。
荣誉提名 · NVIDIA GR00T N1.5(2025):VLM(~10Hz)+DiT(~120Hz) 双系统,但本身无显式失败检测——再次印证「高可靠的纠错必须自己显式加」。其余端到端路线(Tesla Optimus / 1X / Skild / Covariant)的惊艳演示多含遥操作、透明度低;TRI 的 LBM 实证更指出「零样本未必胜过任务专属策略、工程细节常盖过架构」。故我们不走端到端单一大模型,而走分层 + 显式工具 + 自加闭环。
我们的映射 · ANIMA(脑=LLM编排器+工具,手=VLA)
把上面 3 个框架的精华合到一起:分层(取三者)+ 人类可读语言接口(取 PI,弃 Helix latent)+ 异步分频(取 Helix)+ 闭环纠错自己加(Gemini-ER 的「成功估计」为范本)。关键纠正:真机上「棋子有没有放对」是视觉裁判问题——python-chess 只是 tool,持有「应该是什么」(expected),它看不见物理棋盘;裁判 = 眼读 observed × python-chess 的 expected,由脑判定,这个视觉裁判有噪声、是核心挑战。
一句话:脑(Anima + Stockfish/python-chess/检测器)定「下哪步」,手(VLA)执行「怎么落子」,眼(相机+检测器)+ python-chess 的 expected 构成视觉裁判与重试闭环。逻辑真值在 python-chess,物理真相靠眼,判定靠脑,Anima 只编排。