4.7 MuZero：连规则都不告诉它（进阶）

AlphaZero 仍然需要你把规则喂给它——能模拟，前提是知道走一步会变成什么样。MuZero 更进一步：连规则都不告诉它，让它自己在脑子里学一个“世界模型”再做 MCTS。这是从“下棋”通往“通用智能体”的一步。（进阶选读）

一、痛点：MCTS 要会“走一步看看”

MCTS 的每一次模拟，都默认你能真的把棋往下推一步——这需要规则引擎。可现实世界（开车、操控机械臂）没人给你一份精确规则。MuZero 的问法是：能不能让智能体自己学一个“够用的规则”？

二、学到的不是规则，是“够用的预测”

MuZero 学一个潜在动力学模型，但它不还原真实棋盘，只预测对决策有用的三样东西：下一步的价值、策略、即时奖励。MCTS 就在这个“想象出来的潜在空间”里展开，而不在真实棋盘上。

一句话：它不背规则手册，只学会“我这么走，大概会有多好”——这就够规划了。

三、一套算法横跨棋类与电子游戏

同一个 MuZero 框架，既能下围棋 / 国象 / 将棋（达到 AlphaZero 水平），又能玩几十款 Atari 电子游戏——而后者根本没有现成规则可喂。通用性又上了一层。

四、和 Soma / Anima 的关系

“学一个世界模型，再在模型里规划”——这正是具身智能的核心思路。棋盘只是最干净的试验场：规则明确、胜负分明，方便把算法打磨清楚。把同一套思路搬到有身体、有摄像头的真实机器人上，就从 Anima（认知）接回了 Soma（身体）。棋类 AI 这条线，到这里和整门 Soma 课汇流。