4.7 MuZero:连规则都不告诉它(进阶)
AlphaZero 仍然需要你把规则喂给它——能模拟,前提是知道走一步会变成什么样。MuZero 更进一步:连规则都不告诉它,让它自己在脑子里学一个“世界模型”再做 MCTS。这是从“下棋”通往“通用智能体”的一步。(进阶选读)
一、痛点:MCTS 要会“走一步看看”
MCTS 的每一次模拟,都默认你能真的把棋往下推一步——这需要规则引擎。可现实世界(开车、操控机械臂)没人给你一份精确规则。MuZero 的问法是:能不能让智能体自己学一个“够用的规则”?
二、学到的不是规则,是“够用的预测”
MuZero 学一个潜在动力学模型,但它不还原真实棋盘,只预测对决策有用的三样东西:下一步的价值、策略、即时奖励。MCTS 就在这个“想象出来的潜在空间”里展开,而不在真实棋盘上。
一句话:它不背规则手册,只学会“我这么走,大概会有多好”——这就够规划了。
三、一套算法横跨棋类与电子游戏
同一个 MuZero 框架,既能下围棋 / 国象 / 将棋(达到 AlphaZero 水平),又能玩几十款 Atari 电子游戏——而后者根本没有现成规则可喂。通用性又上了一层。
四、和 Soma / Anima 的关系
“学一个世界模型,再在模型里规划”——这正是具身智能的核心思路。棋盘只是最干净的试验场:规则明确、胜负分明,方便把算法打磨清楚。把同一套思路搬到有身体、有摄像头的真实机器人上,就从 Anima(认知)接回了 Soma(身体)。棋类 AI 这条线,到这里和整门 Soma 课汇流。