4.4 让随机变聪明：重模拟、RAVE 与渐进拓宽

naive 的随机模拟太无脑。2006–2015 年，一批纯 CPU 程序（MoGo、Crazy Stone、Fuego、Pachi）靠三招把 MCTS 推到业余高段：重模拟、RAVE、渐进拓宽。这一章讲清这三招，也讲清它们的天花板在哪。

一、重模拟（heavy playout）

naive 模拟纯随机落子，信号噪声极大。重模拟给随机加一点“棋感”：用 3×3 棋形模板和简单战术规则（提吃、接气、打吃）来挑模拟里的着法，而不是纯掷骰子。

模拟下得像样了，胜负信号的质量大增，同样的模拟次数能逼出强得多的判断。这是 pre-AlphaGo 程序最关键的一招。

RAVE（Rapid Action Value Estimation）基于一个大胆假设：一个着法不管在模拟里哪一步出现，都先记它一份功劳（AMAF，All-Moves-As-First）。

这让每盘模拟的信息被“一稿多投”，早期收敛快得多；等真实访问数攒够了，再慢慢从 RAVE 估值过渡到真实估值。用很少的模拟就能给大量着法一个粗略排序。

361 个候选一次全铺开，搜索会被稀释成一层薄薄的随机。渐进拓宽的思路是：先只看少数最有希望的点，随着访问数增加再逐步放宽候选集。

于是宝贵的模拟集中砸在几个好点上、挖得更深，而不是均摊到一片噪声里。这和 2.4 五子棋“候选生成 + 排序”的精神完全一致——别在明显的废棋上浪费搜索。

这三招叠起来，让纯 CPU、无网络的 MCTS 在 19×19 摸到业余高段——已是奇迹。但离职业仍隔着一道鸿沟：

缺的那双眼睛，下一章补上——用神经网络。