Soma Zero Tutorials
🔍 搜索功能尚未开启,敬请期待。

4.4 让随机变聪明:重模拟、RAVE 与渐进拓宽

naive 的随机模拟太无脑。2006–2015 年,一批纯 CPU 程序(MoGo、Crazy Stone、Fuego、Pachi)靠三招把 MCTS 推到业余高段:重模拟、RAVE、渐进拓宽。这一章讲清这三招,也讲清它们的天花板在哪。

一、重模拟(heavy playout)

naive 模拟纯随机落子,信号噪声极大。重模拟给随机加一点“棋感”:用 3×3 棋形模板和简单战术规则(提吃、接气、打吃)来挑模拟里的着法,而不是纯掷骰子。

模拟下得像样了,胜负信号的质量大增,同样的模拟次数能逼出强得多的判断。这是 pre-AlphaGo 程序最关键的一招。

二、RAVE / AMAF

RAVE(Rapid Action Value Estimation)基于一个大胆假设:一个着法不管在模拟里哪一步出现,都先记它一份功劳(AMAF,All-Moves-As-First)。

这让每盘模拟的信息被“一稿多投”,早期收敛快得多;等真实访问数攒够了,再慢慢从 RAVE 估值过渡到真实估值。用很少的模拟就能给大量着法一个粗略排序。

三、渐进拓宽(progressive widening)

361 个候选一次全铺开,搜索会被稀释成一层薄薄的随机。渐进拓宽的思路是:先只看少数最有希望的点,随着访问数增加再逐步放宽候选集

于是宝贵的模拟集中砸在几个好点上、挖得更深,而不是均摊到一片噪声里。这和 2.4 五子棋“候选生成 + 排序”的精神完全一致——别在明显的废棋上浪费搜索

四、天花板:还差一双“眼睛”

这三招叠起来,让纯 CPU、无网络的 MCTS 在 19×19 摸到业余高段——已是奇迹。但离职业仍隔着一道鸿沟:

  • 重模拟的“棋感”是人工模板,
  • 对全局形势、复杂死活,依旧缺乏真正的判断力

缺的那双眼睛,下一章补上——用神经网络。