Soma Zero Tutorials
🔍 搜索功能尚未开启,敬请期待。

4.5 AlphaGo:策略网络 + 价值网络 + MCTS

2016 年,AlphaGo 4:1 战胜李世石,是 AI 史上的里程碑。它没有推翻 MCTS,而是给 MCTS 配了两只“眼睛”——策略网络治分支、价值网络治评估。这正是国象 NNUE 那一幕的围棋版,殊途同归

一、两张网,治两个病

回看 4.1 那两个病——分支太大、没有评估函数。AlphaGo 用两张神经网络对症下药

  • 策略网络(policy net):输入局面,输出“每个点值得下的概率”,把 361 个候选剪到几个靠谱的——治分支①;
  • 价值网络(value net):输入局面,直接看一眼估出胜率——这正是 naive MCTS 缺的那个评估函数,治评估②。

二、装回 MCTS 里

四步循环一步没改,只是两个环节变聪明了:

  • 选择:UCT 升级成 PUCT,用策略网络的概率当“先验”,优先探索网络看好的点;
  • 模拟/评估:叶子结点不再纯随机下到底,而是用价值网络的判断(AlphaGo 还混了一部分快速 rollout)来估值。

策略网络让树长得窄而深,价值网络让每个叶子估得准。MCTS 的骨架,被两张网撑成了超人。

三、它是怎么训出来的

AlphaGo 的训练分两段:

  • 监督学习:先用大量人类高手棋谱,教策略网络“人会怎么下”;
  • 强化学习:再让它自我对弈,从胜负里继续打磨策略网络,并训练价值网络去预测自对弈的结果。

“先学人、再自学”——这条尾巴下一章会被彻底剪掉。

四、和国象对照:第三次出现的暗线

停下来看一眼这条贯穿全课的主线:

神经网络的判断 + 经典搜索的精确 = 当今棋类 AI 最强的范式。

它在五子棋叫混合引擎(2.8)、在国象叫 NNUE(3.5)、在围棋叫 AlphaGo。三个棋种、三个名字,同一个道理。你已经第三次遇见它了。