带着公关任务的AlphaGo，混江湖的面子与里子(2)_

　　每多让一子，被让子者将会获得巨大的优势。一般来说最多能让四子，而让四子基本就是专业棋手跟入门棋手的教学赛了。这次出战的AlphaGo能不能对人类选手让子胜不得而知，但如果它能够对旧版的AlphaGo让三子，那说明棋力已经有了等级上的进化。

　　这个进化的核心实力来自什么呢？显然不是来自运算速度的加快和数据处理量的加大。根据Demis Hassabis的说明，“本次对弈的新版 AlphaGo计算量小了十倍，自我对弈能力更强，运行起来更简单，更好，功耗也更小。”

　　而这个神秘效果或许来源于几个能力。最核心的就是AlphaGo改良了蒙特卡洛树搜索算法。这种算法的本质，是在完全信息博弈的情况下采用不断穷举极大值与极小值，在根据数据结果来匹配能达成玩家目标的搜索结果。顺着搜索树上升，最终达到最优结果。

　　这个算法是AlphaGo初代时就开始采用的机器学习算法。但这个算法的缺点在于对于博弈目标需要的运算量会非常庞大，如果不加以限制，很可能出现暴力穷举的运算方式。这对于围棋显然是不智的。

　　带着公关任务的AlphaGo，混江湖的面子与里子

　　而解决运算量问题的方式就是通过卷积神经网络，使用策略网络与价值网络对举的方式来确定运动方向，这样就几大减少了搜索树的运算量与运算时间。据说，这一版本的AlphaGo策略网络/价值网络构成的精神网络由12层增加到了40层，这其中蕴含的也绝不仅仅是数量上的增加，而应该是更复杂的算法逻辑在起作用。

　　初代AlphaGo对人类棋谱的大量学习完毕，也给版本进化提供了有力基础。这一版本的AlphaGo更多采取自我对弈的方式来完成强化学习，辅助以少量人类棋谱。显然会在优质数据搜索上更上一层楼，也更加无法被人类预判。

　　同时这次的AlphaGo虽然依旧是使用监督学习与增强学习结合的训练手段，但应该已经达成了部分无监督学习。这很可能是master连胜60局时很多奇招和布局感的来源。

　　简单来说吧，AlphaGo的“里子”在于它使用了全面改进的算法和优质数据源，虽然目前资料甚少，我们还无法窥探其究竟。但AlphaGo通过多种算法逻辑、训练逻辑与学习资源相结合，让机器获得了近乎于直觉和创造力的东西，恐怕才是它传达出的最重要信息。

　　虽然这个信息包裹在层层商业目的和新闻噱头的背后，但还是有必要把它找出来……因为……我也不知道因为什么，但这里似乎可以再引用一句《一代宗师》：功夫只有两个字，一横一竖，对的站着，错的躺下。

　　——AI也是如此。