AI：让老聂脱帽致敬的技术分析和意义

Post Views: 173

下面是我8年前alphaGo刚出来人机大战时候发在一个中文论坛的帖子，今天看起来依然适用，发出来抛砖引玉。当时AlphaGo 出来，大家以为围棋时代已经结束，现在看来不是这样，AI围棋继续天下无敌，但人类围棋热情不减，AI与人类的共存正在不断地塑造我们的未来。

AlphaGo在2017战胜柯洁之后，就退出了围棋比赛。现在是腾讯AI实验室在AlphaGo 理念上发展出来的绝艺AI，和其他AI围棋在领风骚。

腾讯AI实验室打造的绝艺，是一款集策略洞察与胜率预测于一体的围棋人工智能。名字来源于唐代诗人杜牧送别围棋国手王逢的诗句——绝艺如君天下少，闲人似我世间无。它通过深度学习的方法，将策略网络用于评估棋盘上每一步的强弱，同时利用价值网络来预测整局的胜负。这种双网络协同工作，极大地提高了绝艺在棋局中的决策质量。

AlphaGo并不依赖于人来棋谱，但绝艺不同，绝艺研究人类高手棋谱，但绝艺的训练不仅仅局限于分析人类棋手的对局记录，它还通过与自身的对弈来不断自我进化。这样的训练机制使得绝艺能够吸收人类的智慧，同时也能够在无尽的自我挑战中发现新的策略和可能性。

此外，绝艺的技术探索并不止步于围棋。它在1对1麻将的比赛中展现了其策略游戏的通用性，击败了职业顶尖选手。腾讯AI实验室还开发了一种名为Actor-Critic Hedge (ACH)的新算法，这一算法在大规模的深度强化学习中展现了其优化策略的能力，向着达成纳什均衡的方向迈出了重要一步。这些进展不仅证明了绝艺在围棋领域的专业性，也为其在其他策略游戏中的应用奠定了基础。

绝艺的策略网络和价值网络是通过一种协同机制来共同工作的，这种机制能够在围棋对局中提供高效的决策支持。下面是它们如何协同工作的简化描述：

策略网络的作用是分析当前棋盘上的局势，并预测出可能的合理走法。它通过评估每一步棋的潜在价值，为接下来的行动提供一个策略指南。这个网络是通过观察大量的围棋对局和学习人类棋手的走法来训练的。
价值网络则负责评估整个棋局的胜率。它通过分析当前局面，预测最终的胜负结果。这个网络的训练涉及到大量的自我对弈，使得AI能够从每一局中学习并优化其胜率预测。

当绝艺在对局中决定下一步时，策略网络会提供一系列可能的走法，而价值网络则会评估这些走法的胜率，帮助绝艺选择最有可能获胜的那一步。这两个网络的结合，使得绝艺不仅能够模仿人类的高水平走法，还能够在对局中发现新的、可能更优的策略。

这种策略网络和价值网络的协同工作，是绝艺能够在围棋领域取得卓越成就的关键。它们共同构成了绝艺复杂决策过程的核心，使其能够在高水平的围棋对局中与人类棋手竞争并取得胜利。这也是现代围棋AI如此强大的原因之一。

我们需要指出的是， AI赢围棋并不赢在算力，而赢在学习。如果在下棋的时候，把所有后面的可能都计算出来，这跟比赛时候队友们在观棋室摆棋一样，现在的计算机不难做到，那是IBM最早的下棋机器人深蓝，不是AI AlphaGO.。 AI 的算力用在学习上面，不用在下棋的时候。比如说，李昌镐说，他能够计算到100-150步，这大概是人类的极限。计算机可以远远超过，但AI并不靠这样去赢棋。AI靠的是在学习的过程中不断的进步。在比赛的时候根据棋形做出判断，而不是在计算机中摆棋。不能用穷举法。

让老聂脱帽致敬的技术分析和意义

送交者: mingcheng 2016年03月11日16:47:25 于

让老聂脱帽致敬的技术分析和意义

Ming Cheng

人机大战第二场，在两方完成布局，黑３７手对白拆分走出肩冲，揭开中盘战斗序幕。这一手在后来让老聂说，对阿狗的下法脱帽致敬。应儒学大师B的邀请我来写一篇分析。现在我们来分析一下让号称前５０手天下无敌的大炮老聂也能脱帽致敬的这一手的技巧和意义。我当时看的直播，美国唯一一位九段雷蒙讲解。

布局阶段，过程和次序有些争议，但基本都还是正招，也证明了阿狗已经有脱先的意识和思考，中后盘黑一再脱先，置局部可能损失不理，表现出杰出的全局观。最后布局成两分局面。黑在上方势厚，并保持先手。由于中国规则大贴目，黑方必须进攻。这时候黑３７手令人意外地对白在４位线的３拆分走出高位肩冲。成为话题，并将必然地成为一段史话。

陈耀烨，刘昌赫等都直接认为这一手有违常识。我是在万维看的雷蒙九段的英语解说，雷蒙解说态度婉转，认为第37手有宇宙流先驱吴清源大师的风范。即黑想走大摸样，最后还真围了一个大肚子。这一手虽然没有吴清源名人赛第三手走天元那么夸张，但也相差不远。李喆更说，看到AlphaGo的这一步，我比看到外星人还震撼。

小李随即进入长考，正常交换两手后，白棋向外飞出，而不是一般地低飞保住右边实地。就是不想让黑走出大摸样。我在第一时间指出黑３７是妙手。那么，这号称天外飞星的这一手怎么来的呢？其实，对三位线的３拆分走出高位肩冲并不少见，但对４位线这样走就很飘了，特别在周围都很空的时候。所以这是阿狗学来的并加以发挥的应用。这就让人惊骇了，机器人竟然能自我学习，还能走出新招，突破了以前深蓝的思维。怪不的老聂要脱帽致敬了。

机器人能自我学习，还能创新，那天就要变了，我们这一代已经有辛见证甚至参与推动了几个新时代的来临. 现在又一个新的时代已经来临，for better or for worse. 不久前我在茶馆写过，物理要变天了，现在是多个领域一起出现突破，大时代总是这样。相比之下什么美国大选都不重要了。我们都应当一起对人工智能的发展脱帽致敬，以及对其带来的不可预见的负面后果致哀，如果我们不能控制的话，正如过去许多伟大的科技成果一样。

现在读到八年前那段话， “天就要变了”，深有感触。现在，天已经变了。

参考资料：

机器之心专访腾讯「绝艺」团队负责人：用全新强化学习方法造就更强模型 | 机器之心 (jiqizhixin.com)

AI：让老聂脱帽致敬的技术分析和意义

Comments

Leave a Reply Cancel reply