加入收藏 | 设为首页 | 会员中心 | 我要投稿 应用网_镇江站长网 (https://www.0511zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 评论 > 正文

AlphaGo 的棋局,与人工智能有关,与人生无关

发布时间:2016-03-10 23:07:10 所属栏目:评论 来源:爱范儿
导读:1997 年中考后的暑假在姑父公司的机房第一次接触电脑,当时应该是 80386 的微机。学习电脑就是学习 DOS 命令和打字,完全不懂干什么用的,打字尤其是五笔字型,更是学得头

SL Policy Network & Rollout Policy 的训练

这个和之前介绍的差不了太多。AlphaGo 相比之前多了Rollout Policy,之前的 Rollout Policy 大多是使用手工编制的 pattern,而AlphaGo 用训练 Policy Network 相同的数据训练了一个简单的模型来做 Rollout。

训练数据来自 3 千万的 KGS 的数据,使用了 13 层的 CNN,预测准确率是 57%,这和之前 Tian等人的工作是差不多的。

RL Policy Network & Value Network 的训练

之前训练的 SL Policy Network 优化的目标是预测走法,作者认为人类的走法会在很多 promising 的走法里选择,这不一定能提高 AlphaGo 的下棋水平。为什么?文中没有解释,我个人认为可能是一个局面(尤其是优势)的情况下有很多走法,有保守一点但是保证能赢一点点的走法,也有激进但需要算度准确的但能赢很多的走法。这取决于个人的能力(比如官子能力怎么样)和当时的情况(包括时间是否宽裕等等)。

所以 AlphaGo 使用强化学习通过自己跟自己对弈来调整参数学习更适合自己的 Policy。

棋局 人工智能 有关 人生

具体的做法是当前版本跟之前的某一个版本(把之前所有版本都保留和不是用最近的一个可以避免 overfitting)对弈,对弈的走法是根据 Policy Network 来选择的,然后根据结果调整参数。这个公式用自然语言来描述就是最终得分 z_t(获胜或者失败),在 t 时刻局面是 s_t 我选择了走法 a_t,P (a_t|s_t) 表示局面 s_t 时选择走法 a_t 的概率,就像神经网络的反向传播算法一样,损失 z_t(或者收益)是要由这个走法来负责的。我们调整参数的目的就是让这个概率变小。再通俗一点说就是,比如第一步我们的模型说必须走马(概率是 1),那么如果最终输棋,我们复盘时可能会觉得下次走马的概率应该少一点,所以我们调整参数让走马的概率小一点(就是这个梯度)。

RL Policy Network 的初始参数就是 SL Policy Network 的参数。最后学到的 RL Policy Network 与 SL Policy Network 对弈,胜率超过 80%。

(编辑:应用网_镇江站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读