您当前的位置:科技评论网资讯正文

一文带你了解谷歌AlphaGo是怎样炼成的?

放大字体  缩小字体 2017-10-14 07:00:49  阅读量:8785 来源:网易科技 作者:周杰伦

发布会合影

李世石对战AlphaGo惨败之后,期待中国选手柯洁为人类围棋而战的呼声就越来越高,从未停止!

如今,柯洁终于来到舞台中央,将于5月23日-27日在中国乌镇围棋峰会与AlphaGo一战高下!届时,AlphaGo与世界排名第一的柯洁将完成三番棋对弈,此次比赛除了AlphaGo与柯洁的世纪对战之外,还会采用团队赛、配对赛的多种形式,中国围棋代表队其他成员也将参与。那么,AlphaGo究竟是什么?它是如何炼成的?网易智能带您一一解读。

AlphaGo是什么?

AlphaGo是第一个击败人类职业围棋选手,第一个战胜世界冠军的程序,是围棋史上最具实力的选手之一。2016年3月,在全世界超过一亿观众的下,Alpha Go经过3局对弈,最终以4比1的总比分战胜了围棋世界冠军李世石,这场比赛成为了人工智能领域的一个重要里程碑。

过去曾有专家预测人工智能需要十年的时间才有可能战胜人类职业选手,在这场比赛之后,AlphaGo凭借其"充满创意而又机智"的下法,跻身围棋界最高职业称号——职业九段行列,成为历史上首个获得这一荣誉的非人类棋手。近期,AlphaGo的升级版本以“Master/Magister”的称谓与世界顶级的围棋选手进行60场线上快棋赛,并取得了全胜的出色战绩。

AlphaGo是如何进行训练的?

一直以来,围棋就被认为是传统游戏中,对人工智能而言最具挑战性的项目,这不仅仅是因为围棋包含了庞大的搜索空间,更是因为对于落子位置的评估难度已远运超过了简単的启发式算法。为了应对围棋的巨大复杂性,AlphaGo采用了一种新颖的机器学习技术,结合了监督学习和强化学习的优势,通过训练形成一个策略网络(policy network),将棋盘上的局势作为输入信息,并对所有可行的落子位置生成一个概率分布。


然后,训练出一个价值网络(value network)对自我对弈进行预测,以-1(对手的绝对胜利)到1(AlphaGo的绝对胜利)的标准,预测所有可行落子位置的结果。这两个网络自身都十分强大,而AlphaGo将这两种网络整合进基于概率的蒙特卡罗树搜索(NCTS)中,实现了它真正的优势。最后,新版的AlphaGo产生大量自我对弈棋局,为下一代版本提供了训练数据,此过程循环往复。

注意!此过程循环往复,我们人类需要吃饭休息,而这个比你聪明的选手还比你勤奋!

Alpha Go如何决定落子?

在获取棋局信息后,Alpha Go会根据策略网络(policy network)探索哪个位置同时具备高潜在价值和高可能性,进而决定最佳落子位置。在分配的搜索时间结束时,模拟过程中被系统最频繁考察的位置将成为Alpha Go的最终选择。在经过先期的全盘探索和过程中对最佳落子的不断揣摩后,Alpha Go的搜索算法就能在其计算能力之上加入近似人类的直觉判断。(广胜)

网易智能菌(:smartman163),获取专业人工智能资讯与AI报告。

责任编辑:丁广胜_NT1941

“如果发现本网站发布的资讯影响到您的版权,可以联系本站!同时欢迎来本站投稿!