登录
首页精彩阅读复盘 | 离AI取代人类还有多远?
复盘 | 离AI取代人类还有多远?
2016-03-10
收藏
3月9日下午,经过3个半小时的激战,李世石九段投子认输,Alpha Go再次战胜人类。

根据日程安排,5局棋将分别于3月9日、10日、12日、13日和15日举行,即使一方率先取得3胜,也会下满5局。比赛采用中国规则,执黑一方贴7目半,各方用时为2小时,3次60秒的读秒。

与战前李世石预言5:0全胜的成绩相比,今天的结果有些出乎意料,也让未来几天的比赛更加充满悬念。

然而,仅这一局的结果就已经能说明一些问题。

AlphaGo获胜意味着什么?

李世石战绩

1995年入段,1998年二段,1999年三段,2003年因获LG杯冠军直接升为六段。

2003年4月获得韩国最大棋战KT杯亚军,升为七段。

2003年7月获第16届富士通杯冠军后直接升为九段。

2006、2007、2008韩国围棋大奖——最优秀棋手大奖(MVP)。

2009年,李世石连续19个月高居韩国棋手等级分排行榜首位,并保有国内国际各两项棋战的冠军头衔,取代“石佛”李昌镐成为韩国围棋第一人。

近10年来获得世界第一头衔最多的棋手,共获得14个个人赛世界冠军。

AlphaGo战绩

2015年10月阿尔法围棋以5:0完胜欧洲围棋冠军、职业二段选手樊麾。

别看只有一枚军功章,这在人工智能领域却是了不起的进步。

很多人都知道,1997年的「深蓝」计算机战胜了人类的国际象棋冠军卡斯帕罗夫,但是那时候大家不会认为“深蓝”真正拥有了人工智能。原因在于:国际象棋就64格,最大只有2^155种局面,称为香农数,大致是10^47。虽然没法全部去遍历,只要把开局库和残局库多输一些进去,结合一些中盘的策略选择和部分遍历就很牛了。

对棋局进行预测,遍历每一种走法直到一方胜出,然后回退计算每一个可能赢的概率,最后使用概率最高的作为最优的走法。「深蓝」就做了这么件事,暴力穷举所有的步子,然后找最优。所以虽然「深蓝」胜了,但并不意味着「智能」。

但对围棋来说,千古无同局,没有残局的概念。围棋每回合有 250 种可能,一盘棋可以长达 150 回合。所以最大有3^361 种局面,大致的体量是10^170,而已经观测到的宇宙中,原子的数量才10^80而已。


围棋复杂度示意图(只看图C君已经晕了)

围棋需要的并不仅仅是计算的能力,还有图形处理的能力,后者是计算机的弱项。

局部的死活就是一个例子,计算机的一个总体目标,就是赢棋,它很难像人一样灵活构建不同的局部目标。围棋高手对棋形的判断近似于对人脸的判断,这更接近人工智能的本质。这也就是为什么在今天直播解棋时古力九段评价:电脑虽然在局部战斗表现出色,但在大局上似乎不如人类高瞻远瞩。

AlphaGo是如何战胜李世石的?

AlphaGo实际上是搜索算法和深度学习的结合。

深度学习是人工智能(AI)领域当下最为热门的研究领域。具体到 AlphaGo 上,「 深度学习」的能力利用「 价值网络( value network ) 」去计算局面,然后再用「 策略网络( policy network )」去选择下子。「  价值网络 」和「 策略网络 」是两种不同的深度神经网络,并且共同构成了 AlphaGo 的「 大脑 」。

AlphaGo的”大脑“实际上分成了四大部分:


Rollout Policy 快速感知”脑“:用于快速的感知围棋的盘面,获取较优的下棋选择,类似于人观察盘面获得的第一反应,准确度不高

SL Policy Network 深度模仿”脑“:通过人类6-9段高手的棋局来进行模仿学习得到的脑区。这个深度模仿“脑”能够根据盘面产生类似人类棋手的走法。

RL Policy Network 自学成长“脑”:以深度模仿“脑”为基础,通过不断的与之前的“自己”训练提高下棋的水平。

Value Network 全局分析“脑”:利用自学成长“脑”学习对整个盘面的赢面判断,实现从全局分析整个棋局。


四个脑区的功能不一样,基本对应人类棋手下棋所需的不同思维,既包含局部的计算,也包含全局的分析。其中的Policy Network用于具体每一步棋的优劣判断,而Value Network则对整个棋局进行形势的判断。

开局不久,我们能看到李世石用一手棋来试探AlphaGo的棋力,CSDN总裁蒋涛现场点评说,这一招很不明智,AlphaGo是遇强则强,遇臭也臭。因为AlphaGo提升棋力首先是依靠模仿来进行自我水平的提升,这和人类的学习方式其实是一模一样的。

人类棋手下棋的步骤:

Step 1:分析判断全局的形势

Step 2:分析判断局部的棋局找到几个可能的落子点

Step 3:预测接下来几步的棋局变化,判断并选择最佳的落子点。

那么,AlphaGo在拥有强大的神经网络”大脑“的基础上采用蒙特卡洛树搜索来获取最佳的落子点,本质上和人类的做法是接近的。

首先是采用蒙特卡洛树搜索的基本思想,其实很简单:多次模拟未来的棋局,然后选择在模拟中选择次数最多的走法

AlphaGo具体的下棋基本思想如下:

Step 1:基于深度模仿“脑” 来预测未来的下一步走法,直到L步。

Step 2:结合两种方式来对未来到L的走势进行评估,一个是使用全局分析“脑”进行评估,判断赢面,一个是使用快速感知“脑”做进一步的预测直到比赛结束得到模拟的结果。综合两者对预测到未来L步走法进行评估。

Step 3:评估完,将评估结果作为当前棋局下的下一步走法的估值。即给一开始给出的下一步走法根据未来的走向进行评估。

Step 4 :结合下一步走法的估值和深度模仿脑进行再一次的模拟,如果出现同样的走法,则对走法的估值取平均(蒙特卡洛的思想在这里)

反复循环上面的步骤到n次。然后选择选择次数最多的走法作为下一步。

简单的讲就是综合全局和具体走法的计算分析,对下一步棋进行模拟,找到最佳的下一步。对步子的选择,既要依赖于全局分析“脑”的判断,也需要深度模仿“脑”的判断。

离AI取代人类还有多远?

在对战结束之后,中国棋手柯洁对于AlphaGo的胜利有些担心,甚至表示如果可能愿意接受AlphaGo的约战。他说,AlphaGo的出现让人类棋手的生存空间变小了。

AlphaGo的表现让我们看到了AI的无限可能,也让不少人对于未来的人类世界产生了些许担心。我们都知道「机器人学之父」阿西莫夫在著作《我是机器人》中所提的“机器人工学三原则”:

机器人不得危害人类。此外,不可因为疏忽危险的存在而使人类受害。
机器人必须服从人类的命令,但命令违反第一条内容时,则不在此限。
在不违反第一条和第二条的情况下,机器人必须保护自己。

技术之外,人们担心的其实是未来社会的伦理秩序。

有人提到,机器能够获胜除了强大的计算能力,还在于它不像人一样有各种心理和身体的负担,没有情感,永远快速而准确。然而,「没有情感」,这是机器的铠甲,也可能成为它的软肋。让人工智能获得情感感知能力,应该还有一段艰难的路要走。

万不得已时,C君想到了一个主意对付AlphaGo:


(顺便致敬C君最爱的库布里克最伟大的作品《2001太空漫游》:可能拔电源都没用)


附:人机对弈历史

机器对战人类,四大经典胜利

从第一台计算机问世以来,人们就梦想造出一种可以完美模拟甚至超越人脑的计算机系统。过去20年中,有4次人机大战给人们留下格外深刻的印象,也成为人工智能发展的绝佳注脚。

1997 深蓝Ⅱ:蛮算的“硬汉”

1997年,美国IBM公司的“深蓝Ⅱ”超级计算机以2胜1负3平战胜了当时世界排名第一的国际象棋大师卡斯帕罗夫。“深蓝”的运算能力当时在全球超级计算机中居第259位,每秒可运算2亿步。

第一局比赛,“深蓝Ⅱ”看上去就像是个业余棋手。但第二局比赛,电脑下棋却像世界一流的特级大师。受第二局失利的影响,卡斯帕罗夫无心比赛。在决胜局中,卡斯帕罗夫犯了一个低级错误,他走了19步后就宣布放弃。整场比赛进行了不到一个小时,“深蓝Ⅱ”赢了这场具有特殊意义的对抗。

“深蓝Ⅱ”还算不上足够智能,主要依靠强大的计算能力穷举所有路数来选择最佳策略“深蓝Ⅱ”靠硬算可以预判12步,卡斯帕罗夫可以预判10步。

2006 浪潮天梭:以一敌五

2006年,“浪潮杯”首届中国象棋人机大战中,5位中国象棋特级大师最终败在超级计算机浪潮天梭手下。中国人发明的这项充满东方智慧的模拟战争游戏,被中国超级计算机独占鳌头。

值得一提的是,浪潮天梭在比赛中,同时迎战柳大华、张强、汪洋、徐天红、朴风波5位大师。在2局制的博弈中,浪潮天梭以平均每步棋27秒的速度,每步66万亿次的棋位分析与检索能力,最终以11:9的总比分险胜。

柳大华在两局之间中场休息时,直言这场比赛“艰苦卓绝”。他在赛后表示:“我觉得计算机的优势在于它的计算非常快而且准确,有抓住优势的能力,并且抓住以后就不放手,不会受到任何不良的心理影响,将胜利进行到底。不过它的确在平稳的局面下会比较死板,不够灵活。”

2011 沃森:答题“学霸”

2011年,“深蓝”的同门师弟“沃森”在类似于“最强大脑”的美国智力问答节目《危险边缘》中挑战两位人类冠军。

虽然比赛时不能接入互联网搜索,但“沃森”存储了2亿页的数据,包括各种百科全书、词典、新闻,甚至维基百科的全部内容。“沃森”可以在3秒内检索数百万条信息并以人类语言输出答案,还能分析题目线索中的微妙含义、讽刺口吻及谜语等。“沃森”还能根据比赛奖金的数额、自己比对手落后或领先的情况、自己擅长的题目领域来选择是否要抢答某一个问题。

“沃森”最终轻松战胜两位人类冠军,展示出的自然语言理解能力一直是人工智能界的重点课题。

2015 阿尔法围棋:“思考者”

2015年10月,“阿尔法围棋”人工智能程序以5:0战胜欧洲围棋冠军樊麾,这是人工智能程序首次在不让子的情况下战胜人类围棋选手。

樊麾1月份回顾这场比赛时表示,“就是在一个特定的房间里,我面前有一张棋盘和一台电脑,我没有在电脑上直接下,而是通过棋盘下的。”至于落败的原因,樊麾分析称,“首先是自己棋有点臭,尤其是到了后半盘,开始读秒的时候老打‘勺子’,下得也比较着急,我这些毛病,事后看都被电脑抓住了。其次应该说是心态问题,我太想赢了,而且一开始我也不太相信它能战胜我。”

樊麾对记者说:“如果没有人告诉我,我一定不知道它是电脑,它太像人了。它一定是在思考。按照人的说法,它应该有棋风吧。”

结合songrotek的专栏编写

数据分析咨询请扫描二维码

客服在线
立即咨询