尽管人工智能机器人在象棋领域已经完胜人类,但在围棋领域长期以来举步维艰。然而人类的骄傲也许不可能永远延续下去。近日,国际顶尖期刊《自然》封面文章报道了谷歌研究者开发的名为“阿尔法围棋”的人工智能机器人,在没有任何让子的情况下,以5:0完胜欧洲冠军、职业围棋二段选手樊麾。
机器人与人公平对弈
1997年,人工智能机器人第一次打败顶尖的国际象棋人类选手。2006年,人类最后一次打败国际象棋人工智能机器人,此后便一再败北,正应了四十多年前计算机科学家的预言。
但在围棋领域,由于人工智能机器人棋力比人类弱,在之前的比赛中,人类选手都会让子,而且人工智能机器人主要和业余段位的棋手比赛。因此,对于机器人的“进攻”,人们会以在围棋领域的智力优势来自我安慰。然而,这次情况不同了,与机器人对弈的选手樊麾目前是法国国家围棋队总教练,已经连续三年赢得欧洲围棋冠军的称号。而“阿尔法围棋”对战樊麾是完全公平的比赛,没有让子,却赢了比赛。
此前,研究者也让“阿尔法围棋”和其他的围棋人工智能机器人进行了较量,在总计495局中只输了一局,胜率是99.8%。它甚至尝试了让4子对阵CrazyStone、Zen和Pachi三个先进的人工智能机器人,胜率分别是77%、86%和99%,由此可见“阿尔法围棋”有多强大。
在2016年3月份,“阿尔法围棋”将和韩国九段棋手李世石在首尔一战,奖金是由谷歌提供的100万美金。李世石是最近10年中获得世界第一头衔最多的棋手。之前有人预测说,人工智能机器人需要再花十几年才能在围棋领域战胜人类,这场比赛或许会就此载入史册。
深度学习助其战胜人类
研究任何棋类,一种直观又偷懒的思路是列举所有能赢的方案,这些方案会形成一个树形地图。人工智能机器人只要根据这个地图下棋就能永远胜利。然而,围棋一盘大约要下150步,每步有250种可选的方法。要是人工智能机器人采用这种方式,需要计算大致10360种情况,相对的,国际象棋所需的计算则少得多,每盘大约80步,每一步有35种可选下法,大概有10124种情况。
无论如何,列举所有情况的方法不可行,所以研究者们选择了模仿人类大师的下棋方式。这就是“深度学习”,这是目前人工智能领域最热门的学科,能完成笔迹识别、面部识别、驾驶自动汽车、自然语言处理等非常复杂的任务。
“阿尔法围棋”的核心是两种不同的深度神经网络——“策略网络”和“值网络”,它们的任务在于合作“挑选”出那些比较有前途的棋步,抛弃明显的差棋,从而将计算量控制在计算机可以完成的范围内,本质上和人类棋手所做的一样。
其中,“值网络”负责减少搜索的深度——人工智能机器人会一边推算一边判断局面,局面明显劣势的时候,就直接抛弃某些路线;而“策略网络”负责减少搜索的宽度——面对眼前的一盘棋,有些棋步是明显不该走的,比如不该随便送子给别人吃。“阿尔法围棋”利用这两个工具来分析局面,判断每种下子策略的优劣,就像人类棋手一样。这样“阿尔法围棋”在分析了未来棋局的情况下,就能判断在哪里下子赢的概率会高。
研究者们用许多专业棋局训练人工智能机器人,这种方法称为监督学习,然后让人工智能机器人和自己对弈,这种方法称为强化学习,每次对弈都能让人工智能机器人棋力精进。而且,人类在下棋时有一个劣势——在长时间比赛后,他们会犯错,但机器不会。另外,人类或许一年能玩1000局,但机器人一天就能玩100万局,所以“阿尔法围棋”只要经过了足够的训练,就能击败所有的人类选手。
人类智力贬值了吗
人工智能研究者面对这样的成就当然欣喜。深度学习和强化学习等技术完全可以用于更广泛的领域。比如应用于精准治疗,人类可以训练机器人判断哪些治疗方案对某个特定的人有效。
但是,围棋毕竟不仅仅是一项智力成就,就像十多年前的国际象棋一样,围棋必定也会引发超出本领域之外的讨论。等到计算机能在围棋上秒杀人类的时候,人类的智力是不是就贬值了?那些传统观念所认为的人工智能机器人不可能完成的任务,是否也都将被逐一打破?没人知道答案。但有一点毫无疑问:人工智能机器人一定会进入人类的生活,这一接触虽然很可能悄无声息,但意义或许不亚于人类第一次接触外星生命。
(选自果壳网)