新版“阿尔法围棋”聪明骇人

《文摘报》（ 2017年10月26日 07 版）

2016年，“阿尔法围棋”战胜了韩国围棋大师李世石，从此名扬天下。之后，“阿尔法围棋”Master又战胜了世界排名第一的棋手，并击败多位顶级棋手。但是，此前的这些版本在刚开始学习围棋时，都要借助人类专家对弈的海量数据进行训练，然后才能开始自学。“阿尔法围棋”依靠的是多台设备和48个张量处理单元（TPU）。

但最新版“阿尔法元”比此前的版本更“聪明”。它只需要棋盘和棋子，而不再需要人类数据。研发人员只是让它进行自我对弈，通过更先进的算法，取得飞速的自学进展。此外，“阿尔法元”仅使用一台设备和4个TPU，极大地节省了资源。

只用三天时间进行学习训练，并完成近500万盘的自我对弈后，“阿尔法元”就击败了战胜过李世石的那一版“阿尔法围棋”，比分是100：0。

“阿尔法元”的编程中含有奖惩机制。系统一开始只输入游戏规则而没有任何说明，它无师自通，设计出战术并在自我对弈中加以改进——刚开始是“完全随机下棋”，看看如何获得奖赏。这是一种被称为“强化学习”的试错法。研究人员认为，与此前的版本不同，“阿尔法元”不再受制于人类知识的极限。

（《参考消息》10.20）

返回目录放大

缩小

全文复制