2016年,“阿尔法围棋”战胜了韩国围棋大师李世石,从此名扬天下。之后,“阿尔法围棋”Master又战胜了世界排名第一的棋手,并击败多位顶级棋手。但是,此前的这些版本在刚开始学习围棋时,都要借助人类专家对弈的海量数据进行训练,然后才能开始自学。“阿尔法围棋”依靠的是多台设备和48个张量处理单元(TPU)。
但最新版“阿尔法元”比此前的版本更“聪明”。它只需要棋盘和棋子,而不再需要人类数据。研发人员只是让它进行自我对弈,通过更先进的算法,取得飞速的自学进展。此外,“阿尔法元”仅使用一台设备和4个TPU,极大地节省了资源。
只用三天时间进行学习训练,并完成近500万盘的自我对弈后,“阿尔法元”就击败了战胜过李世石的那一版“阿尔法围棋”,比分是100:0。
“阿尔法元”的编程中含有奖惩机制。系统一开始只输入游戏规则而没有任何说明,它无师自通,设计出战术并在自我对弈中加以改进——刚开始是“完全随机下棋”,看看如何获得奖赏。这是一种被称为“强化学习”的试错法。研究人员认为,与此前的版本不同,“阿尔法元”不再受制于人类知识的极限。
(《参考消息》10.20)