继 AlphaGo 扬名海外后,DeepMind 再推新模型 MuZero,该模型可以在不知道游戏规则的情况下,自学围棋、国际象棋、日本将棋和 Atari 游戏并制定最佳获胜策略,论文 12 月 24 日发表至《Nature》。

自 2016 年,令柯洁流泪、让李世石沉默的 AlphaGo 横空出世,打遍棋坛无人能敌后,AI 棋手的名号就此一炮打响,而其背后的发明家 DeepMind 却没有因此止步,四年之内迭代了四代 AI 棋手,次次都有新突破。

始祖 AlphaGo 基于人类棋手的训练数据和游戏规则,采用了神经网络和树状搜索方法,成为了第一个精通围棋的 AI 棋手。

二代 AlphaGo Zero 于 2017 年在《Nature》发表,与上代相比,不需要人类棋手比赛数据作为训练集,而是通过自对抗的方式自己训练出最佳模型。

三代 AlphaZero 在 2018 年诞生,将适应领域拓宽至国际象棋和日本将棋,而不是仅限于围棋。

第四代、也就是今天新公布 MuZero 最大的突破就在于可以在不知道游戏规则的情况下自学规则,不仅在更灵活、更多变化的 Atari 游戏上代表了 AI 的最强水平,同时在围棋、国际象棋、日本将棋领域也保持了相应的优势地位。

关键词: AlphaGo