AlphaZero 問世:8 小時完爆圍棋、國際象棋、日本將棋
日前,DeepMind 團隊發(fā)表了最新論文,提出了全新的強化學習算法 AlphaZero,它是一種可以從零開始,通過自我對弈強化學習在多種任務上達到超越人類水平的新算法,堪稱「通用棋類 AI」。
據(jù)了解,AlphaZero 算法可以再 8 個小時訓練擊敗李世石版本 AlphaGo;12 小時訓練擊敗世界頂級的國際象棋程序 Stockfish;14 小時訓練擊敗世界頂級將棋程序 Elmo。這是 DeepMind 團隊繼 AlphaGo Zero 的研究問世之后,帶給我們的又一全新算法,它是「更通用的版本」。



























粵公網(wǎng)安備 44030402000745號