谷歌人工智能首次完勝歐洲圍棋冠軍
1月28日上午消息谷歌今日宣布在人工智能領域的重要進展開發出一款能夠在圍棋中擊敗職業選手的程序AlphaGo該程序能夠通過機器學習的方式掌握比賽技巧
人工智能挑戰圍棋有多難?
計算機和人類競賽在棋類比賽中已不罕見在三子棋跳棋和國際象棋等棋類上計算機都先后完成了對人類的挑戰但對擁有2500多年歷史的圍棋而言計算機在此之前從未戰勝過人類圍棋看起來棋盤簡單規則不難縱橫各19九條等距離垂直交叉的平行線共構成19×19361個交叉點比賽雙方交替落子目的是在棋盤上占據盡可能大的空間
在極簡主義的游戲表象之下圍棋具有令人難以置信的深度和微妙之處當棋盤為空時先手擁有361個可選方案在游戲進行當中它擁有遠比國際象棋更多的選擇空間這也是為什么人工智能機器學習的研發者們始終希望在此取得突破的原因
就機器學習的角度而言圍棋的計算最大有3361種局面大致的體量是10170而已經觀測到的宇宙中原子的數量才1080國際象棋最大只有2155種局面稱為香農數大致是1047
機器學習預測人類行為
傳統的人工智能方法是將所有可能的走法構建成一棵搜索樹但這種方法對圍棋并不適用此次谷歌推出的AlphaGo將高級搜索樹與深度神經網絡結合在一起這些神經網絡通過12個處理層傳遞對棋盤的描述處理層則包含數百萬個類似于神經的連接點
其中一個神經網絡決策網絡policynetwork負責選擇下一步走法另一個神經網絡值網絡valuenetwork則預測比賽勝利方谷歌方面用人類圍棋高手的三千萬步圍棋走法訓練神經網絡與此同時AlphaGo也自行研究新戰略在它的神經網絡之間運行了數千局圍棋利用反復試驗調整連接點這個流程也稱為鞏固學習reinforcementlearning通過廣泛使用Google云平臺完成了大量研究工作
AlphaGo所使用的神經網絡結構示意圖
征服圍棋對于谷歌來說有重要意義AlphaGo不僅是遵循人工規則的專家系統它還通過機器學習自行掌握如何贏得圍棋比賽谷歌方面希望運用這些技術解決現實社會最嚴峻最緊迫的問題從氣候建模到復雜的災難分析
在具體的機器訓練上決策網絡的方式是輸入人類圍棋專家的比賽到系統可以預測57%人類行動為止此前最好成績是44%此后AlphaGo通過在神經網絡內部進行比賽的方式可以簡單理解成和自己下棋開始學習自主探索新的圍棋策略目前AlphaGo的決策網絡可以擊敗大多數具有龐大搜尋樹的最先進的圍棋程序
值網絡也是通過自己和自己下棋的方式來訓練目前值網絡可以評估每一步棋能夠有多大勝算這在此前被認為是不可能的
AlphaGo戰績驚人
實際上目前AlphaGo已經成為最優秀的人工智能圍棋程序在與其他程序的對弈中AlphaGo用一臺機器就取得了500場的勝利甚至有過讓對手4手后獲勝的紀錄去年10月5日-10月9日谷歌安排AlphaGo與歐洲圍棋冠軍FanHui樊麾法國國家圍棋隊總教練閉門比賽谷歌以5-0取勝
AlphaGo與歐洲圍棋冠軍樊麾的5局較量
公開的比賽將在今年三月舉行AlphaGo將在韓國首爾與韓國圍棋選手李世石九段一決高下李世石是近10年來獲得世界第一頭銜最多的棋手谷歌為此提供了100萬美元作為獎金李世石表示很期待此次對決并且有信心獲得勝利
此外AlphaGo的發布也是DeepMInd在2014年1月被谷歌收購以來首次發聲在被收購之前這家位于倫敦的人工智能領域的公司還獲得了特斯拉和SpaceX創始人馬斯克的投資
人機對弈誰將勝?
值得一提的是上一次著名的人機對弈要追溯到1997年當時IBM公司研發的超級計算機深藍戰勝了國際象棋冠軍卡斯巴羅夫不過國際象棋的算法要比圍棋簡單得多國際象棋中取勝只需殺死國王而圍棋中則用數子或比目的方法計算勝負并不是簡單地殺死對方棋子此前深藍計算機的設計人2007年發表文章指出他相信十年內能有超級電腦在圍棋上戰勝人類
該項目并未給IBM帶來可以銷售的產品但卻讓我們意識到基礎科學研究所面臨的巨大挑戰是值得我們去迎接的雖然企業在這方面的收益還無法量化
隨著頂級科技公司爭相在產品中融入智能技術谷歌并不是唯一一家研究圍棋AI的公司Facebook對圍棋人工智能的研究整合此前也亮相最新的計算技術深卷積神經網絡deepconvolutionalneuralnetworks和蒙特卡洛樹搜索MonteCarlotreesearch前者利用類似于大腦的算法來學習和識別棋盤上各種模式的重要性而后者相當于一種超前思維用于計算詳細的戰略步驟
Facebook和谷歌在圍棋人工智能方面的研究具有極大的代表意義與國際象棋相比圍棋更具深度要讓計算機掌握相關技巧需要更多類似于人類的模式識別和直覺判斷技巧計算機象棋軟件越來越優秀已將揭開了這項游戲的神秘面紗相比之下圍棋目前更加神秘但將來圍棋的神秘色彩也可能不復存在