阿爾法元自學成才，以100比0完爆阿爾法狗，你怎么看？

admin 2024年02月25日 12:59 288 0

今天微信朋友群里被阿爾法元刷屏了，實在是一個令人震驚的消息。這兩年谷歌就沒消停過，2016年整出個阿爾法狗1.0版4比1擊敗李世石九段，讓棋界為之震驚；2016年底和2017年初，又整出個Maste,對人類高手60連勝，后來得知這是阿爾法狗2.0版；2017年5月第二次“人機大戰”，阿爾法狗2.0版3比0完勝柯潔九段。至此，“人機大戰”已經沒有任何意義，人類高手在阿爾法狗面前難求一勝。

但始料未及的是，谷歌又推出阿爾法元，而且，與阿爾法狗1.0版和2.0版不同的是，阿爾法元完全不靠人類棋手的棋譜學棋、成長，只需懂得圍棋規則后即在短短時間里成長為超級高手，與Maste對戰擁有壓倒性的勝率，簡言之，阿爾法元已經接近“圍棋之神”了。

這只能說明：人工智能已經發展到了我們難以想象的地步，霍金擔心的人工智能有一天會摧毀人類并非危言聳聽，它已經可以不借助人類積累數千年的棋譜在短時間里成為第一高手。一如劉小光九段所言：人類思考千年不如它短短的一瞬。而且，它還是單機版，方便隨身攜帶，人類如果利用它，那人類高手們根本沒有爭勝的必要。

其次，圍棋的深度和難度通過阿爾法狗、阿爾法元證明，我們人類數千年掌握的不過是滄海一粟，應驗了日本名譽棋圣藤澤秀行所說的：棋道一百，我只知七。如果阿爾法元能讓阿爾法狗1.0版三個子的話，人類認識圍棋連百分之七都不到。就像柯潔九段說的那樣：自從有了阿爾法狗后，沒有什么棋不能下。問題是，知道什么棋都可以下僅僅是第一步，距離“圍棋之神”還遠著呢，但阿爾法元卻接近“圍棋之神”了。

非常令人震驚的進展！2016年3月4:1戰勝李世石之后，Deepmind就放出風聲，要讓AlphaGo從零知識開始學習下圍棋，當時讓人很有興趣。這種完全靠自學習，不學習人類棋譜的AI，在學成以后會如何下圍棋？會不會從天元開始下？能達到什么樣的實力？肯定非常有趣。

所謂零知識自學習，就是一開始就隨機扔子，就如上圖這樣黑白等于是瞎下。從這種隨機策略開始，慢慢改進，而不是學習人類的棋譜先來個策略網絡一開始就下得象模象樣。

但是后來這個零知識自學習的事一直沒下文。到2017年5月烏鎮3:0戰勝柯潔時，中間有研討會，David Silver出來講了不少，也完全沒有提這個。我還寫文章，說零知識自學習可能失敗了，陷入局部陷阱棋力并不太高。特別是2017年8月AlphaGo打星際的論文出來，從0知識開始學習，但是能力非常差，連暴雪最弱的AI都打不過，也不會造兵，更是讓人覺得零知識自學習可能不行，人類的先驗知識應該還是挺重要的。

但是2017年10月18日Deepmind第二篇AlphaGo論文《Mastering the Game of Go without Human Knowledge》出來了！論文給出了出乎我的預料的結果：

1. 從0知識開始學習，是可以訓練成功的！這個成功的程度是”目前所有Alphago版本中最厲害“。100:0戰勝AlphaGo-Lee版本，90%勝率勝Master版本（也就是戰勝柯潔的那個）。但是還沒有”天下無敵“，還是有一定概率輸給Master，等級分領先幅度還不算大。下圖右是等級分數值。

2. 從0知識開始，訓練速度非常快！3天就能戰勝AlphaGo-Lee，21天能戰勝Master。下圖左是AlphaGo-Zero等級分隨時間提升的曲線。訓練沒有在早期陷入局部陷阱。

3. 讓人類還算欣慰的是，雖然AlphaGo Zero不需要人類棋譜，但是訓練出來下得還是象人的。論文給出AlphaGo Zero的83局棋譜，沒訓練一會就下得有模有樣了。也不是從中腹天元開始下，而是象人類一樣先占邊角。這說明人類的這些行棋方向還不算離譜。實際這也早有征兆，幾個圍棋AI都這樣，如果一開始不下角部，下在中腹或者邊上，給出的勝率就會下降。

4. 雖然Alphago Zero下得象人，但是很多招為什么這么下，連高手都應該是看不懂了。它到了什么境界，人類還需要領會。

從哲學意義上來說，這說明圍棋這種人類看上去很復雜的游戲，在AI看來卻是簡單的。因為圍棋的規則與目標是明確的，甚至是最簡單的，圍棋幾乎是規則最簡單的游戲，只需要兩個行棋規則：氣盡提子，禁止全同。勝負規則，也是行棋規則自然出來的，終局數子。

圍棋的規則，讓AI可以不需要人類，就判定棋局的結果，這樣就完全不需要人類干預進行自學習了。學名叫“無監督”。也就是說圍棋是個完全客觀的游戲。而人類在這種客觀游戲中，確實在幾百上千年中加入了不少主觀的東西，各種“定式”、“趣向”、“價值判斷”，這都是非自然的，肯定有不少錯誤。人類的經驗，對AI的自學習來說，到很高的水平上，應該反而是障礙了。

AlphaGo Zero說明，對于完全客觀的東西，人類的主觀經驗很可能是有錯的，要勇敢地懷疑與挑戰。當然也有不少問題，是依賴人的主觀判斷的，那對AI又是不同的，需要“監督”，如識別文字。

關于這個問題，每日經濟新聞記者涂勁軍認為：

AlphaGo Zero完勝曾經戰勝人類的AlphaGo，這是一個里程碑的事件，對于Ai技術來說，是上到一個新臺階，足以在現實中證明，不依賴于人類的既有經驗，讓機器自主學習掌握了人類上千年的圍棋技能。

這種新程序代表著人類在建造真正智能化機器方面向前邁進了一步，因為即使在沒有大量訓練數據的情況下，機器也需要找出解決困難問題的方法。 DeepMind聯合創始人兼首席執行官戴密斯·哈薩比斯（Demis Hassabis）說：“最引人注目的一點是，我們不再需要任何人工數據，”。他認為，建造Alphago Zero的技術已經足夠強大，可以應用在現實世界，例如藥物發現與材料科學等一些有必要繼續探索各種可能性的行業。Alphago Zero的相關研究成果發表在今天的《自然》雜志上。

阿爾法元自學成才，以100比0完爆阿爾法狗，你怎么看？-第1張圖片-贊晨新材料