今天微信朋友群里被阿爾法元刷屏了,實在是一個令人震驚的消息。這兩年谷歌就沒消停過,2016年整出個阿爾法狗1.0版4比1擊敗李世石九段,讓棋界為之震驚;2016年底和2017年初,又整出個Maste,對人類高手60連勝,后來得知這是阿爾法狗2.0版;2017年5月第二次“人機大戰”,阿爾法狗2.0版3比0完勝柯潔九段。至此,“人機大戰”已經沒有任何意義,人類高手在阿爾法狗面前難求一勝。
但始料未及的是,谷歌又推出阿爾法元,而且,與阿爾法狗1.0版和2.0版不同的是,阿爾法元完全不靠人類棋手的棋譜學棋、成長,只需懂得圍棋規則后即在短短時間里成長為超級高手,與Maste對戰擁有壓倒性的勝率,簡言之,阿爾法元已經接近“圍棋之神”了。
這只能說明:人工智能已經發展到了我們難以想象的地步,霍金擔心的人工智能有一天會摧毀人類并非危言聳聽,它已經可以不借助人類積累數千年的棋譜在短時間里成為第一高手。一如劉小光九段所言:人類思考千年不如它短短的一瞬。而且,它還是單機版,方便隨身攜帶,人類如果利用它,那人類高手們根本沒有爭勝的必要。
其次,圍棋的深度和難度通過阿爾法狗、阿爾法元證明,我們人類數千年掌握的不過是滄海一粟,應驗了日本名譽棋圣藤澤秀行所說的:棋道一百,我只知七。如果阿爾法元能讓阿爾法狗1.0版三個子的話,人類認識圍棋連百分之七都不到。就像柯潔九段說的那樣:自從有了阿爾法狗后,沒有什么棋不能下。問題是,知道什么棋都可以下僅僅是第一步,距離“圍棋之神”還遠著呢,但阿爾法元卻接近“圍棋之神”了。
非常令人震驚的進展!2016年3月4:1戰勝李世石之后,Deepmind就放出風聲,要讓AlphaGo從零知識開始學習下圍棋,當時讓人很有興趣。這種完全靠自學習,不學習人類棋譜的AI,在學成以后會如何下圍棋?會不會從天元開始下?能達到什么樣的實力?肯定非常有趣。
所謂零知識自學習,就是一開始就隨機扔子,就如上圖這樣黑白等于是瞎下。從這種隨機策略開始,慢慢改進,而不是學習人類的棋譜先來個策略網絡一開始就下得象模象樣。
但是后來這個零知識自學習的事一直沒下文。到2017年5月烏鎮3:0戰勝柯潔時,中間有研討會,David Silver出來講了不少,也完全沒有提這個。我還寫文章,說零知識自學習可能失敗了,陷入局部陷阱棋力并不太高。特別是2017年8月AlphaGo打星際的論文出來,從0知識開始學習,但是能力非常差,連暴雪最弱的AI都打不過,也不會造兵,更是讓人覺得零知識自學習可能不行,人類的先驗知識應該還是挺重要的。
但是2017年10月18日Deepmind第二篇AlphaGo論文《Mastering the Game of Go without Human Knowledge》出來了!論文給出了出乎我的預料的結果:
1. 從0知識開始學習,是可以訓練成功的!這個成功的程度是”目前所有Alphago版本中最厲害“。100:0戰勝AlphaGo-Lee版本,90%勝率勝Master版本(也就是戰勝柯潔的那個)。但是還沒有”天下無敵“,還是有一定概率輸給Master,等級分領先幅度還不算大。下圖右是等級分數值。
2. 從0知識開始,訓練速度非常快!3天就能戰勝AlphaGo-Lee,21天能戰勝Master。下圖左是AlphaGo-Zero等級分隨時間提升的曲線。訓練沒有在早期陷入局部陷阱。
3. 讓人類還算欣慰的是,雖然AlphaGo Zero不需要人類棋譜,但是訓練出來下得還是象人的。論文給出AlphaGo Zero的83局棋譜,沒訓練一會就下得有模有樣了。也不是從中腹天元開始下,而是象人類一樣先占邊角。這說明人類的這些行棋方向還不算離譜。實際這也早有征兆,幾個圍棋AI都這樣,如果一開始不下角部,下在中腹或者邊上,給出的勝率就會下降。
4. 雖然Alphago Zero下得象人,但是很多招為什么這么下,連高手都應該是看不懂了。它到了什么境界,人類還需要領會。
從哲學意義上來說,這說明圍棋這種人類看上去很復雜的游戲,在AI看來卻是簡單的。因為圍棋的規則與目標是明確的,甚至是最簡單的,圍棋幾乎是規則最簡單的游戲,只需要兩個行棋規則:氣盡提子,禁止全同。勝負規則,也是行棋規則自然出來的,終局數子。
圍棋的規則,讓AI可以不需要人類,就判定棋局的結果,這樣就完全不需要人類干預進行自學習了。學名叫“無監督”。也就是說圍棋是個完全客觀的游戲。而人類在這種客觀游戲中,確實在幾百上千年中加入了不少主觀的東西,各種“定式”、“趣向”、“價值判斷”,這都是非自然的,肯定有不少錯誤。人類的經驗,對AI的自學習來說,到很高的水平上,應該反而是障礙了。
AlphaGo Zero說明,對于完全客觀的東西,人類的主觀經驗很可能是有錯的,要勇敢地懷疑與挑戰。當然也有不少問題,是依賴人的主觀判斷的,那對AI又是不同的,需要“監督”,如識別文字 。
關于這個問題,每日經濟新聞記者涂勁軍認為:
AlphaGo Zero完勝曾經戰勝人類的AlphaGo,這是一個里程碑的事件,對于Ai技術來說,是上到一個新臺階,足以在現實中證明,不依賴于人類的既有經驗,讓機器自主學習掌握了人類上千年的圍棋技能。
這種新程序代表著人類在建造真正智能化機器方面向前邁進了一步,因為即使在沒有大量訓練數據的情況下,機器也需要找出解決困難問題的方法。 DeepMind聯合創始人兼首席執行官戴密斯·哈薩比斯(Demis Hassabis)說:“最引人注目的一點是,我們不再需要任何人工數據,”。他認為,建造Alphago Zero的技術已經足夠強大,可以應用在現實世界,例如藥物發現與材料科學等一些有必要繼續探索各種可能性的行業。Alphago Zero的相關研究成果發表在今天的《自然》雜志上。
人類一直以來有一個擔心,就是人工智能能夠自我進化,從而超越人類,甚至對人類帶來威脅。如果過去認為這種擔心是多余的,那么現在完全有理由相信人工智能的強大足以超過人類。 當然擔心之外,我們還是應該慶賀一下,如果能夠很好地管控好人工智能,人類完全還是可以把無比強大的人工智能當作工具,為人類服務。
從市場空間來說,高強度的人工智能,可以幫助人類解決很多前所未有的問題,正如哈薩比斯說的,在醫藥、新材料領域,完全不用借助過去的人類經驗來推進,人工智能的研發,應該比人類研發速度更加快捷,從而在急用的這些領域上取得重大成就。
不管怎么樣,人工智能依托人類知識的學習已經是完全可以實現的。當然他們必須還有一個過度階段,因為現階段的人工智能的創造與進步依然需要人類知識來推進,當不可否認的是,終究有一天,人工智能不再有人工二字,純粹的程序智能,能夠自我進化與完善,甚至于人腦融合。