【烽巢網-科技PRO】

谷歌旗下DeepMind開發的人工智能代理在《星際爭霸2》中擊敗了人類職業選手,這是人工智能領域的第一次。在YouTube和Twitch上的一系列比賽中,AI玩家連續10次擊敗人類。在最后一場比賽中,職業選手格里戈爾茲·“曼娜”·科明茲為人類贏得了一場勝利。
DeepMind的研究聯席負責人戴維?西爾弗(David Silver)在賽后表示:“人工智能的歷史被打上了許多重大的標桿性勝利的印記?!薄拔蚁MM管顯然還有工作要做——未來的人們可能會回顧(今天),或許會認為這是人工智能系統所能做的又向前邁進了一步。”
在電子游戲方面打敗人類似乎是人工智能開發中的一個小插曲,但這是一個重大的研究挑戰。像星際爭霸2這樣的游戲比像國際象棋或圍棋這樣的棋盤游戲更難玩。在電子游戲中,人工智能代理無法通過觀察每一塊棋子的移動來計算下一步棋,它們必須實時做出反應。

這些因素似乎對DeepMind被稱為AlphaStar的人工智能系統并不構成多大障礙。首先,它打敗了職業球員達里奧·溫什(Dario“TLO”Wunsch),然后開始恢復法力。奧運會最初于去年12月在DeepMind的倫敦總部舉行,但今天與MaNa的最后一場比賽進行了直播,為人類提供了唯一的勝利。
職業星際爭霸評論員形容AlphaStar的表現是“非凡的”和“超人的”。在《星際爭霸2》中,玩家在建立基地、訓練軍隊和入侵敵人領土之前,會從同一地圖的不同側面開始。AlphaStar尤其擅長所謂的“微觀管理”,即在戰場上快速、果斷地控制部隊的能力。
盡管人類玩家有時能夠訓練出更強大的單位,AlphaZero還是能夠在近距離內智勝他們。在一場游戲中,AlphaStar用一個名為“跟蹤者”的快速移動單位獲得了大量法力。評論員凱文·“鹿特丹”·范德庫伊(Kevin“RotterdaM”van der Kooi)將其描述為“非凡的單位控制,只是我們不太常見”。曼娜在賽后說:“如果我和任何人比賽,他們都不會對跟蹤者這么好?!?/p>
這與我們在其他高級游戲AI中看到的行為相呼應。當OpenAI的經紀人去年在Dota 2與人類職業選手比賽時,他們最終被擊敗了。但專家們指出,這些特工再次以一種“清晰而精確”的方式進行表演,這是一種“催眠”。毫不奇怪,快速做出沒有任何錯誤的決定是機器的本分。
專家們已經開始仔細分析這些比賽,并就AlphaStar是否擁有任何不公平優勢展開辯論。這位人工智能特工在某些方面步履蹣跚。例如,它被限制在每分鐘執行比人類更多的點擊。但與人類玩家不同的是,它能夠一次查看整個地圖,而不是手動導航。
DeepMind的研究人員表示,這并沒有提供真正的優勢,因為該代理在任何時間只關注地圖的一個部分。但是,正如比賽所顯示的那樣,這并沒有阻止AlphaStar同時熟練地控制三個不同區域的單位——評論員們表示,這對人類來說是不可能的。值得注意的是,當MaNa在直播比賽中擊敗AlphaStar時,AI使用的是受限的攝像機視角。
另一個潛在的痛處是,人類運動員雖然是專業運動員,但卻不是世界冠軍的標準。TLO還必須玩星際爭霸2中他不熟悉的三個種族中的一個。

撇開這個討論不談,專家們說這場比賽是向前邁出的重要一步。Dave Churchill,一個長期參與星際爭霸AI場景的AI研究人員,告訴the Verge:“我認為代理的力量是一個重大的成就,至少比我在AI研究人員中聽到的最樂觀的猜測提前了一年?!?/p>
然而,邱吉爾補充說,由于DeepMind尚未發布任何關于這項工作的研究論文,因此很難說它是否顯示出任何技術上的飛躍。邱吉爾說:“我還沒有讀過這篇博客文章,也沒有接觸過相關的論文或技術細節。”
喬治亞理工學院(Georgia Tech)人工智能副教授馬克?里德爾(Mark Riedl)表示,他對結果不那么驚訝,這場勝利只是“時間問題”。里德爾補充說,他不認為這些游戲表明星際爭霸II已經被徹底打敗?!霸谏弦粓鲋辈サ谋荣愔?,把AlphaStar限制在窗口確實消除了它的一些人為優勢,”里德爾說?!暗覀兛吹降母蟮膯栴}是……”他說:“人工智能的問題在于,(人工智能學到的)政策是脆弱的,當一個人可以把它推出舒適區時,它就會崩潰。”
最終,這類工作的最終目標不是在視頻游戲上打敗人類,而是改進人工智能訓練方法,尤其是為了創建能夠在《星際爭霸》等復雜虛擬環境中運行的系統。
為了訓練AlphaStar, DeepMind的研究人員使用了一種被稱為強化學習的方法。經紀人基本上是通過反復嘗試來達到某些目標,比如贏球或者僅僅是活著。它們首先通過模仿人類玩家來學習,然后在類似競技場的比賽中相互比賽。最強的藥劑存活下來,最弱的被丟棄。DeepMind估計,它的AlphaStar代理每一個都以這種方式積累了大約200年的游戲時間,游戲速度也在加快。
DeepMind很清楚自己開展這項工作的目標。“首先,也是最重要的是,DeepMind的任務是建立一個人工通用智能系統,”AlphaStar項目的聯合負責人奧里爾·維尼亞斯(Oriol Vinyals)說。“要做到這一點,重要的是對我們的代理在各種任務上的表現進行基準測試?!?/p>
請登錄以參與評論
現在登錄