首頁 遊戲資訊 經過7萬小時訓練,Open...

經過7萬小時訓練,OpenAI宣佈做出了最強的《我的世界》AI


視頻是種潛力巨大的培訓資源。

Open AI最近公佈了一項他們在人工智慧領域的最新成果——最擅長玩《我的世界》的AI。

厲害到什麼程度?無論是建造地堡、金字塔這些復雜的建築,跟遊戲里的惡龍戰鬥,亦或是「白手起家」,製造出稀有的鑽石工具都不在話下,這些任務即使是交給熟練的人類玩家來做,往往也需要數十分鍾的流程以及上萬個點擊操作。

AI學會自己建造傳送門:

而該AI在經過訓練後,則可以在沒有任何外力輔助的情況下自主完成這一系列事件,這是此前其他AI都無法做到的。根據Open AI的介紹,能夠實現這一成果,依靠的是在模仿學習(imitation learning)技術上的新突破。

在這項技術中,AI會被訓練成通過觀察並模仿人類的行為來完成相應的任務,此前很多效果都運用到了類似的原理,比如控制機械手臂或者駕駛汽車。

既然AI需要觀察模仿,那麼就勢必需要一定量的素材,而單就「熟練操作《我的世界》」而言,各大視頻網站上的學習素材其實已經非常多,完全能夠滿足AI的學習需要。

經過7萬小時訓練,OpenAI宣佈做出了最強的《我的世界》AI

但問題是,還需要另一項額外的工作,即「讓AI准確理解視頻里的內容」。

《我的世界》是一款沒有明確目標的遊戲,雖然網上素材繁多,可並不能直接拿來當作學習資料,因為視頻里的每個動作和操作,其實都需要人類為其貼上「標簽」,也就是做出相應的注釋,才能AI明白操作的含義。

如果每個動作都需要人工注釋,那效率自然會降低,為瞭解決這個問題,研究人員想出了一項新方法——訓練能夠自動為視頻操作貼標簽的AI。

他們先是召集了一批志願者玩家來操作遊戲,並保留了玩家們的按鍵記錄,在得到2000個小時的遊戲數據後,研究人員訓練了一個新的模型,並人工將按鍵操作與遊戲里的效果一一對應,比如在什麼情況下點擊滑鼠會讓人物揮動斧頭。

下一步便是用這個模型來處理網上海量的《我的世界》視頻,為他們貼上讓AI能夠理解的標簽。根據公佈的數據,為了得到理想的效果,科研人員提供的視頻素材長達70000個小時。

而這確實也獲得了一定的成果,比如像開頭說的那樣,AI已經學會了如何自己製作鑽石工具。而Open AI的負責人Bowen Baker表示:「我們覺得《我的世界》是一個很好的研究領域。」

由於《我的世界》沒有明確的輸贏且自由度極高,所以研究人員可以訓練AI執行更多復雜的任務,而他們認為這些工作最終可以反哺到現實——如果AI能在遊戲里設計一張桌子,那麼在現實里沒准也行。

來源:遊研社