dota2很模糊(dota2畫面不清晰)

發(fā)布時間:2024-03-16
本文主要介紹dota2模糊(dota2圖片不清晰),下面一起看看dota2模糊(dota2圖片不清晰)相關(guān)資訊。
選自op《dota 2 with large scale deep reinforcement learning》。
人工智能的長期目標是解決現(xiàn)實世界中的難題。為了實現(xiàn)這一目標,近幾十年來,研究人員將游戲視為ai發(fā)展的基石。從雙陸棋(1992年)到象棋(1997年)再到雅達利游戲(2013年),2016年,alphago憑借深度強化學習和蒙特卡洛樹搜索擊敗了圍棋世界冠軍。近年來,強化學習(rl)也被應(yīng)用于更多類型的任務(wù),如機器人操作、文本摘要和視頻游戲,如《星際爭霸》和《minecraft》。
與國際象棋或圍棋等以往的人工智能里程碑相比,復雜的電子游戲比現(xiàn)實世界的問題更復雜和連續(xù)。dota 2是valv2.pdf.
openai表示,訓練過程還面臨另一個問題:游戲環(huán)境和代碼都在不斷升級和變化。為了避免每次改變后從頭開始訓練,他們開發(fā)了一套工具,可以以最低的性能損失繼續(xù)完成訓練——open ai稱之為 外科與健康。在超過10個月的訓練中,openai大約每兩周進行一次手術(shù)。這套工具可以讓openai不斷改進他們的代理,只需要很短的時間——比典型的從零開始的訓練方法要短得多。隨著ai系統(tǒng)解決的問題越來越大、越來越難,進一步研究變化的環(huán)境和迭發(fā)就顯得非常重要。
dota 2的難度是多少?
dota 2的比賽在一個正方形的地圖中進行,兩隊在對角線上保衛(wèi)自己的基地。每個團隊 s基地有一個古);遺跡;當一方的古遺跡被敵人摧毀,游戲結(jié)束。每個隊伍由5名玩家組成,每個玩家控制一個英雄單位,每個英雄都有自己獨特的技能;在比賽中,雙方不斷派出 蠕變與變形單位,但是這些小兵不受玩家控制。他們將沿著路徑到達敵人基地,并攻擊任何出現(xiàn)在他們攻擊范圍內(nèi)的敵人單位和建筑。玩家可以從蝙蝠俠那里收集金幣、經(jīng)驗等資源,然后通過購買物品、升級等提高英雄的戰(zhàn)斗力。為了玩dota 2,ai系統(tǒng)必須解決許多問題:
漫長的游戲。dota 2游戲通常以每秒30幀的速度持續(xù)45分鐘左右。openai five每4幀選擇一個動作,所以每局需要執(zhí)行2萬步左右。相比之下,國際象棋一般是80步,圍棋是150步。部分可見的狀態(tài)。每個隊伍只能看到自己單位和建筑附近的部分游戲狀態(tài);地圖的其余部分被隱藏。如果你想玩得好,你需要推斷和模擬敵人。;的行為基于不完整的數(shù)據(jù)。高維的行動和觀察空間。dota 2有一個大地圖,里面有10個英雄,幾十個建筑,幾十個非玩家單位,還有符咒,樹,偵察守衛(wèi)(眼睛)等長尾游戲特色。openai five每個時間步觀察大約16,000個值(大部分是浮點數(shù)和具有數(shù)百種可能性的類別值)。同時,openai將動作空間離散化;它的模型在每個時間步從8,000到80,000不等(具體數(shù)字取決于英雄)。行動選擇一個。相比之下,國際象棋每次觀察需要1000個左右的值(這些值大部分是有六種可能的類別值),圍棋需要6000個左右的值(都是二進制值)。圍棋的分支因子約為35個可行棋步,圍棋的分支因子約為250。
另外需要注意的是,openai five在正常模式下玩游戲有兩個限制:
英雄池只有17個英雄——常規(guī)游戲中,玩家在游戲開始前從117個英雄中選擇一個,而openai five目前只支持其中的17個;不支持允許玩家同時暫時控制多個單位的物品(幻影符文、支配頭盔、幻影斧、死靈法師書)。openai刪除了這些項目,因為控制多個單元會引入額外的技術(shù)復雜性。訓練系統(tǒng)
讓ai打dota
為了轉(zhuǎn)化 以超人的水平玩這個復雜的游戲轉(zhuǎn)化為可以優(yōu)化的詳細目標,openai提出了以下框架。
雖然dota 2引擎的運行頻率是每秒30幀,但是openai five每4幀就要做一個動作(稱為一個時間步長)。在每一個時間步,openai five都會接收到一個來自游戲引擎的觀察,這個引擎會對作為人類玩家可以看到的所有信息進行編碼,比如單位血量,位置等等。然后,openai five向游戲引擎返回一個離散動作,該動作編碼了一個需要的動作、攻擊等。
當然,有些游戲機制是通過人工編寫的邏輯來控制,而不是使用策略。其中包括:英雄購買物品,獲得技能的指令,唯一單位的控制,英雄要保管物品。openai表示,他們認為用ai的方法代替人工編寫規(guī)則,最終可以讓代理達到更好的性能,但即便如此,現(xiàn)有的代理已經(jīng)達到了超人的性能。
在訓練期間,環(huán)境中的一些屬性已經(jīng)被隨機化,包括游戲中的英雄和英雄購買的物品。因為和人類對手戰(zhàn)斗時會有不同的策略和情況,為了保證穩(wěn)定,需要進行多樣化的訓練。
openai將策略π定義為從觀察歷史映射到動作概率分布的函數(shù),并將其參數(shù)化為約1.59億個參數(shù)(θ)的循環(huán)神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)主要由4096個單元的單層lstm組成(見圖1)。給定一個策略,openai通過在每個時間步重復傳遞當前觀察作為輸入來玩游戲,然后從輸出的分布中采樣一個動作。
圖1:簡化的openai五模型架構(gòu)
為了控制一個團隊的五個英雄,opena我為每個英雄使用了相同策略函數(shù)的不同副本(參數(shù)θ相同)。因為dota 2中的可見信息和戰(zhàn)爭迷霧(迷霧中友軍單位附近區(qū)域可見)是全隊共享的,所以每個英雄的觀察幾乎都是一樣的。
然而,openai five并不直接使用屏幕上的像素信息,而是使用一個數(shù)據(jù)數(shù)組集來近似人類玩家可用的信息。這樣的近似是不完美的;人類玩家可以獲得的許多信息并沒有在觀察中編碼。另一方面,雖然openai已經(jīng)盡力保證模型獲得的所有信息都是人類可獲得的所有信息,但人類不可能在每個時間步同時讀取所有可獲得的信息——人類必須主動點擊地圖和狀態(tài)指示器的不同部分。
優(yōu)化策略
openai的目標是找到一種能夠最大化戰(zhàn)勝人類職業(yè)選手概率的策略。在實踐中,研究人員已經(jīng)將獎勵函數(shù)最大化,其中還包含了一些其他信號,比如人物的死亡和資源的收集。此外,在計算獎勵函數(shù)時,他們還應(yīng)用了各種技術(shù)來利用問題的零和多層結(jié)構(gòu)。比如減去敵方隊伍獲得的獎勵,代理人的獎勵就對稱化了。openai團隊在項目之初就構(gòu)建了這個獎勵功能,因為團隊對游戲有一定的了解。雖然這個獎勵功能隨著游戲版本的更新有了一點變化,但是他們發(fā)現(xiàn)最初的獎勵選擇效果一直很好。后面加上的獎勵信號對訓練的成功也很重要。
對于策略的訓練,使用近端策略優(yōu)化(ppo ),這是優(yōu)勢行動者批評的變體。這種優(yōu)化算法使用一般優(yōu)勢估計(gae),一種標準的基于優(yōu)勢的方差減少技術(shù),它可以穩(wěn)定和加速訓練。openai使用集中和共享的lstm模塊來訓練網(wǎng)絡(luò)。該模塊將向不同的全連接層提供輸入,從而獲得策略和價值函數(shù)的輸出。
圖2:系統(tǒng)概述:培訓系統(tǒng)由四種主要類型的機器組成。
openai利用從dota 2收集的自plaer經(jīng)驗訓練策略;具有截斷反向傳播的adam優(yōu)化器用于16個時間步長的樣本。
該系統(tǒng)使用 首次展示 來運行自我游戲。他們以近1/2的實時運行這些游戲,因為openai團隊發(fā)現(xiàn),在這個速度下,他們可以并行運行略多于兩倍的游戲,從而提高了總吞吐量。
首次展示 可以在正在進行的游戲中異步發(fā)送數(shù)據(jù),而不是等待整個游戲。游戲結(jié)束后發(fā)送數(shù)據(jù)進行優(yōu)化。
整個系統(tǒng)運行在基于google 的云平臺。為了執(zhí)行快速gpu訓練,研究人員還使用了blockspars《星際爭霸 2》代理研究《grandmaster level in starcraft ii using multiagent reinforcement learning》和《solving rubik's cube with a robot hand》的開放式機器人研究。
人類評估
訓練期間,openai five為了跟蹤記錄研究進展,與眾多業(yè)余選手、職業(yè)選手、職業(yè)隊伍進行了比賽。
4月13日,openai five與dota 2現(xiàn)任世界冠軍og戰(zhàn)隊進行了一場高水平的比賽,取得了三局兩勝(20)的好成績,這說明openai five確實可以學到最高水平的操作技術(shù)。
然而,機器學習系統(tǒng)通??梢?i don’我不能很好地應(yīng)付意外情況。雖然在表演賽中擊敗世界冠軍確實可以說明openai five很優(yōu)秀,但并不能證明它能廣泛理解人類社會可能面臨的各種問題。為了探索openai five能否穩(wěn)定用于創(chuàng)意或分布式玩法,openai推出了openai five arena,于2019年4月1821日期間向公眾開放在線挑戰(zhàn)。openai five和3193支隊伍打了7257場比賽,勝率99.4%。29支隊伍在總共42場比賽中擊敗了openai five。
雖然人工評估是最終目的,但是在訓練過程中自動評估代理也是必要的。openai 的方法是用trueskill評分系統(tǒng)作為指標來比較一些固定的參考。圖3顯示了openai five 隨時間推移的真實技能得分。
圖openaifive s訓練時的trueskill分數(shù)。
驗證 amp的效果運營與管理通過重新運行
為了驗證新提議的 外科與健康方法,openai在2019年5月18日到2019年6月12日訓練了另一個agent,但是只用了最終的環(huán)境,模型架構(gòu)等等。openai把這個訓練過程叫做重新運行,沒有經(jīng)歷游戲規(guī)則的波折,神經(jīng)網(wǎng)絡(luò)參數(shù)的修改,超參數(shù)的在線實驗等等。
重新運行完成兩個月 訓練150±5 pflops/s天(見圖4)。這個時間跨度明顯比 外科與健康(12周一次)。簡單對比一下,如果你在20個大手術(shù)的每一個手術(shù)后都從頭開始訓練,那么這個項目需要40個月,而不是10個月(實際上,你傾向于做更少的改變)。手術(shù)的另一個好處是總有優(yōu)秀的特工來評估。這可以顯著縮短實驗變化的迭代周期。對于openai five(探索新任務(wù),構(gòu)建新環(huán)境)的目標,持續(xù)訓練優(yōu)勢顯著。
圖4:4的訓練過程:openai five和重新運行
當然,在一個環(huán)境是預先構(gòu)建的并且從一開始就很好理解的環(huán)境中,對 外科與健康會很小。重新運行只消耗20%的開放人工智能五 s資源:如果能提前獲得最終的訓練環(huán)境,就不需要在不同的游戲版本上開始訓練。
rerun最終性能優(yōu)于openai five,對抗openai five最終版本的勝率超過98%。openai團隊的想法是驗證最終代碼和超級參數(shù)能否重現(xiàn)openai five的性能,所以停止了訓練。他們認為,重新運行可以實現(xiàn)進一步的提升,不僅包括可以繼續(xù)提升的性能,還包括學習率、視野等尚未定型的超級參數(shù)。
運營與管理process允許openai每周成功修改環(huán)境。但是openai five的最終水平還是低于從零開始訓練的模型。學習如何長時間訓練而不影響最終成績,是未來潛在的研究方向。
最后,雖然 運營與管理目前設(shè)想的還很不完善,通過正確的工具,這種方法可以將特定的變化集成到長期運行的實驗中,而無需重新啟動的培訓。
了解更多dota2模糊(dota2圖片不清晰)相關(guān)內(nèi)容請關(guān)注本站點。
上一個:baumer編碼器(歐洲瑞士原裝正品確保您工業(yè)設(shè)備的穩(wěn)定運行)
下一個:婚禮開場視頻制作寫什么文案好聽

開除員工有賠償金嗎
二手蘋果電腦值得入手嗎(2手蘋果電腦值得買嗎)
SATA電源線,sata電源線4根和五根的區(qū)別
色環(huán)穩(wěn)壓二極管穩(wěn)壓值的判斷方法
電信云服務(wù)器租用安全
手寫輸入法怎么設(shè)置,手寫輸入法在哪里設(shè)置
關(guān)于怎樣設(shè)置電腦桌面圖標大小的信息通知(如果設(shè)置電腦桌面上圖標的大小)
科學的選茶
1千左右的筆記本電腦,一千多塊有什么筆記本電腦好用
DN250污水流量計價格
十八禁 网站在线观看免费视频_2020av天堂网_一 级 黄 色 片免费网站_绝顶高潮合集Videos