深度Q學(xué)習(xí)的二次主動采樣方法-2019年第10期-自動化學(xué)報-好發(fā)表

期刊在線咨詢服務(wù)，立即咨詢

400-838-9662 登錄/注冊購物車(0)

投稿策略

期刊推薦

雜志分類

首頁學(xué)術(shù)雜志科普訂閱 SCI期刊投稿經(jīng)驗文秘服務(wù) 論著出書出版社

首頁 > 期刊 > 自動化學(xué)報 > 深度Q學(xué)習(xí)的二次主動采樣方法【正文】

深度Q學(xué)習(xí)的二次主動采樣方法

趙英男; 劉鵬; 趙巍; 唐降龍哈爾濱工業(yè)大學(xué)計算機科學(xué)與技術(shù)學(xué)院模式識別與智能系統(tǒng)研究中心; 哈爾濱150001

關(guān)鍵詞：優(yōu)先經(jīng)驗回放深度q網(wǎng)絡(luò) 累積回報

摘要：實現(xiàn)深度Q學(xué)習(xí)的一種方式是深度Q網(wǎng)絡(luò)(Deep Q-networks,DQN).經(jīng)驗回放方法利用經(jīng)驗池中的樣本訓(xùn)練深度Q網(wǎng)絡(luò),構(gòu)造經(jīng)驗池需要智能體與環(huán)境進行大量交互,這樣會增加成本和風(fēng)險.一種減少智能體與環(huán)境交互次數(shù)的有效方式是高效利用樣本.樣本所在序列的累積回報對深度Q網(wǎng)絡(luò)訓(xùn)練有影響.累積回報大的序列中的樣本相對于累積回報小的序列中的樣本更能加速深度Q網(wǎng)絡(luò)的收斂速度,并提升策略的質(zhì)量.本文提出深度Q學(xué)習(xí)的二次主動采樣方法.首先,根據(jù)序列累積回報的分布構(gòu)造優(yōu)先級對經(jīng)驗池中的序列進行采樣.然后,在已采樣的序列中根據(jù)樣本的TD-error(Temporal-difference error)分布構(gòu)造優(yōu)先級對樣本采樣.隨后用兩次采樣得到的樣本訓(xùn)練深度Q網(wǎng)絡(luò).該方法從序列累積回報和TD-error兩個方面選擇樣本,以達到加速深度Q網(wǎng)絡(luò)收斂,提升策略質(zhì)量的目的.在Atari平臺上進行了驗證.實驗結(jié)果表明,用經(jīng)過二次主動采樣得到的樣本訓(xùn)練深度Q網(wǎng)絡(luò)取得了良好的效果.

自動化學(xué)報雜志要求:

{1}關(guān)鍵詞選擇貼近文義的規(guī)范性單詞或組合詞（3—5個）。

{2}來稿應(yīng)標(biāo)明第一作者的工作單位、通信地址、電話等。

{3}文稿題目及各級標(biāo)題要求簡短醒目,各級標(biāo)題采用阿拉伯?dāng)?shù)字分級編號，即按照1；1.1；1.1.1……統(tǒng)一編號。

{4}參考文獻應(yīng)引用所有公開發(fā)表的，并與本文有關(guān)的，近年主要中外文獻（以本學(xué)科或相關(guān)學(xué)科期刊為主）。

{5}多位作者的署名之間用空格隔開。英文摘要中，作者姓名的中文拼音，姓前名后，中間為空格，姓氏的全部字母均大寫，名字的首字母大寫。

注：因版權(quán)方要求，不能公開全文，如需全文，請咨詢雜志社

投稿咨詢免費咨詢