久热精品在线视频,思思96精品国产,午夜国产人人精品一区,亚洲成在线a

<s id="x4lik"><u id="x4lik"></u></s>

      <strong id="x4lik"><u id="x4lik"></u></strong>

      深度Q學(xué)習(xí)的二次主動(dòng)采樣方法

      趙英男; 劉鵬; 趙巍; 唐降龍 哈爾濱工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院模式識(shí)別與智能系統(tǒng)研究中心; 哈爾濱150001

      關(guān)鍵詞:優(yōu)先經(jīng)驗(yàn)回放 深度q網(wǎng)絡(luò) 累積回報(bào) 

      摘要:實(shí)現(xiàn)深度Q學(xué)習(xí)的一種方式是深度Q網(wǎng)絡(luò)(Deep Q-networks,DQN).經(jīng)驗(yàn)回放方法利用經(jīng)驗(yàn)池中的樣本訓(xùn)練深度Q網(wǎng)絡(luò),構(gòu)造經(jīng)驗(yàn)池需要智能體與環(huán)境進(jìn)行大量交互,這樣會(huì)增加成本和風(fēng)險(xiǎn).一種減少智能體與環(huán)境交互次數(shù)的有效方式是高效利用樣本.樣本所在序列的累積回報(bào)對(duì)深度Q網(wǎng)絡(luò)訓(xùn)練有影響.累積回報(bào)大的序列中的樣本相對(duì)于累積回報(bào)小的序列中的樣本更能加速深度Q網(wǎng)絡(luò)的收斂速度,并提升策略的質(zhì)量.本文提出深度Q學(xué)習(xí)的二次主動(dòng)采樣方法.首先,根據(jù)序列累積回報(bào)的分布構(gòu)造優(yōu)先級(jí)對(duì)經(jīng)驗(yàn)池中的序列進(jìn)行采樣.然后,在已采樣的序列中根據(jù)樣本的TD-error(Temporal-difference error)分布構(gòu)造優(yōu)先級(jí)對(duì)樣本采樣.隨后用兩次采樣得到的樣本訓(xùn)練深度Q網(wǎng)絡(luò).該方法從序列累積回報(bào)和TD-error兩個(gè)方面選擇樣本,以達(dá)到加速深度Q網(wǎng)絡(luò)收斂,提升策略質(zhì)量的目的.在Atari平臺(tái)上進(jìn)行了驗(yàn)證.實(shí)驗(yàn)結(jié)果表明,用經(jīng)過二次主動(dòng)采樣得到的樣本訓(xùn)練深度Q網(wǎng)絡(luò)取得了良好的效果.

      自動(dòng)化學(xué)報(bào)雜志要求:

      {1}關(guān)鍵詞選擇貼近文義的規(guī)范性單詞或組合詞(3—5個(gè))。

      {2}來稿應(yīng)標(biāo)明第一作者的工作單位、通信地址、電話等。

      {3}文稿題目及各級(jí)標(biāo)題要求簡短醒目,各級(jí)標(biāo)題采用阿拉伯?dāng)?shù)字分級(jí)編號(hào),即按照1;1.1;1.1.1……統(tǒng)一編號(hào)。

      {4}參考文獻(xiàn)應(yīng)引用所有公開發(fā)表的,并與本文有關(guān)的,近年主要中外文獻(xiàn)(以本學(xué)科或相關(guān)學(xué)科期刊為主)。

      {5}多位作者的署名之間用空格隔開。英文摘要中,作者姓名的中文拼音,姓前名后,中間為空格,姓氏的全部字母均大寫,名字的首字母大寫。


      注:因版權(quán)方要求,不能公開全文,如需全文,請(qǐng)咨詢雜志社

      自動(dòng)化學(xué)報(bào)

      北大期刊
      預(yù)計(jì)1-3個(gè)月審稿

      期刊主頁
      相關(guān)期刊
      我們的服務(wù)