基于一維卷積循環(huán)神經(jīng)網(wǎng)絡(luò )的深度強化學(xué)習算法

首頁(yè) > 過(guò)刊瀏覽>2022年第30卷第1期 >258-265

基于一維卷積循環(huán)神經(jīng)網(wǎng)絡(luò )的深度強化學(xué)習算法
DOI:
                        
                    
CSTR:
                        [cstr]
                    
作者:
                        
                        
                    
作者單位:1.中國電子科技集團公司第五十四研究所;2.河北省電磁頻譜認知與管控重點(diǎn)實(shí)驗室
作者簡(jiǎn)介:
通訊作者:
中圖分類(lèi)號:
基金項目:中國博士后科學(xué)基金

Reinforcement Learning Algorithm Based on One-dimensional Convolutional Recurrent Network

Author:

Affiliation:

Fund Project:

摘要

圖/表

訪(fǎng)問(wèn)統計

參考文獻

相似文獻

引證文獻

資源附件

文章評論

摘要:

針對現有深度強化學(xué)習算法在狀態(tài)空間維度大的環(huán)境中難以收斂的問(wèn)題,提出了在時(shí)間維度上提取特征的基于一維卷積循環(huán)網(wǎng)絡(luò )的強化學(xué)習算法；首先在深度Q網(wǎng)絡(luò )(deep Q network, DQN)的基礎上構建一個(gè)深度強化學(xué)習系統；然后在深度循環(huán)Q網(wǎng)絡(luò )(deep recurrent Q network, DRQN)的神經(jīng)網(wǎng)絡(luò )結構基礎上加入了一層一維卷積層,用于在長(cháng)短時(shí)記憶(long short-term memory, LSTM)層之前提取時(shí)間維度上的特征；最后在與時(shí)序相關(guān)的環(huán)境下對該新型強化學(xué)習算法進(jìn)行訓練和測試；實(shí)驗結果表明這一改動(dòng)可以提高智能體的決策水平,并使得深度強化學(xué)習算法在非圖像輸入的時(shí)序相關(guān)環(huán)境中有更好的表現。

Abstract:

Existing deep reinforcement learning algorithms have difficulty converging in environments with large state space dimensions. So a reinforcement learning algorithm based on one-dimensional convolutional recurrent networks that extracts features in the time dimension is proposed. Firstly, a deep reinforcement learning system based on DQN is built. Then a one-dimensional convolutional layer is added into the neural network architecture of DRQN for extracting the features in the time dimension before the LSTM layer. Finally, the new reinforcement learning algorithm is trained and tested in a timing-related environment. The experimental results show that this change can improve the decision-making level of the agent, making deep reinforcement learning algorithms have better performance in non-image input and timing-related environment

參考文獻

相似文獻

引證文獻

引用本文

暢鑫,李艷斌,田淼,陳蘇逸,杜宇峰,趙研.基于一維卷積循環(huán)神經(jīng)網(wǎng)絡(luò )的深度強化學(xué)習算法計算機測量與控制[J].,2022,30(1):258-265.

復制

文章指標

點(diǎn)擊次數:
下載次數:
HTML閱讀次數:
引用次數:

歷史

收稿日期:2021-10-09
最后修改日期:2021-11-15
錄用日期:2021-11-15
在線(xiàn)發(fā)布日期: 2022-01-24
出版日期:

国产欧美精品一区二区,中文字幕专区在线亚洲,国产精品美女网站在线观看,艾秋果冻传媒2021精品,在线免费一区二区,久久久久久青草大香综合精品,日韩美aaa特级毛片,欧美成人精品午夜免费影视

引用本文

分享

文章指標

歷史

文章二維碼