摘要:針對現有深度強化學(xué)習算法在狀態(tài)空間維度大的環(huán)境中難以收斂的問(wèn)題,提出了在時(shí)間維度上提取特征的基于一維卷積循環(huán)網(wǎng)絡(luò )的強化學(xué)習算法;首先在深度Q網(wǎng)絡(luò )(deep Q network, DQN)的基礎上構建一個(gè)深度強化學(xué)習系統;然后在深度循環(huán)Q網(wǎng)絡(luò )(deep recurrent Q network, DRQN)的神經(jīng)網(wǎng)絡(luò )結構基礎上加入了一層一維卷積層,用于在長(cháng)短時(shí)記憶(long short-term memory, LSTM)層之前提取時(shí)間維度上的特征;最后在與時(shí)序相關(guān)的環(huán)境下對該新型強化學(xué)習算法進(jìn)行訓練和測試;實(shí)驗結果表明這一改動(dòng)可以提高智能體的決策水平,并使得深度強化學(xué)習算法在非圖像輸入的時(shí)序相關(guān)環(huán)境中有更好的表現。