摘要:針對現有雙足機器人智能控制算法存在的軌跡偏差大、效率低等問(wèn)題,提出了一種基于D-DQN強化學(xué)習的控制算法。先分析雙足機器人運動(dòng)中的坐標變換關(guān)系和關(guān)節連桿補償過(guò)程,然后基于Q值網(wǎng)絡(luò )實(shí)現對復雜運動(dòng)非線(xiàn)性過(guò)程降維處理,采用了Q值網(wǎng)絡(luò )權值和輔助權值的雙網(wǎng)絡(luò )權值設計方式,進(jìn)一步強化DQN網(wǎng)絡(luò )性能,并以Tanh函數作為神經(jīng)網(wǎng)絡(luò )的激活函數,提升DQN網(wǎng)絡(luò )的數值訓練能力。在數據訓練和交互中經(jīng)驗回放池發(fā)揮出關(guān)鍵的輔助作用,通過(guò)將獎勵值輸入到目標函數中,進(jìn)一步提升對雙足機器人的控制精度,最后通過(guò)虛擬約束控制的方式提高雙足機器人運動(dòng)中的穩定性。實(shí)驗結果顯示:在D-DQN強化學(xué)習的控制算法,機器人完成第一階段測試的時(shí)間僅為115s,綜合軌跡偏差0.02m,而且步態(tài)切換極限環(huán)測試的穩定性良好。