摘要:深度強化學(xué)習(Deep Reinforcement Learning, DRL)是機器學(xué)習領(lǐng)域的一個(gè)重要分支,用于解決各種序貫決策問(wèn)題,在自動(dòng)駕駛、工業(yè)物聯(lián)網(wǎng)等領(lǐng)域具有廣泛的應用前景。由于DRL具備計算密集型的特點(diǎn),導致其難以在計算資源受限且功耗要求苛刻的嵌入式平臺上進(jìn)行部署。針對DRL在嵌入式平臺上部署的局限性,采用軟硬件協(xié)同設計的方法,設計了一種面向DRL的FPGA加速器,提出了一種設計空間探索方法,在ZYNQ7100異構計算平臺上完成了對Cartpole應用的在線(xiàn)決策任務(wù)。實(shí)驗結果表明,研究在進(jìn)行典型DRL算法訓練時(shí)的計算速度和運行功耗相對于CPU和GPU平臺具有明顯的優(yōu)勢,相比于CPU實(shí)現了12.03的加速比,相比于GPU實(shí)現了28.08的加速比,運行功耗僅有7.748W,滿(mǎn)足了深度強化學(xué)習在嵌入式領(lǐng)域的在線(xiàn)決策任務(wù)。