摘要:針對將各種卷積神經(jīng)網(wǎng)絡(luò )(CNN)模型部署在不同硬件端來(lái)實(shí)現算法加速時(shí)所遇到的耗費時(shí)間,工作量大等問(wèn)題,采用Tengine工具鏈這一新興的深度學(xué)習編譯器技術(shù)來(lái)設計通用深度學(xué)習加速器,來(lái)將卷積神經(jīng)網(wǎng)絡(luò )模型與硬件后端高效快速對接;深度學(xué)習加速器的平臺采用ZYNQ系列的ZCU104開(kāi)發(fā)板,采用軟硬件協(xié)同設計的思想,將開(kāi)源的英偉達深度學(xué)習加速器(NVDLA)映射到可編程邏輯門(mén)陣列(FPGA)上,與ARM處理器構成SoC系統;NVDLA整體架構規范,包含軟硬件設計,采用Tengine工具鏈代替原來(lái)官方的編譯工具鏈;之后在搭建好的NVDLA平臺上實(shí)現lenet-5和resnet-18的網(wǎng)絡(luò )加速,完成了mnist和cifar-10的數據集圖像分類(lèi)任務(wù);實(shí)驗結果表明,采用Tengine工具鏈要比NVDLA官方的編譯工具鏈推理速度快2.5倍,并且量化工具使用方便,網(wǎng)絡(luò )模型部署高效。