摘要:監控視頻系統是一種重要的技術(shù)手段,用于從龐大而復雜的監控視頻中提取關(guān)鍵信息,為安全管理和事件分析提供有效支持。隨著(zhù)監控設備的普及和監控視頻數據的快速增長(cháng),傳統的手動(dòng)方法已經(jīng)無(wú)法滿(mǎn)足快速處理和準確提取所需信息的需求,現代的深度學(xué)習方法普遍存在計算復雜度高,參數多的問(wèn)題。針對這一問(wèn)題,提出了一種基于動(dòng)態(tài)Transformer的監控視頻模型。自動(dòng)為每個(gè)輸入視頻幀配置適當數量的token,通過(guò)級聯(lián)多個(gè)Transformer模型,并逐漸增加生成的token數量,以實(shí)現自適應的激活順序;一旦產(chǎn)生足夠置信的預測,推理過(guò)程就會(huì )終止,并采用了特征重用和注意力重用技術(shù)以減少冗余計算;該模型在降低計算復雜度方面取得了顯著(zhù)進(jìn)展,經(jīng)實(shí)驗測試,相較于傳統模型,該動(dòng)態(tài)Transformer模型在準確率上有所提升,在這兩個(gè)公開(kāi)數據集上分數指標分別提高了3.7%和0.9%,同時(shí)計算復雜度降低了40%,可以滿(mǎn)足精度要求和監控要求,證明模型具有良好的泛化性。