摘要:鑒于傳統深度估計方法在高分辨率圖像下存在特征提取不夠充分、圖像信息獲取不完整、受限于局部信息或特定類(lèi)型的特征提取等問(wèn)題,為此提出一種面向全局特征的Transformer立體匹配網(wǎng)絡(luò )。該網(wǎng)絡(luò )采用編碼器-解碼器的端到端架構,使用多頭注意力機制,允許模型在不同子空間中關(guān)注不同的特征,從而提高建模能力。模型將自注意力機制和特征重構窗口相結合,能夠提高特征的表征能力,彌補局部特征不足問(wèn)題,減少計算負擔的同時(shí)有效應對Transformer架構通常伴隨的高計算復雜度問(wèn)題,確保模型的注意力計算保持在線(xiàn)性復雜度范圍內。在Scene Flow、KITTI-2015數據集上分別進(jìn)行實(shí)驗,指標獲得顯著(zhù)提升,通過(guò)對比實(shí)驗驗證模型的有效性和正確性。