<menu id="6c4oc"><tt id="6c4oc"></tt></menu>
  • 新聞中心

    EEPW首頁 > 智能計算 > 設計應用 > 基于圖結構的圖像注意力網絡

    基于圖結構的圖像注意力網絡

    作者:曾金芳,封琳瑯,李婕妤,閆李丹(湘潭大學物理與光電工程學院,湖南湘潭 411105)時間:2022-07-26來源:電子產品世界收藏

    摘要:雖然現已有許多關于圖像的研究,但是現有的方法往往忽視了特征圖的全局空間結構和空間注意力與通道注意力的聯系。所以本文提出了一種基于整個空間拓撲結構的注意機制,將特征圖映射成結點與特征的形式,再借助圖卷積網絡的特性,得以從整個空間學習特征權重圖。其次空間注意力與通道注意力一體化結構能夠更有效地學習特征權重。通過多個實驗測試表明,在任務中,展現了優異的性能和普遍適用性。

    本文引用地址:http://www.me-unplugged.com/article/202207/436663.htm

    關鍵詞;;;

    隨著計算機性能的提升,卷積神經網絡 (convolu tional neural network, CNN) 廣泛地運用于圖像領域。經過多年的研究,基于卷積神經網絡的網絡架構取得了重大的成功。HE 等提出了殘差網絡,可以跳層連接的殘差單元有效地解決梯度消失與梯度爆炸問題,使得網絡的深度成倍增長,進而圖像逐漸受到關 注。WANG 等使用編碼器 - 解碼器的結構對殘差網絡進行了注意力機制的改造得到殘差注意力網絡 (residual attention network, RAN)。HU 等使用通道注意和通道特征融合來抑制不重要通道的方式構建了縮聚激發網絡 (squeeze-and-excitation networks, SENet)。PARK 等構建了瓶頸注意模塊 (bottleneck attention module, BAM),該模塊依次使用通道注意力網絡和空間注意力網絡推理注意力圖。FUKUI 等構建了復雜的注意力分支結構網絡 (attention branch network, ABN), 引入具有注意力機制的分支結構來擴展基于響應的視覺解釋模型。MISRA 等考慮了通道 - 空間相互作用,基于三個維度兩兩相關性構建注意力網絡 TAM (triplet attention module)。

    雖然現已提出的許多注意都從通道注意力和空間注意力兩方面來設計模型,但是其空間結構的尺度取決于卷積核的大小,而且沒有從圖像整體出發分析空間特性并忽視了通道與空間的關聯性。在研究中發現,圖卷積網絡 (graph convolution network, GCN) 能夠充分地使用這些特性學習特征圖。因此本文基于圖卷積網絡提出了圖結構注意力網絡 (graph structure attention network, GSAN),該模型既考慮了通道與空間的關聯性也考慮了圖像整個拓撲結構。

    1 圖結構注意力網絡

    在已有的研究表明,圖卷積網絡本身充分考慮了通道的影響并且在解決非歐幾里得數據展現了強大的性能。我們利用這些特性設計了一個通道注意力與空間注意力一體化的注意力網絡模型,而不用像其他注意力網絡模型一樣分別設計通道注意力分支和空間注意力分支。在模型中我們設計了一套由圖像到圖的數據映射關系,使得輸入特征與圖卷積網絡的輸入相匹配,并以圖 卷積網絡為基礎構建了圖結構注意力網絡。在研究中表明,本文所設計注意力模型分類性能與卷積層數有關,所以本文設計的卷積層數可調的注意力網絡,以下內容均以兩層卷積層的網絡為例說明。

    1658827828819489.png

    image.png

    2 圖與圖卷積網絡

    1658827895142107.png

    卷積網絡的卷積,本質上利用濾波器對矩陣空間的某個區域內的像素點進行加權求和,進而求得新的特征表示的過程。許多沒有明確規律的非歐幾里得數據并不適用于卷積網絡,而圖卷積的誕生者很好的解決這一問題。在已往的研究中,圖卷積網絡在具有拓撲結構的數據上表現出了強大的分類性能,其依賴不變的鄰接矩陣對輸入的結點特征學習,如圖 3 所示。

    1658827992781868.png

    圖3 圖卷積網絡

    本文所搭建的圖結構注意力網絡使用的圖卷積網絡模型如式 (1) 和式 (2) 所示。

    1658828045589819.png

     3 圖結構注意力網絡算法

    image.png

    圖4 圖結構注意力網絡模型

    圖結構注意力網絡如圖 4 所示,該注意力網絡流程主要分成以下幾個。

    步驟 1:對上一層網絡得到的輸出特征圖進行正則化 (Norm) 處理,并利用平均池化 (AvgPool) 操作將三個維度(C×H×W)的特征圖壓縮成兩個維度(C×H)。

    步驟 2:對步驟 1 得到的向量組重新排列,得到特征矩陣。此外,對平均池化后得到的向量建立一維的歐式空間,計算兩點之間的歐氏距離,將其倒數作為結點之間連接的緊密程度,我們將其稱為弱連接,如等式 3 和等式 4 所示。經過弱連接的映射后,將歐氏空間數據結構映射成了滿足圖卷積輸入的拓撲結構數據。最后經過正則化后,得到概率描述的邊,進而得到鄰接矩陣。

    1658828237193916.png

    步驟 3:將特征矩陣與正則化后的鄰接矩陣輸入多層的圖卷積網絡 (GCN),并設定一個減少系數 r,該系數為在中間層中減少通道數的系數。最后經過激活函數并恢復維度對原特征圖進行加權求解得到重新分配權重后的特征圖。

    4 實驗結果與分析

    4.1 實驗平臺

    實驗環境為 Ubuntu18.04 操作系統,AMD3600x 處 理器,RTX2070SUPER 顯卡,Pytorch 框架。本文所有實驗均使用上述平臺。

    4.1.1 實驗

    在該實驗中我們在 CIFARr100 數據集對模型進行 Rank-1 準確度評估。我們在不同網絡模型上測試了 SENet、BAM、TAM 性能。分別設置了一項基準測試實驗和一項消融實驗。

    CIFAR100 數據集:該數據集有 100 個類。每個類 有 600 張大小為 32×32 的彩色圖像,在模型訓練過程中將其中 500 張作為訓練集,100 張作為測試集。對于每一張圖像,它有兩個標簽分別代表圖像的細粒度和粗粒度標簽。

    參數設置:使用 SGD 優化器(lr = 0.1,momentum = 0.9,weight_decay = 5e-4)和 Cross Entropy Loss 損失函數。學習率調整策略為迭代 200 次并在 60、120, 160 次迭代調整學習率為原來的 0.1 倍。為了確定圖卷積的層數對 GSAN 的影響,我們設計了一組不同層數的對比實驗。如表 1 所示,較低復雜度的 GSAN 更有利于避免過擬合。

    1658828407847510.png

    為了測試本文的注意力網絡性能與普遍適用性,我們在 MobileNetV2、ResNet18 和 ResNet50 上均做了不同注意力模型的對比試驗。如表 2 所示,在 MobileNetV2 和 ResNet18 上相較于其它方法達到了最好的效果,在 ResNet50 上稍差于 BAM。

    1658828485160624.png

    4.1.2 人臉分類實驗

    在該實驗中我們使用余弦相似度計算準確率的策略。在 CASIA-WebFace 數據集上訓練模型,并在 LFW 數據集和 CFP-FP 數據集上進行測試。

    CASIA-WebFace 數據集:CASIA-WebFace 數據集是經過數據清洗的數據集,所以含有噪聲的圖像較少,常作為訓練集使用。數據集有 10 575 個人的 494 414 張人臉圖像。

    LFW 數據集:圖像源于生活中的自然場景,所以圖像受到表情、光照、多姿態、遮擋、年齡等因素影響而差異極大。數據集有 5 749 個人的 13 233 張人臉圖像。

    CFP-FP 數據集:數據集對于每個人有 10 張正面圖像和 4 張側面圖像。CFP-FP 數據集有 500 個人的 7 000 張人臉圖像。

    參數設置:使用 SGD 優化器(lr = 0.1,momentum = 0.9,weight_decay = 5e-4)和 ArcFace[16] 損失函數。

    學習率調整策略為迭代 18 次并在 6、11、16 次迭代調 整學習率為原來的 0.1 倍。

    由于 ArcFace 損失函數的不同縮放系數 s 會極大的影響實驗結果的準確率,因此我們先通過 ResNet50-IR 模型來確定準確率最高 s,如表 3 所示。

    1658828636436676.png

    經過縮放系數的對比實驗可以看出 ResNet50-IR 模型在 s 為 33 的時候準確率達到最大值,因此在其他實驗中將縮放系數 s 固定為 33 進行訓練和測試。實驗結果如表 4 和表 5 所示,在 ResNet50-IR 上,當圖卷積層 為 2 時達到最好的效果,并且性能優于其他注意力模塊。

    1658828724533674.png

    5 結語

    本文提出一種圖結構注意力網絡,該方法壓縮寬度維度并有效地結合空間拓撲結構和通道注意力。通過映射成拓撲結構的方式學習空間注意力,有效地解決現有注意力感受野受限于卷積核大小的問題和卷積核過大導致性能下降的問題,并且更好地學習全局信息。實驗結果表明,本文注意力網絡在圖像分類和人臉識別任務中均展現了優異的性能與普遍適用性。

    參考文獻:

    [1] HE K, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2016:770-778.

    [2] LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[C]. In Proceedings of the IEEE Conference on Computer vision and Pattern Recognition. 2015: 3431–3440.

    [3] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[C]. In Advances in Neural Information Processing Systems. 2012:1097–1105.

    [4] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[C]. arXiv preprint arXiv.2014:1409,1556.

    [5] WANG F, JIANG M Q, QIAN C, et al. Residual attention network for image classification[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017:3156–3164.

    [6] HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2018:7132–7141.

    [7] PARK J, WOO S, LEE J Y, et al. Bam: Bottleneck attention module[C]. arXiv preprint 2018.

    [8] FUKUI H, HIRAKAWA T, YAMASHITA T, et al. Attention branch network: Learning of attention mechanism for visual explanation [C]. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,2019:10705–10714.

    [9] MISRA D, NALAMADA T, ARASANIPALAI A U, et al. Rotate to attend: Convolutional triplet attention module[C]. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision.2021: 3139–3148.

    [10] SANDLER M, HOWARD A, ZHU M L, et al. Mobilenetv2: Inverted residuals and linear bottlenecks[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018:4510–4520.

    [11] HAN, DONGYOON, KIM J, et al. Deep pyramidal residual networks[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2017: 6307-6315.

    [12] KRIZHEVSKY A. Learning multiple layers of features from tiny images[C]. 2009.

    [13] YI, DONG, LEI Z, et al. Learning face representation from scratch[C]. arXiv preprint 2014.

    [14] HUANG G, MATTAR M, BERG T, et al. Labeled faces in the wild: A database for studying face recognition in unconstrained environments[C]. 2008.

    [15] SENGUPTA S, CHEN J C, CASTILLO C, et al. Frontal to profile face verification in the wild[C]. In Proceedings of the IEEE Conference on Winter Conference on Applications of Computer Vision.2016:1-9.

    [16] DENG, KANG J, GUO J et al. ArcFace: Additive angular margin loss for deep face recognition[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2019:4685-4694.

    [17] N T, KIPF, MAX, et al. Semi-supervised classification with graph convolutional networks[C]. In Proceedings of the 5th International Conference on Learning Representations.2017.

    [18] NIU Z Y, ZHONG G Q, and YU H. A review on the attention mechanism of deep learning[J]. Neuro computing.2017(452): 48-62.

    (注:本文轉載自《電子產品世界》2022年7月期)



    評論


    相關推薦

    技術專區

    關閉
    熟妇女的欲乱
    <menu id="6c4oc"><tt id="6c4oc"></tt></menu>