HCF-Net
HCF-Net: Hierarchical Context Fusion Network for Infrared Small Object Detection
论文:《HCF-Net: Hierarchical Context Fusion Network for Infrared Small Object Detection》(arXiv 2024)
PPA采用分层特征融合和注意机制来维护和增强对小物体的表示,确保关键信息通过多次下采样步骤得以保留。
DASI增强了U-Net中的跳跃连接,侧重于高维和低维特征的自适应选择和精细融合,以增强小物体的显著性。
位于网络深处的MDCR加强了多尺度特征提取和通道信息表示,捕捉各种感受野范围内的特征。
1.PPA
对于小目标而言,经过多次下采样容易丢失关键信息,作者使用PPA模块取代了编码器和解码器中的传统卷积的操作,来解决此问题。
PPA使用了多分支提取策略,多分支策略有助于捕获物体的多尺度特征,从而提高对小目标的特征提取能力。其由三个平行分支组成:局部、全局、串行卷积。
PPA步骤如下:
- 对于输入特征F,先使用点卷积调整通道数,然后输入到三个分支
通过三个分支分别计算得到
将三个分支的输出结果相加得到最后的输出
Patch-Aware:
使用 Unfold 和 reshape 操作将特征张量 F’ 划分为一组空间上连续的patch,对这些 patch 进行通道方向上的平均,得到大小为 (p × p, H’/p, W’/p) 的结果,接着使用 FFN 进行线性计算。随后,应用激活函数来获得线性计算特征在空间维度上的概率分布,并相应调整它们的权重,对加权结果进行特征选择,从 tokens 和通道中选择与任务相关的特征。
注:局部和全局分支的区分是通过patch的大小参数p来控制的
特征融合和注意力:
在进行了多分支的特征提取后,利用注意力机制进行自适应的特征增强,该注意力模块由通道注意力和空间注意力组成,其过程如下:
注:其中,⊗ 表示元素相乘,、分别表示通道注意力和空间注意力处理后的特征,是通道注意力图,是空间注意力图。δ和 B 分别表示ReLU和BN,F’’是PPA的最终的输出
2.维度感知选择性整合模块
DASI能够根据物体的大小自适应地选择合适的特征进行融合,DASI通过卷积、插值等操作,将高维特征和低维特征与当前层的特征进行初步对齐。随后,它将这些特征在通道维度上分成四个相等的部分,从而得到 , , ,其中 分别表示高维、低维和当前层特征的第 i 个分区特征。
该模块最终的输出结构为:
注: α是通过应用于的激活函数所得到的值,当α> 0.5,则模型优先考虑细粒度特征,当α < 0.5,则强调上下文特征。
3.MDCR
在 MDCR 中,引入了多个深度可分离卷积层,以不同的扩张率捕捉各种感受野大小的空间特征,从而能够对物体和背景之间的差异进行更详细的建模,增强其分辨小物体的能力。
将输入特征沿通道维度分成四部分,每个部分以不同的扩张率进行深度可分离卷积,然后通过对每个部分的通道交错重排来增强多尺度特征的多样性,最后使用点卷积将这四部分的信息进行融合。