HCF-Net: Hierarchical Context Fusion Network for Infrared Small Object Detection

论文:《HCF-Net: Hierarchical Context Fusion Network for Infrared Small Object Detection》(arXiv 2024)

PPA采用分层特征融合和注意机制来维护和增强对小物体的表示,确保关键信息通过多次下采样步骤得以保留。

DASI增强了U-Net中的跳跃连接,侧重于高维和低维特征的自适应选择和精细融合,以增强小物体的显著性。

位于网络深处的MDCR加强了多尺度特征提取和通道信息表示,捕捉各种感受野范围内的特征。

image-20240416133737554

1.PPA

image-20240416134505795

对于小目标而言,经过多次下采样容易丢失关键信息,作者使用PPA模块取代了编码器和解码器中的传统卷积的操作,来解决此问题。

PPA使用了多分支提取策略,多分支策略有助于捕获物体的多尺度特征,从而提高对小目标的特征提取能力。其由三个平行分支组成:局部、全局、串行卷积。

PPA步骤如下:

  • 对于输入特征F,先使用点卷积调整通道数,然后输入到三个分支
  • 通过三个分支分别计算得到

  • 将三个分支的输出结果相加得到最后的输出

Patch-Aware:

使用 Unfold 和 reshape 操作将特征张量 F’ 划分为一组空间上连续的patch,对这些 patch 进行通道方向上的平均,得到大小为 (p × p, H’/p, W’/p) 的结果,接着使用 FFN 进行线性计算。随后,应用激活函数来获得线性计算特征在空间维度上的概率分布,并相应调整它们的权重,对加权结果进行特征选择,从 tokens 和通道中选择与任务相关的特征。

注:局部和全局分支的区分是通过patch的大小参数p来控制的

特征融合和注意力:

在进行了多分支的特征提取后,利用注意力机制进行自适应的特征增强,该注意力模块由通道注意力和空间注意力组成,其过程如下:

image-20240416143044284

注:其中,⊗ 表示元素相乘,分别表示通道注意力和空间注意力处理后的特征,是通道注意力图,是空间注意力图。δ和 B 分别表示ReLU和BN,F’’是PPA的最终的输出

2.维度感知选择性整合模块

image-20240416144400263

DASI能够根据物体的大小自适应地选择合适的特征进行融合,DASI通过卷积、插值等操作,将高维特征和低维特征与当前层的特征进行初步对齐。随后,它将这些特征在通道维度上分成四个相等的部分,从而得到 , , ,其中 分别表示高维、低维和当前层特征的第 i 个分区特征。
该模块最终的输出结构为:

image-20240416145650808

注: α是通过应用于的激活函数所得到的值,当α> 0.5,则模型优先考虑细粒度特征,当α < 0.5,则强调上下文特征。

3.MDCR

在 MDCR 中,引入了多个深度可分离卷积层,以不同的扩张率捕捉各种感受野大小的空间特征,从而能够对物体和背景之间的差异进行更详细的建模,增强其分辨小物体的能力。

image-20240416150546927

将输入特征沿通道维度分成四部分,每个部分以不同的扩张率进行深度可分离卷积,然后通过对每个部分的通道交错重排来增强多尺度特征的多样性,最后使用点卷积将这四部分的信息进行融合。