HCF-Net

HCF-Net: Hierarchical Context Fusion Network for Infrared Small Object Detection

论文：《HCF-Net: Hierarchical Context Fusion Network for Infrared Small Object Detection》（arXiv 2024)

PPA采用分层特征融合和注意机制来维护和增强对小物体的表示，确保关键信息通过多次下采样步骤得以保留。

DASI增强了U-Net中的跳跃连接，侧重于高维和低维特征的自适应选择和精细融合，以增强小物体的显著性。

位于网络深处的MDCR加强了多尺度特征提取和通道信息表示，捕捉各种感受野范围内的特征。

1.PPA

对于小目标而言，经过多次下采样容易丢失关键信息，作者使用PPA模块取代了编码器和解码器中的传统卷积的操作，来解决此问题。

PPA使用了多分支提取策略，多分支策略有助于捕获物体的多尺度特征，从而提高对小目标的特征提取能力。其由三个平行分支组成：局部、全局、串行卷积。

PPA步骤如下：

对于输入特征F,先使用点卷积调整通道数，然后输入到三个分支
通过三个分支分别计算得到 $F_{local}、F_{global}、F_{conv}$
将三个分支的输出结果相加得到最后的输出

Patch-Aware:

使用 Unfold 和 reshape 操作将特征张量 F’ 划分为一组空间上连续的patch,对这些 patch 进行通道方向上的平均，得到大小为 (p × p, H’/p, W’/p) 的结果，接着使用 FFN 进行线性计算。随后，应用激活函数来获得线性计算特征在空间维度上的概率分布，并相应调整它们的权重,对加权结果进行特征选择，从 tokens 和通道中选择与任务相关的特征。

注：局部和全局分支的区分是通过patch的大小参数p来控制的

特征融合和注意力：

在进行了多分支的特征提取后，利用注意力机制进行自适应的特征增强，该注意力模块由通道注意力和空间注意力组成，其过程如下：

注：其中，⊗ 表示元素相乘， $F_c∈ R^{H'×W'×C'}$ 、 $F_s∈ R^{H'×W'×C'}$ 分别表示通道注意力和空间注意力处理后的特征， $M_c∈ R^{1×1×C'}$ 是通道注意力图, $M_s∈ R^{H'×W'×1}$ 是空间注意力图。δ和 B 分别表示ReLU和BN，F’’是PPA的最终的输出

2.维度感知选择性整合模块

DASI能够根据物体的大小自适应地选择合适的特征进行融合，DASI通过卷积、插值等操作，将高维特征 $F_h∈R^{H_h×W_h×C_h}$ 和低维特征 $F_l∈R^{H_l×W_l×C_l}$ 与当前层的特征 $F_u∈R^{H×W×C}$ 进行初步对齐。随后，它将这些特征在通道维度上分成四个相等的部分，从而得到 ${(h_i)}_{i=1}^4 ∈R^{H × W × C/4}$ , ${(I_i)}_{i=1}^4 ∈R^{H × W × C/4}$ , ${(u_i)}_{i=1}^4 ∈R^{H × W × C/4}$ ,其中 $h_i、 I_i和 u_i$ 分别表示高维、低维和当前层特征的第 i 个分区特征。
该模块最终的输出结构为：