Frequency Channel Attention Networks
FcaNet: Frequency Channel Attention Networks
通道注意力机制通常会为每个通道分配一个标量权重,用于加权通道特征图。然而,这种简单的标量表示可能无法充分表达通道之间的复杂关系,因此,设计更有效的通道注意力机制需要考虑如何更好地捕捉和利用通道之间的非线性关系,以充分挖掘通道特征图中的信息。
DTC(离散余弦变换)
DCT,即离散余弦变换,常用图像压缩算法,步骤如下:
- 首先将图像分割成8x8或16x16的小块;
- DCT变换,对每个小块进行DCT变换;
- 舍弃高频系数(AC系数),保留低频信息(DC系数)。高频系数一般保存的是图像的边界、纹理信息,低频信息主要是保存的图像中平坦区域信息。
- 图像的低频和高频,高频区域指的是空域图像中突变程度大的区域(比如目标边界区域),通常的纹理丰富区域。
二维DCT变换就是将二维图像从空间域转换到频率域。形象的说,就是计算出图像由哪些二维余弦波构成,其主要用于数据或图像的压缩,能够将空间域的信号转换到频域上,具有良好的去相关性的性能。二维的DTC公式如下:
二维的逆DTC公式如下:
注:逆变换,通过所有频率分量的在某点的叠加可以恢复像素值。
我们称二者的共有项为基函数:
method
传统的通道注意方法致力于构建各种通道重要性权重函数,这种权重函数要求每个通道都有一个标量来进行计算,由于计算开销有限,简单有效的全局平均池化(GAP)成为了他们的不二之选。但是一个潜在的问题是GAP是否能够捕获丰富的输入信息,也就是说,仅仅平均值是否足够表示通道注意力中的各个通道。
GAP的不足与分析:
1)不同的通道可能拥有相同的平均值,而其代表的语义信息是不相同的;
2)从频率分析的角度,可以证明GAP等价于DCT的最低频率,仅仅使用GAP相当于丢弃了其他许多包含着通道特征的信息;
3)CBAM还表示,仅使用GAP是不够的,因此额外引入了GMP。
以往的通道注意力(比如下图SE)只考虑了GAP(最低频的分量信息),导致丢失了大量可利用的信息。
利用频率信息重构通道注意力
将通道划分成n等分,之前我们提到“DCT可以被看作图像中每个输入的加权和”,在这里通过两步准则(后面实验会介绍),选择出收益最大的部分频率分量,与对应分组相乘,就得到我们的多光谱通道注意力。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 丹青两幻!
评论