SpectFormer

论文:《SpectFormer: Frequency and Attention is what you need in a Vision Transformer》(arxiv 2023)

频域层和多头注意力层结合起来,可以使Transformer能够捕捉到适当的特征表示,提升模型的特征建模能力,从而提升模型的性能。

频域层由一个快速傅里叶变换层(FFT)和一个逆傅里叶层(IFFT)构成

注:FFT和IFFT的操作,也可使用小波变换和逆小波变换来实现

image-20231224161116413

FFT把图像信息转到频域空间,然后可以对频域信号进行操作,使用具有可学习权重参数的门控层来确定每个频率分量的权重,以便适当地捕获图像的线条和边缘,如可以去除低频部分,保留高频部分,用于突出图像的主要特征,然后通过IFFT做一个逆变换,把频域图还原到时域中。频域层之后用层归一化和多层感知器 (MLP) 块用于通道混合。

SpecFormer考虑了局部特征,这有助于捕获局部频率,以及更深层的全局特征,这有助于捕获长期依赖关系。

与GFNnet对比:SpecFormer可以更加清晰地捕获局部特征,如图像的线条和边缘

注:GFNet是完全使用频域层来进行建模

image-20231224161421871

频域层和注意力层结合,通过频域层捕获局部信息,注意力层捕获全局信息,同时可以灵活调整频域层和注意力层各自的层数

混合建模形式的实验验证:

image-20231224163639771

注:Inverse SpecFormer是将频域层和注意力层对调,即注意力层在前,频域层在后