ConvFormer

论文:《ConvFormer: Plug-and-Play CNN-Style Transformers for Improving Medical Image Segmentation》(MICCAI 2023)

以往方法的不足:

由于训练数据的不足,transformers效果较差(另一方面,医学图像本身的高冗余性)

在CNN-Transformer混合方法中,一方面,训练数据不足会使得transformers学习到次优的长距离依赖性,另一方面,直接将CNNs与transformers结合会使得网络偏向于学习CNNs,因为与transformers相比,CNNs的收敛性更容易实现,特别是在小规模训练数据上。

为解决该问题,作者提出了一个名为ConvFormer的即插即用模块

网络结构:

image-20240304145207066

卷积+池化:

上图最左边是传统的ViT,用一个个的patch作为自注意力的输入。

而作者用二维图像直接建立足够长的长程依赖,而不是分割为一堆一维序列,对于一个输入的图像通过卷积和池化来降低分辨率。

注:

1.上图中CBR是指卷积、批量归一化和Relu的组合

2.d为ViT中的每个patch大小S的对数

在此过程中,image-20240304150529624

其中,Cm对应于ViT中的嵌入维度

CNN风格的自关注:为卷积+池化模块处理后的特征构建了一个自适应的卷积核

  • 利用可学习的矩阵乘上输入进来的特征,得到QKV:

    image-20240304151242512

  • Q和K按照如下方式进行计算(余弦相似度),对应于ViT里面的注意力分数计算:

    image-20240304151521415

注1:Q和K作为分母,这样一来I矩阵的元素就不太容易变成0(如果某些位置的注意力值为0,那么表示模型在计算该位置的输出时不考虑与其他位置的相关性,可能导致模型在捕捉输入序列中重要的依赖关系和特征时出现问题。)

注2:对应于ViT中𝑄、𝐾和𝑉的嵌入维度

  • 引入一个可学习的高斯距离图M:

image-20240304151953190

注1:𝜃 ∈ (0, 1) 是一个可学习的网络参数,用于控制𝐴的感受野,𝛼 是一个超参数,用于控制感受野的倾向性。

注2:𝜃与感受野成正比。𝛼越大,𝐴越倾向于具有全局感受野。

CFFN:仅由1 × 1卷积、批处理归一化和Relu两种组合组成。通过替换ViT中的线性投影和层归一化,CFFN使ConvFormer完全基于CNN,避免了CNN-Transformer混合方法在训练过程中CNN和Transformer之间的冲突。

实验:

image-20240304160737425

注:ACDC(心脏诊断)、ISIC(皮肤病变)、ICH(血肿分割)