nnFormer

论文:《nnFormer: Volumetric Medical Image Segmentation via a 3D Transformer》(TMI2022)

1.网络结构

image-20231025201100423

编码器

nnFormer的输入:对原始图像中随机裁剪(HxWxD),数据增强技术,有助于模型更好地学习不同部分的特征。

The embedding layer:(将输入数据转换成高维张量)

  • 使用卷积的好处:对比transformer使用线性层对patch的向量进行映射,卷积层能够更细致地捕获图像中的像素级信息(减少了训练的参数数量,卷积核在处理特定区域时更加专注)
  • 在初始阶段使用小卷积核的连续卷积层,相对于大卷积核的好处:降低计算复杂度,同时保持相同大小的感受野(非线性激活函数多了,语义表达能力增强了)

image-20231025210627610

注:根据输入的patch大小卷积步长也会有相应的变化

Local Volume-based Multi-head Self-attention (LV-MSA):将不同尺度的信息和高分辨率的空间信息相互关联

不同尺度的特征由下采样层生成,高分辨率的空间信息则由嵌入层编码

使用的是一种基于局部三维图像块的self-attention计算方式(跟Swin-UNet类似)

image-20231025212855680

SLV-MSA:是LV-MSA的shifted版本(类似于Swin-UNet,目的是使局部的三维图像块之间产生联系)

image-20231025213050517

注:$S_H、S_W、S_D$代表每个图像块中的patch的数量

使用LV-MSA减少了计算的复杂度,计算复杂度和图像之间是线性的关系

image-20231025213709821

使用相对位置偏置B来引入位置信息

The down-sampling layer:

与Swin-UNet使用patch merging不同,作者选择了使用简单的卷积来实现下采样,卷积下采样可以在不同空间维度上应用不同的步长,以根据问题的要求调整下采样率。(可以根据数据的特点来灵活设置,避免过度下采样,对于三维的图像在某些维度上数据切片数量有限,这时可以将该维度的步长设置为1)

Bottleneck

不同于编码器使用局部自注意力机制,Bottleneck中使用全局自注意力。

计算复杂度:

image-20231027153408838

编码器部分减小了h、w、d,这为GV-MSA的应用创造了条件,与LV-MSA相比,GV-MSA能够提供更大的感受野

Decoder

上采样操作:使用转置卷积

Skip Attention:(使不同层之间的信息交流变得更加灵活)

image-20231027155805206

2.实验部分

与基于Transformer的方法学的比较

脑肿瘤分割

image-20231027162254249

列出了所有模型在脑瘤分割任务上的实验结果,nnFormer在所有类别中取得了最低的HD95和最高的DSC分数。

多器官分割(Synapse)

image-20231029163515666

与以前基于Transformer的方法相比,nnFormer在分割胰腺(Pancreas)和胃(Stomach)方面更有优势

与nnUNet的比较

image-20231030203836841

nnFormer的HD95似乎更有优势,其可以更好地划分对象边界。

nnAvg:对nnFormer和nnUNet的预测结果进行平均化,发现整体的性能得到了提高,表明nnFormer和nnUNet是可以互补的。

消融实验

image-20231030205355146

  • 嵌入层使用小卷积核大小的连续卷积层

  • 卷积下采样层替换掉了patch Merging层

  • GV-MSA替换了Bottleneck的LV-MSA

  • Skip Attention代替跳跃连接

  • SLV-MSA层与LV-MSA层级联,全局自注意力层的数量增加一倍