3D UX-NET

论文:《3D UX-NET: A LARGE KERNEL VOLUMETRIC CONVNET MODERNIZING HIERARCHICAL TRANSFORMER
FOR MEDICAL IMAGE SEGMENTATION》(ICLR 2023)

1.网络结构

image-20231106201433865

采用具备大卷积核的投影层来提取 patch-wise 特征作为编码器的输入

对Swin transformer的transformer block做了替换:

image-20231106202256333

使用大卷积核(7 × 7 × 7)的深度卷积来模仿Swin Transformer的局部自注意力和窗口移动。

使用2 × 2 × 2、步幅为2的标准卷积块来实现下采样

在Swin Transformer中MLP隐藏层维度比输入维度宽四倍,引入了具有 1 × 1 × 1 卷积核大小的深度卷积缩放(DCS),以独立地线性缩放每个通道特征,减少跨通道上下文产生的冗余信息

DCS:1x1x1的深度卷积+1x1x1的分组卷积

image-20231106205655475

从实验中发现:使用深度卷积缩放(DCS)参数量得到了减小,效果并没有下降

image-20231106204002121

编码器的输出特征由残差块作进一步的处理,以稳定提取的特征。(残差块由两个经过实例归一化的后归一化3 × 3 × 3卷积层组成)

转置卷积层实现上采样,其输出的特征与编码器的输出进行连接后,再次输入到残差块中。

2.实验结果

image-20231106210428239

3D UX-Net 在这几个分割任务中均展示出最佳性能,并且 Dice 分数有了一定的提高