3D UX-NET

论文：《3D UX-NET: A LARGE KERNEL VOLUMETRIC CONVNET MODERNIZING HIERARCHICAL TRANSFORMER
FOR MEDICAL IMAGE SEGMENTATION》（ICLR 2023）

采用具备大卷积核的投影层来提取 patch-wise 特征作为编码器的输入

对Swin transformer的transformer block做了替换：

使用大卷积核(7 × 7 × 7)的深度卷积来模仿Swin Transformer的局部自注意力和窗口移动。

使用2 × 2 × 2、步幅为2的标准卷积块来实现下采样

在Swin Transformer中MLP隐藏层维度比输入维度宽四倍，引入了具有 1 × 1 × 1 卷积核大小的深度卷积缩放(DCS)，以独立地线性缩放每个通道特征，减少跨通道上下文产生的冗余信息

DCS：1x1x1的深度卷积+1x1x1的分组卷积

从实验中发现：使用深度卷积缩放(DCS)参数量得到了减小，效果并没有下降

编码器的输出特征由残差块作进一步的处理，以稳定提取的特征。（残差块由两个经过实例归一化的后归一化3 × 3 × 3卷积层组成）

转置卷积层实现上采样，其输出的特征与编码器的输出进行连接后，再次输入到残差块中。

3D UX-Net 在这几个分割任务中均展示出最佳性能，并且 Dice 分数有了一定的提高