D-Net: Dynamic Large Kernel with Dynamic Feature Fusion for Volumetric Medical Image Segmentation

论文:《D-Net: Dynamic Large Kernel with Dynamic Feature Fusion for Volumetric Medical Image Segmentation》(arXiv 2024)

主要贡献:

  • 提出用于通用特征提取的大核模块(DLK),其采用多个大卷积核来捕获多尺度特征,然后利用动态选择机制,根据全局上下文信息自适应地吐出最重要的空间特征
  • 提出动态特征融合模块,实现自适应的特征融合(DFF),其根据全局信息融合多尺度局部特征
  • 提出D-Net用于3d医学图像分割,其将DLK和DFF模块结合到了分层Vit模块中,实现了更高的分割准确性

使用固定大小的核的卷积在自适应地捕获多尺度特征方面存在不足,因而作者提出了动态大核(DLK)与动态特征融合模块(DFF)

(顺序地聚合大核卷积来扩大感受野)

Dynamic Large Kernel (DLK):

image-20240413124105291

作者采用了级联大核卷积的方法,其卷积核尺寸和膨胀率逐渐增大。这样设计使得有效感受野逐渐增大,从而有效地捕获更广泛的信息,在更深、更大的感受野内提取的特征对输出的贡献更显著,使得DLK能够捕获更细致和更具信息量的特征。

  • 作者使用了两个具有大核的深度卷积进行级联:

image-20240413124653183

注1:5,7是核大小,1,3是膨胀率

注2:通过级联大核卷积,DLK具有与23 × 23 × 23核大小的卷积相同的有效感受野

  • 随后,对两个级联的大核卷积的输出应用平均池化(AVP)和最大池化(MAP)来建模局部特征之间的全局空间关系。

image-20240413125400295

  • 动态选择机制:通过一个7×7×7的卷积层来实现不同空间描述符之间的信息交互,并使用Sigmoid激活函数来获得动态选择值

image-20240413125635669

注:不同大核卷积的特征通过利用这些选择值来自适应地进行选择

  • DLK最后的输出为:

    image-20240413125821821

  • DLK block的设计如下:

image-20240413130239187

Dynamic Feature Fusion (DFF):

image-20240413130621926

  • 将特征映射沿通道方向进行连接,然后通过级联平均池化、卷积和Sigmoid来得到全局通道特征的重要性描述

    image-20240413131334972

  • 根据进行特征映射,然后利用1×1×1卷积进行映射(保留重要特征)

image-20240413132012723

  • 通过1×1×1卷积层、Sigmoid激活对特征映射进行处理来捕获全局空间信息

image-20240413132340534

D-Net:

image-20240413132535496

实验部分:

多器官分割任务:

image-20240413132922149