EPT-Net
EPT-Net: Edge Perception Transformer for 3D Medical Image Segmentation
论文:《EPT-Net: Edge Perception Transformer for 3D Medical Image Segmentation》(TMI 2023)
EPT-NET:在编码器中通过CNN提取网络的详细的底层特征,作者提出了双位置Transformer模块通过学习位置编码和像素空间位置编码的过程,增强了定位能力,解决了多器官之间定位不准确的问题,增强了网络对复杂器官形状的理解能力。
提出了一种双位置嵌入Transformer,包括可学习位置嵌入和体素空间位置嵌入。利用该方法对位置编码进行优化,可以有效地捕捉医学图像中不同器官位置之间的内在相关性。
提出了一个边缘权重指导模块来学习浅特征中的边缘信息,它可以捕获相邻器官之间的微小粘附。这种设计是在不增加网络参数的情况下最小化边缘信息功能。
卷积操作在局部像素周围进行计算,只能捕获局部特征,缺乏全局上下文信息的提取能力,可能会导致边缘信息的处理不足。
网络结构
EPT-Net:基于U型网络,由DPT和EWG模块组成。
双位置嵌入Transformer:
Learnable Patch Embedding:使用位置嵌入,并且利用异步卷积,确保相邻的patch有特定的交互部分
Voxel Spacial Positional Embedding:其通过一个3x3x3大小的深度卷积实现
Edge Weight Guidance Module(EWG):
浅层引导模块:用于提取低层特征中保留的边缘信息,其操作编码器的前两层,这两层通过一个3x3x3的卷积层调整到同一个分辨率进行级联,级联后的特征通过一个1x1x1的卷积层来得到浅层引导特征。
加权注意力模块:通过特征像素之间的数学特性来评估每个特征点的优先级,通过测量目标特征和周围特征的线性可分性,优先级较高的特征点与周围的特征是线性不可分的。
各特征点的优先级函数定义如下:
注1:为特征点的局部信息,其为通过线性变换得到,和是变换的权值和偏置,为空间维度上的索引
注2:根据计算得到的特征点优先级,可以为每个特征点分配一个优先级系数。这个系数可以用来加权整个特征图,从而更好地捕获边缘信息。
和的定义如下:
注:ξ是超参数,是通道上除了的所有特征点的均值和方差
越小,表示特征点与周围的特征是线性不可分的,也就越重要,故定义优先级为
所以最后的注意力计算为: