Medical Image Segmentation via Cascaded Attention Decoding

论文:《Medical Image Segmentation via Cascaded Attention Decoding》(WACV 2023)

这篇论文和之前看过的一些文章设计思路也差不多,通过对编码器四个阶段输出的特征进行了融合,不同之处在于这篇论文提出了AG和CAM两个模块进行特征的融合,先使用AG进行特征融合,再使用CAM进行增强

级联注意解码器:

image-20240426162057053

UpConv:对特征进行上采样

CAM:用于增强特征映射

作者使用了四个CAM块聚合编码器四个阶段输出的特征,三个AG模块将先前解码器上采样的特征与跳跃连接的特征结合起来

AG:用于级联的特征融合

image-20240427213751108

image-20240427213938485

CAM:用于增强特征映射

image-20240427214031982

CAM由通道注意力、空间注意力和一个卷积块组成,使用通道注意力、空间注意力可以来抑制背景信息

image-20240427214223908

注:这里的卷积块是由两个3×3的卷积层组成,每个卷积层后是一个BN和一个ReLU

image-20240427214438165

多阶段损失和特征聚合:

作者是通过对分层编码器的四个阶段输出的结果使用加性聚合的方式生成最后的预测图:

image-20240427214745978

注1:p1、p2、p3、p4为四个预测头的特征映射,w、x、y、z为各个预测头像的权重。

注2:本文中作者将w、x、y、z均设为1

作者通过分别计算每个预测头的损失,来得到最终的损失:

image-20240427215042984

注:实验中作者将α, β, γ, ζ均设为了1

整体的网络结构如下:

image-20240427215222965