3D Medical image segmentation using parallel transformers

TransHRNet:为并行连接不同分辨率的流而设计

本文的贡献点:

  • 提出了一种基于Transfomer的新型深度神经网络(TransHRNet),将不同分辨率的数据流并行连接,并融合不同分辨率的信息。
  • 引入EffTrans模块来提高性能

网络结构:

image-20240319122733944

​ TransHRNet首先使用3D CNN生成X的紧凑特征表示来捕获空间和深度信息,在此过程中不断扩大感受野,并以不同的尺度对特征进行编码,但在此过程中仍然未充分利用图像的信息。作者提出了一个特征增强模块(EffTrans),利用Transformer编码器来学习全局空间中的长距离依赖关系,同时并行连接不同的分辨率流,在分辨率上重复执行信息交互。之后,解码器通过上采样和卷积操作产生最后的分割结果。

将图像转换为序列:

将特征张量的空间和深度维度合并成一个维度,从而得到一个关于图像X的patch嵌入的1D序列。

位置编码:使用正余弦位置编码

image-20240319130344786

注:

特征融合:特征增强模块重复融合多分辨率特征,以跨多分辨率交换信息

三种并行方式:

image-20240319132030789

注:高分辨率(绿色)、中分辨率(蓝色)、低分辨率(淡粉色)

  • 高分辨率与其他分辨率通过上采样得到的结果进行融合,得到新的高分辨率特征
  • 中分辨率、下采样的高分辨率和上采样的低分辨率进行融合,可以获得新的中分辨率特征。

  • 低分辨率与其他分辨率通过下采样生成得到的结果进行融合,生成新的低分辨率特征。

Effective Transformer:

首先使用DeLighT变换对输入进行降维,然后采用Spatial-Reduction Attention (SRA)层进一步降低学习高分辨率特征图的资源成本。最后,将维数从降维到,然后将维数从展开到,具体结构如下图:

image-20240319202446776