3D Medical image segmentation using parallel transformers

发表于2024-03-19|更新于2024-03-20|计算机视觉

|字数总计:570|阅读时长:1分钟|阅读量:

3D Medical image segmentation using parallel transformers

TransHRNet:为并行连接不同分辨率的流而设计

本文的贡献点：

提出了一种基于Transfomer的新型深度神经网络（TransHRNet)，将不同分辨率的数据流并行连接，并融合不同分辨率的信息。
引入EffTrans模块来提高性能

网络结构：

TransHRNet首先使用3D CNN生成X的紧凑特征表示来捕获空间和深度信息，在此过程中不断扩大感受野，并以不同的尺度对特征进行编码，但在此过程中仍然未充分利用图像的信息。作者提出了一个特征增强模块（EffTrans)，利用Transformer编码器来学习全局空间中的长距离依赖关系，同时并行连接不同的分辨率流，在分辨率上重复执行信息交互。之后，解码器通过上采样和卷积操作产生最后的分割结果。

将图像转换为序列：

将特征张量的空间和深度维度合并成一个维度，从而得到一个关于图像X的patch嵌入的1D序列。

位置编码：使用正余弦位置编码

注： $\large \#∈{D, H,W},v =1/10000^{2k\over{C/{3}}},pos为当前编码在序列中的位置，k为位置编码维度的索引$

特征融合：特征增强模块重复融合多分辨率特征，以跨多分辨率交换信息

三种并行方式：

注：高分辨率（绿色）、中分辨率（蓝色）、低分辨率（淡粉色）

高分辨率与其他分辨率通过上采样得到的结果进行融合，得到新的高分辨率特征
中分辨率、下采样的高分辨率和上采样的低分辨率进行融合，可以获得新的中分辨率特征。
低分辨率与其他分辨率通过下采样生成得到的结果进行融合，生成新的低分辨率特征。

Effective Transformer：

首先使用DeLighT变换对输入进行降维，然后采用Spatial-Reduction Attention (SRA)层进一步降低学习高分辨率特征图的资源成本。最后，将维数从 $d_m$ 降维到 $d_m/4$ ，然后将维数从 $d_m/4$ 展开到 $d_m$ ，具体结构如下图：

文章作者: 丹青两幻

文章链接: https://wangak.cc/posts/c50c9556.html

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自丹青两幻！

计算机视觉图像分割

相关推荐

BEFUnet:A Hybrid CNN-Transformer Architecture for Precise Medical Image Segmentation

ASSNet:Adaptive Semantic Segmentation Network for Microtumors and Multi-Organ Segmentation

AGILEFORMER:SPATIALLY AGILE TRANSFORMER UNET FOR MEDICAL IMAGE SEGMENTATION

评论

数据库加载中