Medical Image Segmentation via Cascaded Attention Decoding
Medical Image Segmentation via Cascaded Attention Decoding论文:《Medical Image Segmentation via Cascaded Attention Decoding》(WACV 2023)
这篇论文和之前看过的一些文章设计思路也差不多,通过对编码器四个阶段输出的特征进行了融合,不同之处在于这篇论文提出了AG和CAM两个模块进行特征的融合,先使用AG进行特征融合,再使用CAM进行增强
级联注意解码器:
UpConv:对特征进行上采样
CAM:用于增强特征映射
作者使用了四个CAM块聚合编码器四个阶段输出的特征,三个AG模块将先前解码器上采样的特征与跳跃连接的特征结合起来
AG:用于级联的特征融合
CAM:用于增强特征映射
CAM由通道注意力、空间注意力和一个卷积块组成,使用通道注意力、空间注意力可以来抑制背景信息
注:这里的卷积块是由两个3×3的卷积层组成,每个卷积层后是一个BN和一个ReLU
多阶段损失和特征聚合:
作者是通过对分层编码器的四个阶段输出的结果使用加性聚合的方式生成最后的预测图:
注 ...
SegFormer3D
SegFormer3D论文:《SegFormer3D: an Efficient Transformer for 3D Medical Image Segmentation》(arXiv 2024)
作者提出了SegFormer3D使用全mlp解码器来聚合局部和全局注意力特征,来产生高度准确的分割掩码
对于编码器部分:
使用patch merging进行下采样:与池化操作相比克服了像素生成过程中的邻域信息丢失的问题,同时也能节省一定的运算量
使用efficient self-attention:捕获全局信息的同时,用缩放系数R减少了self-attention计算的时间复杂度
舍弃了固定的位置编码,使用mix ffn模块来提取位置信息:
对于解码器部分:使用了全MLP的结构,使用了一个统一的模块完成了对不同尺度的特征的解码过程,简化了解码过程,确保在各种数据集中对体积特征进行高效且一致的解码,避免了过度参数化。
参数量和性能的比较:
作者在编码器和解码器的设计中,都使用轻量化的操作(编码器部分的patch merging、efficient self-attent ...
HCF-Net
HCF-Net: Hierarchical Context Fusion Network for Infrared Small Object Detection论文:《HCF-Net: Hierarchical Context Fusion Network for Infrared Small Object Detection》(arXiv 2024)
PPA采用分层特征融合和注意机制来维护和增强对小物体的表示,确保关键信息通过多次下采样步骤得以保留。
DASI增强了U-Net中的跳跃连接,侧重于高维和低维特征的自适应选择和精细融合,以增强小物体的显著性。
位于网络深处的MDCR加强了多尺度特征提取和通道信息表示,捕捉各种感受野范围内的特征。
1.PPA
对于小目标而言,经过多次下采样容易丢失关键信息,作者使用PPA模块取代了编码器和解码器中的传统卷积的操作,来解决此问题。
PPA使用了多分支提取策略,多分支策略有助于捕获物体的多尺度特征,从而提高对小目标的特征提取能力。其由三个平行分支组成:局部、全局、串行卷积。
PPA步骤如下:
对于输入特征F,先使用点卷积调整通道数,然后输入 ...
LHU-NET
LHU-NET: A LIGHT HYBRID U-NET FOR COST-EFFICIENT, HIGH-PERFORMANCE VOLUMETRIC MEDICAL IMAGE SEGMENTATION论文:《LHU-Net: A Light Hybrid U-Net for Cost-Efficient, High-Performance Volumetric Medical Image Segmentation》(arXiv 2024)
LHU-Net:将基于卷积的块与混合注意力机制集成
Init 阶段与Out阶段:
该阶段从一个点卷积操作(PW-Conv)开始,应用于输入数据,调整通道维度以匹配后续级别的通道数。
同时对于输入直接应用ResBlock,将其输出输入到Out阶段,与解码器的输出进行连接,产生最后的结果
注:X_{CD}表示CNN解码器块输出
CNN Blocks:
初始空间维度需要大量的计算成本,Vit难以应用,故在此阶段的设计是为了优化参数效率和保留局部特征,在之后的阶段再提取全局特征
Down Conv块的设计如下:
Hybrid ...
D-Net
D-Net: Dynamic Large Kernel with Dynamic Feature Fusion for Volumetric Medical Image Segmentation论文:《D-Net: Dynamic Large Kernel with Dynamic Feature Fusion for Volumetric Medical Image Segmentation》(arXiv 2024)
主要贡献:
提出用于通用特征提取的大核模块(DLK),其采用多个大卷积核来捕获多尺度特征,然后利用动态选择机制,根据全局上下文信息自适应地吐出最重要的空间特征
提出动态特征融合模块,实现自适应的特征融合(DFF),其根据全局信息融合多尺度局部特征
提出D-Net用于3d医学图像分割,其将DLK和DFF模块结合到了分层Vit模块中,实现了更高的分割准确性
使用固定大小的核的卷积在自适应地捕获多尺度特征方面存在不足,因而作者提出了动态大核(DLK)与动态特征融合模块(DFF)
(顺序地聚合大核卷积来扩大感受野)
Dynamic Large Kernel (DLK):
...
BiFormer
BiFormer: Vision Transformer with Bi-Level Routing Attention论文:《BiFormer: Vision Transformer with Bi-Level Routing Attention》(CVPR 2023)
文章贡献:
作者提出了一种新颖的双层路由机制,将其应用于传统的注意力机制中。
基于双层路由注意力机制,作者提出了一种名为BiFormer的通用视觉Transformer模型。
1.注意力:
注:\sqrt{C}是缩放因子用以避免梯度消失
多头注意力:对输入沿着通道维度分成h个块(头部),每个块使用一组独立的权重
注1:W_0是一个额外的线性变换用来组合所有的头
注2:MHSA的复杂度是O(N^2),因为有N个查询,每个查询涉及N个键值对
2.双级路由注意力(BRA)
作者探索了一种动态的、查询感知的稀疏注意机制,在粗粒度的区域级别上过滤掉大多数不相关的键-值对,使得只有少部分的路由区域保留下来,在这些路由区域的并集上应用细粒度的令牌-令牌注意力。
算法步骤:
区域划分和输入投影:对于输入X\in{H×W ...
EPT-Net
EPT-Net: Edge Perception Transformer for 3D Medical Image Segmentation论文:《EPT-Net: Edge Perception Transformer for 3D Medical Image Segmentation》(TMI 2023)
EPT-NET:在编码器中通过CNN提取网络的详细的底层特征,作者提出了双位置Transformer模块通过学习位置编码和像素空间位置编码的过程,增强了定位能力,解决了多器官之间定位不准确的问题,增强了网络对复杂器官形状的理解能力。
提出了一种双位置嵌入Transformer,包括可学习位置嵌入和体素空间位置嵌入。利用该方法对位置编码进行优化,可以有效地捕捉医学图像中不同器官位置之间的内在相关性。
提出了一个边缘权重指导模块来学习浅特征中的边缘信息,它可以捕获相邻器官之间的微小粘附。这种设计是在不增加网络参数的情况下最小化边缘信息功能。
卷积操作在局部像素周围进行计算,只能捕获局部特征,缺乏全局上下文信息的提取能力,可能会导致边缘信息的处理不足。
网络结构
EPT-Net ...
3D Medical image segmentation using parallel transformers
3D Medical image segmentation using parallel transformersTransHRNet:为并行连接不同分辨率的流而设计
本文的贡献点:
提出了一种基于Transfomer的新型深度神经网络(TransHRNet),将不同分辨率的数据流并行连接,并融合不同分辨率的信息。
引入EffTrans模块来提高性能
网络结构:
TransHRNet首先使用3D CNN生成X的紧凑特征表示来捕获空间和深度信息,在此过程中不断扩大感受野,并以不同的尺度对特征进行编码,但在此过程中仍然未充分利用图像的信息。作者提出了一个特征增强模块(EffTrans),利用Transformer编码器来学习全局空间中的长距离依赖关系,同时并行连接不同的分辨率流,在分辨率上重复执行信息交互。之后,解码器通过上采样和卷积操作产生最后的分割结果。
将图像转换为序列:
将特征张量的空间和深度维度合并成一个维度,从而得到一个关于图像X的patch嵌入的1D序列。
位置编码:使用正余弦位置编码
注:\large \#∈{D, H,W},v =1/10000^ ...
DELIGHT DEEP AND LIGHT-WEIGHT TRANSFORMER
DELIGHT论文:《DELIGHT DEEP AND LIGHT-WEIGHT TRANSFORMER》
DeLighT比标准的基于Transfomer的模型具有更少的参数,在每个Transformer块中使用DeLighT转换
DeLighT架构促使在Transformer中用单头注意力和轻量级前馈层替代多头注意力和前馈层,从而减少了总网络参数和运算。
注:在多头注意力中,每个注意力头都有自己的参数矩阵,因此总参数量较大。而使用单头注意力,参数矩阵只需一个,可以减少参数量。多头注意力需要对每个头进行独立计算,然后将它们合并,而单头注意力只需要进行一次计算,因此在计算上更加高效。
DeLighT TransformerDeLighT变换:将一个d_m维的输入向量映射到一个高维空间(Expansion),然后通过组线性变换(GLT)将其将维到一个d_o维的输出向量(Reduction)。
注:组线性变换(GLT)用于降低Transformer模型的计算复杂度,分成N个组,每个组共享权重矩阵,通过输入的特定部分来输出局部的特征表示,其比线性更高效
为了学习全局表示,DeLighT变换使 ...
VSA
VSA: Learning Varied-Size Window Attention in Vision Transformers论文:《VSA: Learning Varied-Size Window Attention in Vision Transformers》(ECCV 2022)
对于Swin Transfomer中的窗口注意力机制,如果窗口大小为可变的矩形窗口,其大小和位置直接从数据中学习,则transfomer可以从不同的窗口中捕获丰富的上下文,并学习更强大的对象特征表示。
VSA使用窗口回归模块根据每个默认窗口中的token来预测目标窗口的大小和位置
VSA将可学习的可变大小的窗口注意力引入到Transformer中
Varied-size window attention (VSA)的注意力机制:VSA允许查询令牌(query tokens)关注远处的区域,并赋予网络确定目标窗口大小(即注意力区域)的灵活性
VSA先将输入特征划分为几个窗口,这些窗口的大小基于预定义的w,这样的窗口被称为默认窗口
然后从默认窗口获取查询特征:通过一个线性变换来实现
VSR模 ...