RotCAtt-TransUNet++:Novel Deep Neural Network for Sophisticated Cardiac Segmentation
RotCAtt-TransUNet++: Novel Deep Neural Network for Sophisticated Cardiac Segmentation论文:《RotCAtt-TransUNet++: Novel Deep Neural Network for Sophisticated Cardiac Segmentation》(arXiv 2024)
提出了一种新颖的旋转注意力机制(Rotatory Attention),用于捕捉体数据中相邻切片的信息。
编码器部分引入了UNet++的嵌套跳跃连接和密集的多尺度下采样,确保了在不同尺度上保留关键特征
设计了一个通道交叉注意力机制,通过引导Transformer特征的通道和信息过滤,解决了编码器与解码器特征间语义模糊的问题。
Transformer层有助于捕获片内交互,而旋转注意机制处理片间连接。
在跳跃连接处对不同深度和不同分辨率的特征图进行了融合
对前三个特征映射X1、X2、X3以不同的patch大小进行线性嵌入(Z_i),然后,通过transformer块捕捉patch之间的交互,并通过旋转注意力 ...
MobileUNETR:A Lightweight End-To-End Hybrid Vision Transformer For Efficient Medical Image Segmentation
MobileUNETR: A Lightweight End-To-End Hybrid Vision Transformer For Efficient Medical Image Segmentation论文:《MobileUNETR: A Lightweight End-To-End Hybrid Vision Transformer For Efficient Medical Image Segmentation》(ECCV 2024)
Hybrid Encoder Block:利用深度可分离卷积将特征投影到高维,再利用MobileViT block捕获局部和全局信息
Hybrid Decoder Block:首先,使用转置卷积进行上采样;然后,将得到的特征与跳跃连接的特征进行拼接;最后,使用MobileViT block得到改进后的分割结果
MobileViT block
Local representations:先使用n×n卷积进行特征提取,再使用1×1卷积调整通道数,获取局部特征
global representations:通过Unfold和Fold操作实现,对相 ...
Improving Transformers with Dynamically Composable Multi-Head Attention
Improving Transformers with Dynamically Composable Multi-Head Attention论文:《Improving Transformers with Dynamically Composable Multi-Head Attention》(ICML 2024)
多头注意力(MHA)的不足:对于多头注意力(MHA),其注意力头是独立工作的,这种独立性限制了每个头能捕捉到的特征和关系的多样性,注意力矩阵存在低秩瓶颈和冗余。
作者提出了动态组合多头注意力(DCMHA),其解决了MHA的不足,通过动态组合注意力头来提高模型的表达能力。
动态可组合多头注意力(DCMHA)中,核心是一个 Compose 函数,它根据查询 Q_i和键 K_j以及可训练参数 \theta,将它们的注意力向量 A_{:ij}∈{R}^HA:ij∈RH 转换为新的向量 A'_{:ij}
注:假设T、S是查询和键序列长度,用A_h表示第h个头的注意力矩阵
A_{:ij}表示注意力向量,它是查询向量 Q_i和键向量 K_j之间的注意力得分向量
...
Frequency Channel Attention Networks
FcaNet: Frequency Channel Attention Networks通道注意力机制通常会为每个通道分配一个标量权重,用于加权通道特征图。然而,这种简单的标量表示可能无法充分表达通道之间的复杂关系,因此,设计更有效的通道注意力机制需要考虑如何更好地捕捉和利用通道之间的非线性关系,以充分挖掘通道特征图中的信息。
DTC(离散余弦变换)DCT,即离散余弦变换,常用图像压缩算法,步骤如下:
首先将图像分割成8x8或16x16的小块;
DCT变换,对每个小块进行DCT变换;
舍弃高频系数(AC系数),保留低频信息(DC系数)。高频系数一般保存的是图像的边界、纹理信息,低频信息主要是保存的图像中平坦区域信息。
图像的低频和高频,高频区域指的是空域图像中突变程度大的区域(比如目标边界区域),通常的纹理丰富区域。
二维DCT变换就是将二维图像从空间域转换到频率域。形象的说,就是计算出图像由哪些二维余弦波构成,其主要用于数据或图像的压缩,能够将空间域的信号转换到频域上,具有良好的去相关性的性能。二维的DTC公式如下:
二维的逆DTC公式如下:
注:逆变换,通过所有频率分量的在 ...
SCConv: Spatial and Channel Reconstruction Convolution for Feature Redundancy
SCConv: Spatial and Channel Reconstruction Convolution for Feature Redundancy论文:《SCConv: Spatial and Channel Reconstruction Convolution for Feature Redundancy》(cvpr2023)
SCConv由空间重构单元(SRU)和通道重构单元(CRU)组成。
SRU采用分离重构的方法来抑制空间冗余
CRU采用分离变换融合的策略减少通道冗余
SCConv的结构
利用SRU运算获得空间细化特征X^w,然后利用CRU运算获得通道细化特征Y,通过SCConv可以减少中间特征映射之间的冗余并增强CNN的特征表示
空间重构单元(SRU):
空间重构单元(SRU)利用了分离和重构操作,分离操作的目的是将信息丰富的特征图与空间内容对应的信息较少的特征图分离开来
利用组归一化(GN)中的因子\gamma来评估不同特征图的信息内容:
注:因子\gamma是可训练的参数\gamma\in{R^C},可利用其测量通道的像素方差,更丰富的空间信息反映了更 ...
AGILEFORMER:SPATIALLY AGILE TRANSFORMER UNET FOR MEDICAL IMAGE SEGMENTATION
AGILEFORMER: SPATIALLY AGILE TRANSFORMER UNET FOR MEDICAL IMAGE SEGMENTATION论文:《AGILEFORMER: SPATIALLY AGILE TRANSFORMER UNET FOR MEDICAL IMAGE SEGMENTATION》(arXiv 2024)
作者使用了一种新的patch embedding取代了vit-unet中标准的patch embedding
采用空间动态自注意力来捕获空间变化特征
提出了一种新的多尺度可变形位置编码
可变形的patch embedding通过可变形卷积卷积核的采样位置可以根据输入的特征图进行微小的偏移,从而可以实现更灵活的特征提取。通过引入可变形的采样位置,使得补丁嵌入可以更好地适应不规则的结构,从而提高了特征提取的灵活性和准确性。
第一个patch embedding:使用两个连续的可变形卷积层,这两个连续重叠的可变形patch embedding可以更好地提取局部特征,弥补了自注意力中局部性的不足
下采样层:通过3×3卷积完成下采样
空间动态 ...
BEFUnet:A Hybrid CNN-Transformer Architecture for Precise Medical Image Segmentation
BEFUnet: A Hybrid CNN-Transformer Architecture for Precise Medical Image Segmentation论文:《BEFUnet: A Hybrid CNN-Transformer Architecture for Precise Medical Image Segmentation》(arXiv 2024)
本文提出了一种创新的u型网络BEFUnet,该网络增强了体特征和边缘特征的融合,以实现精确的医学图像分割
双分支编码器:
边缘编码器:由四个阶段组成,每个阶段包含4个PDC块用于特征检测,并利用最大池化对各阶段之间的特征进行降采样来得到分层特征
注:PDC块包括一个深度卷积层、一个ReLU层和一个1×1的卷积层
主体编码器:使用Swin-Transfomer对具有全局信息的高级特征进行编码
将提取的边缘和体特征输入到LCAF模块进行融合
LCAF:选择性地将边缘图和主体图进行交叉注意力,来融合边缘和主体的特征
DLF模块:为确保层级之间的特征一致性,使用交叉注意力机制来跨尺度融合信息
较浅的层级包含更精确 ...
SegMamba:Long-range Sequential Modeling Mamba For 3D Medical Image Segmentation
SegMamba: Long-range Sequential Modeling Mamba For 3D Medical Image Segmentation论文:《SegMamba: Long-range Sequential Modeling Mamba For 3D Medical Image Segmentation》(arXiv 2024)
论文贡献:
设计了ToM模块,用以增强三维特征的顺序建模
设计了门控空间卷积模块(GSC),用以增强每个ToM之前空间维度上的特征表示
网络结构:
1.Stem
采用深度卷积,内核大小为7×7×7,填充为3×3×3,步幅为2×2×2。
2.TSMamba块
计算过程如下:
注:其中GSC和ToM分别表示所提出的门控空间卷积模块和三向Mamba模块
3.门控空间卷积(GSC)
门控空间卷积(GSC)用于提取mamba层之前的空间关系
计算过程如下:
4.三向mamba(ToM)
从三个方向计算特征依赖关系,将三维输入特征平铺成三个序列,进行相应的特征交互,得到融合后的三维特征
计算过程如下:
Medical Image Segmentation via Cascaded Attention Decoding
Medical Image Segmentation via Cascaded Attention Decoding论文:《Medical Image Segmentation via Cascaded Attention Decoding》(WACV 2023)
这篇论文和之前看过的一些文章设计思路也差不多,通过对编码器四个阶段输出的特征进行了融合,不同之处在于这篇论文提出了AG和CAM两个模块进行特征的融合,先使用AG进行特征融合,再使用CAM进行增强
级联注意解码器:
UpConv:对特征进行上采样
CAM:用于增强特征映射
作者使用了四个CAM块聚合编码器四个阶段输出的特征,三个AG模块将先前解码器上采样的特征与跳跃连接的特征结合起来
AG:用于级联的特征融合
CAM:用于增强特征映射
CAM由通道注意力、空间注意力和一个卷积块组成,使用通道注意力、空间注意力可以来抑制背景信息
注:这里的卷积块是由两个3×3的卷积层组成,每个卷积层后是一个BN和一个ReLU
多阶段损失和特征聚合:
作者是通过对分层编码器的四个阶段输出的结果使用加性聚合的方式生成最后的预测图:
注 ...
SegFormer3D
SegFormer3D论文:《SegFormer3D: an Efficient Transformer for 3D Medical Image Segmentation》(arXiv 2024)
作者提出了SegFormer3D使用全mlp解码器来聚合局部和全局注意力特征,来产生高度准确的分割掩码
对于编码器部分:
使用patch merging进行下采样:与池化操作相比克服了像素生成过程中的邻域信息丢失的问题,同时也能节省一定的运算量
使用efficient self-attention:捕获全局信息的同时,用缩放系数R减少了self-attention计算的时间复杂度
舍弃了固定的位置编码,使用mix ffn模块来提取位置信息:
对于解码器部分:使用了全MLP的结构,使用了一个统一的模块完成了对不同尺度的特征的解码过程,简化了解码过程,确保在各种数据集中对体积特征进行高效且一致的解码,避免了过度参数化。
参数量和性能的比较:
作者在编码器和解码器的设计中,都使用轻量化的操作(编码器部分的patch merging、efficient self-attent ...