HCF-Net
HCF-Net: Hierarchical Context Fusion Network for Infrared Small Object Detection论文:《HCF-Net: Hierarchical Context Fusion Network for Infrared Small Object Detection》(arXiv 2024)
PPA采用分层特征融合和注意机制来维护和增强对小物体的表示,确保关键信息通过多次下采样步骤得以保留。
DASI增强了U-Net中的跳跃连接,侧重于高维和低维特征的自适应选择和精细融合,以增强小物体的显著性。
位于网络深处的MDCR加强了多尺度特征提取和通道信息表示,捕捉各种感受野范围内的特征。
1.PPA
对于小目标而言,经过多次下采样容易丢失关键信息,作者使用PPA模块取代了编码器和解码器中的传统卷积的操作,来解决此问题。
PPA使用了多分支提取策略,多分支策略有助于捕获物体的多尺度特征,从而提高对小目标的特征提取能力。其由三个平行分支组成:局部、全局、串行卷积。
PPA步骤如下:
对于输入特征F,先使用点卷积调整通道数,然后输入 ...
LHU-NET
LHU-NET: A LIGHT HYBRID U-NET FOR COST-EFFICIENT, HIGH-PERFORMANCE VOLUMETRIC MEDICAL IMAGE SEGMENTATION论文:《LHU-Net: A Light Hybrid U-Net for Cost-Efficient, High-Performance Volumetric Medical Image Segmentation》(arXiv 2024)
LHU-Net:将基于卷积的块与混合注意力机制集成
Init 阶段与Out阶段:
该阶段从一个点卷积操作(PW-Conv)开始,应用于输入数据,调整通道维度以匹配后续级别的通道数。
同时对于输入直接应用ResBlock,将其输出输入到Out阶段,与解码器的输出进行连接,产生最后的结果
注:X_{CD}表示CNN解码器块输出
CNN Blocks:
初始空间维度需要大量的计算成本,Vit难以应用,故在此阶段的设计是为了优化参数效率和保留局部特征,在之后的阶段再提取全局特征
Down Conv块的设计如下:
Hybrid ...
D-Net
D-Net: Dynamic Large Kernel with Dynamic Feature Fusion for Volumetric Medical Image Segmentation论文:《D-Net: Dynamic Large Kernel with Dynamic Feature Fusion for Volumetric Medical Image Segmentation》(arXiv 2024)
主要贡献:
提出用于通用特征提取的大核模块(DLK),其采用多个大卷积核来捕获多尺度特征,然后利用动态选择机制,根据全局上下文信息自适应地吐出最重要的空间特征
提出动态特征融合模块,实现自适应的特征融合(DFF),其根据全局信息融合多尺度局部特征
提出D-Net用于3d医学图像分割,其将DLK和DFF模块结合到了分层Vit模块中,实现了更高的分割准确性
使用固定大小的核的卷积在自适应地捕获多尺度特征方面存在不足,因而作者提出了动态大核(DLK)与动态特征融合模块(DFF)
(顺序地聚合大核卷积来扩大感受野)
Dynamic Large Kernel (DLK):
...
BiFormer
BiFormer: Vision Transformer with Bi-Level Routing Attention论文:《BiFormer: Vision Transformer with Bi-Level Routing Attention》(CVPR 2023)
文章贡献:
作者提出了一种新颖的双层路由机制,将其应用于传统的注意力机制中。
基于双层路由注意力机制,作者提出了一种名为BiFormer的通用视觉Transformer模型。
1.注意力:
注:\sqrt{C}是缩放因子用以避免梯度消失
多头注意力:对输入沿着通道维度分成h个块(头部),每个块使用一组独立的权重
注1:W_0是一个额外的线性变换用来组合所有的头
注2:MHSA的复杂度是O(N^2),因为有N个查询,每个查询涉及N个键值对
2.双级路由注意力(BRA)
作者探索了一种动态的、查询感知的稀疏注意机制,在粗粒度的区域级别上过滤掉大多数不相关的键-值对,使得只有少部分的路由区域保留下来,在这些路由区域的并集上应用细粒度的令牌-令牌注意力。
算法步骤:
区域划分和输入投影:对于输入X\in{H×W ...
EPT-Net
EPT-Net: Edge Perception Transformer for 3D Medical Image Segmentation论文:《EPT-Net: Edge Perception Transformer for 3D Medical Image Segmentation》(TMI 2023)
EPT-NET:在编码器中通过CNN提取网络的详细的底层特征,作者提出了双位置Transformer模块通过学习位置编码和像素空间位置编码的过程,增强了定位能力,解决了多器官之间定位不准确的问题,增强了网络对复杂器官形状的理解能力。
提出了一种双位置嵌入Transformer,包括可学习位置嵌入和体素空间位置嵌入。利用该方法对位置编码进行优化,可以有效地捕捉医学图像中不同器官位置之间的内在相关性。
提出了一个边缘权重指导模块来学习浅特征中的边缘信息,它可以捕获相邻器官之间的微小粘附。这种设计是在不增加网络参数的情况下最小化边缘信息功能。
卷积操作在局部像素周围进行计算,只能捕获局部特征,缺乏全局上下文信息的提取能力,可能会导致边缘信息的处理不足。
网络结构
EPT-Net ...
3D Medical image segmentation using parallel transformers
3D Medical image segmentation using parallel transformersTransHRNet:为并行连接不同分辨率的流而设计
本文的贡献点:
提出了一种基于Transfomer的新型深度神经网络(TransHRNet),将不同分辨率的数据流并行连接,并融合不同分辨率的信息。
引入EffTrans模块来提高性能
网络结构:
TransHRNet首先使用3D CNN生成X的紧凑特征表示来捕获空间和深度信息,在此过程中不断扩大感受野,并以不同的尺度对特征进行编码,但在此过程中仍然未充分利用图像的信息。作者提出了一个特征增强模块(EffTrans),利用Transformer编码器来学习全局空间中的长距离依赖关系,同时并行连接不同的分辨率流,在分辨率上重复执行信息交互。之后,解码器通过上采样和卷积操作产生最后的分割结果。
将图像转换为序列:
将特征张量的空间和深度维度合并成一个维度,从而得到一个关于图像X的patch嵌入的1D序列。
位置编码:使用正余弦位置编码
注:\large \#∈{D, H,W},v =1/10000^ ...
DELIGHT DEEP AND LIGHT-WEIGHT TRANSFORMER
DELIGHT论文:《DELIGHT DEEP AND LIGHT-WEIGHT TRANSFORMER》
DeLighT比标准的基于Transfomer的模型具有更少的参数,在每个Transformer块中使用DeLighT转换
DeLighT架构促使在Transformer中用单头注意力和轻量级前馈层替代多头注意力和前馈层,从而减少了总网络参数和运算。
注:在多头注意力中,每个注意力头都有自己的参数矩阵,因此总参数量较大。而使用单头注意力,参数矩阵只需一个,可以减少参数量。多头注意力需要对每个头进行独立计算,然后将它们合并,而单头注意力只需要进行一次计算,因此在计算上更加高效。
DeLighT TransformerDeLighT变换:将一个d_m维的输入向量映射到一个高维空间(Expansion),然后通过组线性变换(GLT)将其将维到一个d_o维的输出向量(Reduction)。
注:组线性变换(GLT)用于降低Transformer模型的计算复杂度,分成N个组,每个组共享权重矩阵,通过输入的特定部分来输出局部的特征表示,其比线性更高效
为了学习全局表示,DeLighT变换使 ...
VSA
VSA: Learning Varied-Size Window Attention in Vision Transformers论文:《VSA: Learning Varied-Size Window Attention in Vision Transformers》(ECCV 2022)
对于Swin Transfomer中的窗口注意力机制,如果窗口大小为可变的矩形窗口,其大小和位置直接从数据中学习,则transfomer可以从不同的窗口中捕获丰富的上下文,并学习更强大的对象特征表示。
VSA使用窗口回归模块根据每个默认窗口中的token来预测目标窗口的大小和位置
VSA将可学习的可变大小的窗口注意力引入到Transformer中
Varied-size window attention (VSA)的注意力机制:VSA允许查询令牌(query tokens)关注远处的区域,并赋予网络确定目标窗口大小(即注意力区域)的灵活性
VSA先将输入特征划分为几个窗口,这些窗口的大小基于预定义的w,这样的窗口被称为默认窗口
然后从默认窗口获取查询特征:通过一个线性变换来实现
VSR模 ...
TransNeXt
TransNeXt论文:《TransNeXt: Robust Foveal Visual Perception for Vision Transformers》(CVPR 2024)
网络结构
像素聚焦注意力机制:在每个查询附近具有细粒度感知,同时保持对全局的粗粒度感知(结合了滑动窗口注意力和集中注意力)
像素聚焦注意力(pixel-focused attention (PFA) )具体过程如下:
注1:定义输入特征图上以 (i, j)为中心的滑动窗口中的像素集合为ρ(i, j) 。对于固定的窗口大小 k×k , ||ρ(i, j)|| = k^2。同时, 作者定义从特征图池化得到的像素集合为的 σ(X) 。对于池化大小 Hp×Wp,||σ(X) || = Hp×Wp。
注2:PFA由滑动窗口注意力和池化窗口注意力两部分组成
池化:平均池化操作会严重丢失信息,所以在池化之前使用单层神经网络进行投影和激活,提前压缩提取有用的信息,从而提高下采样后的信息压缩率
下采样算子(Activate and Pool)如下:
LKV通过添加一个可学习的查询嵌入(QE),来聚合多样的注意力:
Q ...
H2Former
H2Former论文:《H2Former: An Efficient Hierarchical Hybrid Transformer for Medical Image Segmentation》(TMI 2023)
文章贡献:
提出了一个分层混合模型,整合了CNN的局部信息、多尺度通道注意力特征和Transformer的长距离特征在一个统一的块内。
一个轻量级的多尺度通道注意力(MSCA)
在三个2D和两个3D医学图像分割任务上证明了模型的有效性
网络结构:
Conv stem:由一个卷积层和一个最大池化层,将输入的图像划分成多个patch,并对每个小块进行特征提取。
Hybrid Transformer Block:在特征提取过程中引入多尺度通道注意力、卷积层和Transformer层,以解决卷积的局部性和Transformer单一尺度特征的局限性。
Multi-Scale Channel Attention (MSCA):捕捉不同形状和尺度的多尺度特征,并通过通道注意力机制对这些特征进行校准,从而去增强模型的表达能力
对于每个特征图,MSCA将其划分为多个尺度的token, ...