SG-Former

论文:《SG-Former: Self-guided Transformer with Evolving Token Reallocation》(ICCV 2023)

1.探究动机

ViT使用全局的自注意力机制,但带来了较高的计算成本。

Swin Transformer设计了窗口注意力,而牺牲了建模全局信息的能力。

提出SG-Fomer(Self-guided Transformer):利用显著性图,根据每个区域的显著性来分配token,将更多的token分配给显著性区域以获取细粒度的注意力,而将更少的token分配给次要的区域以换取计算效率和全局的感受野。

image-20231130202913356

注:在显著性区域(狗脸)分配更多的token

2.网络设计

image-20231130203138889

Hybrid-Scale Transformer blocks:提取多尺度的信息并为Self-Guided Transformer Block提供显著性图

image-20231129153810548

把H个注意力头分成h组,在第j组的注意力头有一个尺度因子,即对于K,V的每个token合并为一个token,把K、V的窗口大小设为M,Q的窗口大小设为(使Q中token与K、V中的token对齐)

注:

(1)K,V的窗口大小在所有组中都是固定的,均为M,而Q的窗口大小还和$S_j$有关,每一组的输出均为N*M,N为token序列的长度

(2)token的合并是通过卷积实现的

image-20231130205331048

image-20231130205438728

Token 的重要性被视为所有 Token 和当前 Token 的乘积之和:

image-20231129153230302

注:S是对所有的$S_i$求和的结果,即为最终的注意力图,用于混合尺度引导

Self-Guided Transformer Block:

为了降低计算成本,同时保持计算后特征映射的大小不变,固定Q的大小,使用IAM(importance guided aggregation module)对K和V的token进行聚合

image-20231130211007377

注:S为显著性图,r为合并比率

将S平均分为n个子区域S1,S2,……Sn,每个区域设置不同的合并比率r1,r2,……,rn,子区域越重要,合并比率越小,输入特征X按X1,X2,……,Xn分组,每组有不同的合并比率

image-20231130212526902

注:token的合并通过全连接层实现

3.实验

与其他结构在语义分割任务中的对比:

image-20231130215028355