SG-Former

论文：《SG-Former: Self-guided Transformer with Evolving Token Reallocation》（ICCV 2023)

ViT使用全局的自注意力机制，但带来了较高的计算成本。

Swin Transformer设计了窗口注意力，而牺牲了建模全局信息的能力。

提出SG-Fomer（Self-guided Transformer):利用显著性图，根据每个区域的显著性来分配token，将更多的token分配给显著性区域以获取细粒度的注意力，而将更少的token分配给次要的区域以换取计算效率和全局的感受野。

注：在显著性区域（狗脸）分配更多的token

Hybrid-Scale Transformer blocks:提取多尺度的信息并为Self-Guided Transformer Block提供显著性图

把H个注意力头分成h组，在第j组的注意力头有一个尺度因子 $S_j$ ,即对于K,V的每 $S_j*S_j$ 个token合并为一个token，把K、V的窗口大小设为M,Q的窗口大小设为 $S_jM*S_jM$ (使Q中token与K、V中的token对齐）

注：

（1）K,V的窗口大小在所有组中都是固定的，均为M,而Q的窗口大小还和$S_j$有关，每一组的输出均为N*M,N为token序列的长度

（2）token的合并是通过卷积实现的

Token 的重要性被视为所有 Token 和当前 Token 的乘积之和：

注：S是对所有的$S_i$求和的结果，即为最终的注意力图，用于混合尺度引导

Self-Guided Transformer Block：

为了降低计算成本，同时保持计算后特征映射的大小不变，固定Q的大小，使用IAM（importance guided aggregation module)对K和V的token进行聚合

注：S为显著性图，r为合并比率

将S平均分为n个子区域S1，S2,……Sn,每个区域设置不同的合并比率r1,r2,……，rn,子区域越重要，合并比率越小，输入特征X按X1,X2,……,Xn分组，每组有不同的合并比率

注：token的合并通过全连接层实现

与其他结构在语义分割任务中的对比：