SG-Former
SG-Former
论文:《SG-Former: Self-guided Transformer with Evolving Token Reallocation》(ICCV 2023)
1.探究动机
ViT使用全局的自注意力机制,但带来了较高的计算成本。
Swin Transformer设计了窗口注意力,而牺牲了建模全局信息的能力。
提出SG-Fomer(Self-guided Transformer):利用显著性图,根据每个区域的显著性来分配token,将更多的token分配给显著性区域以获取细粒度的注意力,而将更少的token分配给次要的区域以换取计算效率和全局的感受野。
注:在显著性区域(狗脸)分配更多的token
2.网络设计
Hybrid-Scale Transformer blocks:提取多尺度的信息并为Self-Guided Transformer Block提供显著性图
把H个注意力头分成h组,在第j组的注意力头有一个尺度因子,即对于K,V的每个token合并为一个token,把K、V的窗口大小设为M,Q的窗口大小设为(使Q中token与K、V中的token对齐)
注:
(1)K,V的窗口大小在所有组中都是固定的,均为M,而Q的窗口大小还和$S_j$有关,每一组的输出均为N*M,N为token序列的长度
(2)token的合并是通过卷积实现的
Token 的重要性被视为所有 Token 和当前 Token 的乘积之和:
注:S是对所有的$S_i$求和的结果,即为最终的注意力图,用于混合尺度引导
Self-Guided Transformer Block:
为了降低计算成本,同时保持计算后特征映射的大小不变,固定Q的大小,使用IAM(importance guided aggregation module)对K和V的token进行聚合
注:S为显著性图,r为合并比率
将S平均分为n个子区域S1,S2,……Sn,每个区域设置不同的合并比率r1,r2,……,rn,子区域越重要,合并比率越小,输入特征X按X1,X2,……,Xn分组,每组有不同的合并比率
注:token的合并通过全连接层实现
3.实验
与其他结构在语义分割任务中的对比: