传统transformer
传统
input 通常包含 数据的长度N 数据的维度d
模型参数量与性能对比
d下降的情况下,会导致attention单元 上下文捕捉关系不足,导致效果差
d不变的情况下,会导致参数量变多,上下文捕获好,效果好
作者的想法 d不变,参数量给他变少一点
LSRA (长短距离注意力)
左侧为传统transformer结构
右侧为专门处理局部关系的卷积分支
LSRA 模块遵循两分支设计。左侧注意力分支负责捕获全局上下文,右侧卷积分支则建模局部上下文。研究者没有将整个输入馈送到两个分支,而是将其沿通道维度分为两部分,然后由后面的 FFN 层进行混合。这种做法将整体计算量减少了 50%