Link:
https://sustcsonglin.github.io/blog/2024/deltanet-1/
https://sustcsonglin.github.io/assets/pdf/talk_250117.pdf
https://zhuanlan.zhihu.com/p/16374862400
有些 CV 工作把 ViT 里面的 transformer 换成 linear 的
比如 Mobile Attention: Mobile-Friendly Linear-Attention for Vision Transformers,https://proceedings.mlr.press/v235/yao24c.html
softmax 的替代?
可以用核函数$$\Phi$$近似
只要把 $exp(QK^T$ 拿掉,不用先算出 $QK^T$ 了,就可以用乘法交换律展开为 linear attn 的通项 $S_t=S_{t-1}+v_tk_t^T$

Softmax 方案

用核函数 $\Phi$ 近似,可以 KV 先乘,最后乘 Q

第一代(data-independant decay,固定的 decay 方式):RetNet,Minimax-01
二代(data-dependant decay):GLA,Mamba 1/2,RWKV-6
三代:DeltaNet,加了 delta rule,有擦除能力

