跳到主要内容
起居室老虎
返回

Rethinking Attention: Polynomial Alternatives to Softmax in Transformers

更新于:

摘要 :本文质疑”softmax 注意力的强性能源于它在输入上产生概率分布”这一观点,转而主张 softmax 的有效性在于它对注意力矩阵 Frobenius 范数的隐式正则,从而稳定训练。据此探索替代激活——特别是多项式——以达到类似的正则效果。理论分析表明某些多项式可作为 softmax 的有效替代,尽管违反了 softmax 通常的正性、归一化、稀疏性,仍能在多种 transformer 应用上取得强性能。大量实验支持这些发现,为注意力机制提供了新视角。

1. Intro

Softmax self-attention 满足三条性质:

  1. 注意力权重非负,
  2. 行归一化使权重和为 1(可解释为概率),
  3. 稀疏性,促使聚焦少数相关 token。

这些性质被普遍认为是有效注意力建模与可解释性的关键,但这一看法主要建立在经验之上、缺乏理论支撑。尽管有人研究过替代激活,softmax 仍占主导,主要因其经验性能与可解释性。

本文提出问题:

Do attention mechanisms in transformers require non-negativity, normalization, and sparsity for effective performance?

并给出新的视角:softmax 的有效性不内禀地源于这三条性质,而源于训练中对注意力矩阵 Frobenius 范数的隐式正则。据此,简单的多项式激活(违反三条性质)仍能通过诱导类似的正则效果,达到与 softmax 相当或更优的性能。这给出了一个与传统概率视角根本不同的解释。

Contributions:

2. Related Works

ReLU,ReLU + ,softmax的泰勒展开等。作者认为本文的独特之处在于:建立了注意力矩阵 Frobenius 范数与输入序列长度之间的明确理论联系 ,并据此设计了打破三条 softmax 性质的多项式激活。

3. Preliminaries and Notation

定义Transformer block:

其中是带残差的 FFN,是 attention head。

Attention head:

定义 是相似度变换,是激活。最常用 self-attention),最常用 是 softmax,于是

Softmax梯度:对,定义梯度线性映射 。约定 Frobenius 范数记

4. Theoretical Analysis

Frobenius的定义:

,定义

且有

Frobenius 范数等于奇异值的L2范数,因此有。且有:

4.1. Implicit regulatization of Softmax

本节证明 softmax 对 self-attention 矩阵 Frobenius 范数的控制_随 token 长度次线性增长_,并且 softmax 关于该矩阵的梯度也有类似规律性。前人从 Lipschitz 常数角度分析过 softmax 的规律性,本文的新意是直接把 Frobenius 范数规律性与 token 长度挂钩,从而给出”注意力激活该如何随 token 长度缩放才能在(基于梯度下降的)训练中保持稳定”的洞见。

Theorem 4.1:

证明:(1)

元为。每一行是概率向量。按定义,有:

由于“平方和小于等于和的平方”可展开,展开后交叉项

行各贡献,故,开方得

注意到这个界的松紧由稀疏度决定,行向量越接近one-hot的时候,,取上界;越均匀,,整体,因此实际范围应当是1

(2)

softmax 逐行独立作用,输出只依赖输入第行,故整张 Jacobian是按行分块对角的,共个块,每块是单行 softmax 的 Jacobian。又因,只需算 Jacobian。单行(概率)的 Jacobian 是

于是

把单个输出关于本行输入的梯度记为,分量,然后用 放成:

因行和为 1,,两者相加等于代入并再用:

求和,。故每行,开方

不过实际上注意到,

,展开整理(对角项给,非对角项给):

由柯西不等式,,即。代入:

最大值取到(例如某行是两个的均匀分布;时块 ,精确取等)。于是每行, ,

所以论文的常数 2 比可达的最优常数松了 4 倍。

4.2. Polynomial activations for self-attention

既然 softmax 隐式正则了 Frobenius 范数,现在证明对特定多项式激活做缩放,可以在期望意义上达到类似效果。

Theorem 4.2.

为 i.i.d. 高斯,2。则对,有:

证明:当时,,则有

对角项等于,非对角项因a,b均值零、互相独立而为0,故

每个元同理,共个,,琴生不等式得

时,要算,其中, i.i.d. 均值零、\mathrm{Var}(X_i)=\sigma_1^2\sigma_2^2$$、且 \mathbb E[X_i^{\text{odd}}]=0=\mathbb E[a^{\text{odd}}]\mathbb E[b^{\text{odd}}]=0$)。

做多项式展开:

取期望,注意到含奇数的项因为消去了。按的阶看,主导项是拆成 落在个不同下标上(计数,这是最多不同因子、计数最高的情形;一个对只用个下标,低阶)。主导项:

其中是把的多项式系数(, 个)合进去。化简,再用 。注意到于是

这是无关的常数。个元求和:,琴生得

注意到有个关于的常数随着指数增长,跟正文里面提到的太大了就无法训练能相互印证。

Theorem 4.3.

显然的缩放,乘

Theorem 4.4

(行,-维),元方差记 。要界(逐元素幂)。整张梯度是 4-张量(输出 ,参数),其 Frobenius 范数平方

时有:

所以

于是

展开内平方:

取期望,交叉项含 ()而消失,剩

对全部求和:

合计

琴生得

再考虑的情况,链式法则:

_。_则要算

用与 Thm 4.2 同样的”奇次矩消、偶次配对取的 leading order”机制,论文给出主导项:

这里 因子配对的高斯计数(与 次矩出 同理, 阶出)。 是数 因子总幂次的结果( 携带 , 次再乘 )。

关键是 依赖恰为 ,与 无关——它纯粹来自外层 个输出位置,每个位置的期望梯度能量 无关。

缩放得 ,缩放

理论推完发现这文章没中,ICLR2026得分2222,一下子就不想看下去了。感觉实验和理论都不是很好。

Footnotes

  1. 也解释了Fig2里面softmax的范数曲线实际上远低于预期的数值,因为它实际上没有工作在one hot like的上界附近。

  2. 其实感觉这里有点不对,因为是两个高斯矩阵的乘积,显然不是一个高斯矩阵,并且一行内的元素共享,所以相互之间也是相关的。论文里面的Remark4.6只说了初始化的时候成立但没讨论这个问题。

  3. 论文里面的证明在此处疑似有问题,感觉它的的地方是不是重复算了?


分享这篇文章:

下一篇
AsyncT vllm适配、加速笔记(三)