标签: 算法
所有带有此标签的文章 "算法".
-
Rethinking Attention: Polynomial Alternatives to Softmax in Transformers
更新于:作者认为softmax有效是因为它将Attention矩阵的Frobenius范数控制在了O(sqrt(N))量级,从而稳定了训练,因此提出用多项式激活代替softmax、在期望意义上实现相似的范数控制。理论推完发现这文章没中,ICLR2026得分2222,一下子就不想看下去了。感觉实验和理论都不是很好。
-
Attention Residuals
更新于:Kimi团队关于Residual Addition的扩展。看起来某种意义上算是复杂的拓扑结构,说不定在现在的硬件上会有优势?
-
A Unified View of Attention and Residual Sinks: Outlier-Driven Rescaling is Essential for Transformer Training
更新于:Qwen团队,分析LLM中的Outliers是如何产生的、有什么影响。
-
SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models
更新于:开始做SNN-LLM的QAT/PTQ了,重新读一下之前看过的一些Activation量化的工作。
-
Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free
更新于:NIPS2025 Best Paper。Qwen的。实验实在是过于solid了,真有钱啊。
-
Nested Learning: The Illusion of Deep Learning Architectures
更新于:谷歌新作,号称“深度学习新范式”。提到了异步,具体指的是让模型靠近输入的位置的更新频率高于靠后的位置,这个思路和之前Sakana AI的那个文章有点像。但文章里面的东西感觉全都是Fast Weight Programming的内容,arxiv的文章全文也一直没挂出来。
-
Kimi Linear: An Expressive, Efficient Attention Architecture
更新于:Kimi Linear,有比较详细的实验&Scale Up。有Linear Attention可以去掉RoPE这个结论还是比较惊喜的。
-
Parallelizing Linear Transformers with the Delta Rule over Sequence Length
更新于:DeltaNet
-
MLP Memory: Language Modeling with Retriever-pretrained External Memory
更新于:用MLP学习并代替RAG中kNN输出的概率分布。
-
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
看看Shift-Window Attention。