跳到主要内容
起居室老虎

归档

全部归档文章。

2026 7
六月 2
  • Rethinking Attention: Polynomial Alternatives to Softmax in Transformers

    更新于:

    作者认为softmax有效是因为它将Attention矩阵的Frobenius范数控制在了O(sqrt(N))量级,从而稳定了训练,因此提出用多项式激活代替softmax、在期望意义上实现相似的范数控制。理论推完发现这文章没中,ICLR2026得分2222,一下子就不想看下去了。感觉实验和理论都不是很好。

  • AsyncT vllm适配、加速笔记(三)

    更新于:

    最后一篇,主要囊括了AsyncT算子最终的Hopper Specilized版本算子介绍、一些最终效果的breakdown,以及对接下来可以做的工作的一些分析。下一步要对训练做些优化了。

五月 2
三月 1
  • Attention Residuals

    更新于:

    Kimi团队关于Residual Addition的扩展。看起来某种意义上算是复杂的拓扑结构,说不定在现在的硬件上会有优势?

二月 1
一月 1
  • 2025

    更新于:

    2025.

2025 42
十二月 2
十一月 2
  • Nested Learning: The Illusion of Deep Learning Architectures

    更新于:

    谷歌新作,号称“深度学习新范式”。提到了异步,具体指的是让模型靠近输入的位置的更新频率高于靠后的位置,这个思路和之前Sakana AI的那个文章有点像。但文章里面的东西感觉全都是Fast Weight Programming的内容,arxiv的文章全文也一直没挂出来。

  • Kimi Linear: An Expressive, Efficient Attention Architecture

    更新于:

    Kimi Linear,有比较详细的实验&Scale Up。有Linear Attention可以去掉RoPE这个结论还是比较惊喜的。

十月 1
九月 4
八月 2
七月 2
六月 9
五月 8
四月 3
三月 3
二月 2
一月 4
2024 34
十二月 4
十一月 1
  • LoCC工作总结

    更新于:

    老板找到idea到交稿只用了两个星期,第一次完整跟着做完一整篇论文的工作。

十月 3
八月 3
七月 3
六月 2
五月 2
三月 16