AndyBlocker
RSS FeedBuilding SNNs, LLMs and GPU kernels at Shanghai AI Laboratory.
最近文章
-
SeeDNorm: Self-Rescaled Dynamic Normalization
更新于:有实验有理论,主要是想把RMSNorm丢掉的长度信息用温和的方式补充回去,看起来效果也还可以。实验里面有小模型测试的东西,之后可以学一下他们的setup。另外里面关于方差的一些分析感觉可以挪用到AsyncT上去。
-
Rethinking Attention: Polynomial Alternatives to Softmax in Transformers
更新于:作者认为softmax有效是因为它将Attention矩阵的Frobenius范数控制在了O(sqrt(N))量级,从而稳定了训练,因此提出用多项式激活代替softmax、在期望意义上实现相似的范数控制。理论推完发现这文章没中,ICLR2026得分2222,一下子就不想看下去了。感觉实验和理论都不是很好。
-
AsyncT vllm适配、加速笔记(三)
更新于:最后一篇,主要囊括了AsyncT算子最终的Hopper Specilized版本算子介绍、一些最终效果的breakdown,以及对接下来可以做的工作的一些分析。下一步要对训练做些优化了。
-
AsyncT vllm适配、加速笔记(二)
更新于:加速第二篇,主要是在CUDA Kernel上做更多的优化,反思之前的Benchmarking问题等。
-
AsyncT vllm适配、加速笔记(一)
更新于:笔记的第一部分,主要覆盖了一些preliminaries,基础的vllm接入流程,以及简单的triton算子实现和最基础版本的CUDA算子实现。
-
Attention Residuals
更新于:Kimi团队关于Residual Addition的扩展。看起来某种意义上算是复杂的拓扑结构,说不定在现在的硬件上会有优势?
-
A Unified View of Attention and Residual Sinks: Outlier-Driven Rescaling is Essential for Transformer Training
更新于:Qwen团队,分析LLM中的Outliers是如何产生的、有什么影响。
-
2025
更新于:2025.
-
SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models
更新于:开始做SNN-LLM的QAT/PTQ了,重新读一下之前看过的一些Activation量化的工作。
-
Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free
更新于:NIPS2025 Best Paper。Qwen的。实验实在是过于solid了,真有钱啊。