Posts
All the articles I've posted.
Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative Model Inference with Unstructured Sparsity
Updated: at 15:07Published: at 13:50VLDB2024,阿里的工作,看起来工程特别扎实。LLM任务上只通过对weight做sparse load就能在decode阶段获得3-4倍的提速。
SpikingBrain-瞬息 1.0技术报告:原生国产自主可控类脑脉冲大模型
Updated: at 14:34Published: at 10:46李国齐老师组的新工作技术报告。说实话,我并不觉得这是一个正经的SNN-LLM工作,感觉已经完全是Linear Attention国产化的工作了。很难评价。
MLP Memory: Language Modeling with Retriever-pretrained External Memory
Published: at 14:22用MLP学习并代替RAG中kNN输出的概率分布。
Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention
Published: at 16:04ACL2025 Best Paper,DeepSeek新作。分层KV Cache提高稀疏度,在训练和推理阶段同时提高性能。
GPU上的SNN稀疏加速
Updated: at 11:09Published: at 14:11把最近做的关于GPU上SNN稀疏加速的东西做一下总结,虽然不太成功。
T-MAC: CPU Renaissance via Table Lookup for Low-Bit LLM Deployment on Edge
Published: at 16:23T-MAC, 用LUT加速BitNet系列的工作,在CPU上跑,后续还有一个工作叫T-MAN是在移动端的高通CPU里面的NPU上跑LUT加速。
HYTE: Flexible Tiling for Sparse Accelerators via Hybrid Static-Dynamic Approaches
Published: at 16:27ISCA2025,做稀疏数据流分块的,后半截没什么精力看了,现在的工作还没做稀疏编码。
SNN on GPU
Published: at 11:48接下来要开始着手做这个SNN在GPU上的推理加速了,写一些笔记整理思路。
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
Published: at 17:47看看Shift-Window Attention。
SpikeVideoFormer: An Efficient Spike-Driven Video Transformer with Hamming Attention and O(T) Complexity
Published: at 16:56用汉明距离替换Attention中的点乘操作,避免出现Spike错开的情况。中间的做法比较有趣,但是实验感觉做的一般般,尤其是claim了自己有硬件实现的情况下energy计算还用的是纯算法的计算,并且FPGA的具体实现也没有透露,说了也没有说清楚。精度没有超过ANN2SNN的SOTA。重点还是需要用一些其他的操作替换掉对SNN不适应的算子。