标签: 推理加速

所有带有此标签的文章 "推理加速".

Efficient Spatially Sparse Inference for Conditional GANs and Diffusion Models

更新于: 9 Jun, 2025

NIPS2022上一篇比较有影响力的论文，对GAN和扩散模型做推理加速的工作，提出了Spatially Sparse Inference，仅在被编辑区域上稀疏地应用卷积滤波器，同时对未编辑区域复用缓存的特征
初探AI Infra

更新于: 11 Mar, 2025

趁最近找实习的机会学习、总结一下之前零散接触过的模型推理/训练加速的知识，还有一些CUDA编程的体系架构之类的内容。
SparseRT: Accelerating Unstructured Sparsity on GPUs for Deep Learning Inference

更新于: 8 Mar, 2025

GPU上做MM相关的算子生成，利用load balancing和稀疏做加速，根据model生成PTX代码
FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness

更新于: 8 Mar, 2025

Flash Attention，利用硬件结构加速Attention计算速度、减少内存占用的算法。核心是Tiling，Online Softmax和Kernel Fusion。
Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference

更新于: 8 Mar, 2025

谷歌的，第一篇完整跑通interger-only量化推理流程的工作。
PowerInfer: Fast Large Language Model Serving with a Consumer-grade GPU

更新于: 8 Mar, 2025

From IPADS, 利用模型预测LLM中需要激活的MoE or Neuron，减少资源消耗。

Efficient Spatially Sparse Inference for Conditional GANs and Diffusion Models