标签: LLM

所有带有此标签的文章 "LLM".

Titans: Learning to Memorize at Test Time

更新于: 8 Mar, 2025

从TTT改进而来的新架构，尝试通过TTT的方式改进模型的记忆能力。
Were RNNs All We Needed?

更新于: 8 Mar, 2025

改进RNN，便于scale up
I-LLM: Efficient Integer-Only Inference for Fully-Quantized Low-Bit Large Language Models

更新于: 8 Mar, 2025

LLM的Interger-Only PTQ量化工作。
FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness

更新于: 8 Mar, 2025

Flash Attention，利用硬件结构加速Attention计算速度、减少内存占用的算法。核心是Tiling，Online Softmax和Kernel Fusion。
PowerInfer: Fast Large Language Model Serving with a Consumer-grade GPU

更新于: 8 Mar, 2025

From IPADS, 利用模型预测LLM中需要激活的MoE or Neuron，减少资源消耗。

Titans: Learning to Memorize at Test Time