分布式系统研究组
Distributed Systems Group

大模型量化优化研究被体系结构顶会ASPLOS接收

近日,研究组与中科院计算所合作的关于大模型量化优化的研究论文“COMET: Towards partical W4A4KV4 LLMs serving”被计算机体系结构领域顶级会议ASPLOS 2025接收。该论文提出了一种细粒度混合精度量化算法(FMPQ),首次实现了大语言模型(LLMs)的W4A4KV4高效推理,充分利用现代GPU的INT4张量核心,显著降低了KV缓存的内存瓶颈。通过开发高度优化的W4Ax内核,并结合新颖的混合精度数据布局和细粒度流式多处理器调度,在LLaMA系列模型上实现了显著的性能提升。实验表明,在单块A100-80G-SMX4 GPU上,COMET推理框架相比cuBLAS和TensorRT-LLM分别实现了2.88倍和2.02倍的加速。

论文信息:Lian Liu, Long Cheng, Haimeng Ren, Zhaohui Xu, Yudong Pan, Mengdi Wang, Xiaowei Li, Yinhe Han, Ying Wang. COMET: Towards partical W4A4KV4 LLMs serving. Proc. ACM International Conference on Architectural Support for Programming Languages and Operating Systems (ASPLOS), Rotterdam, The Netherlands, April 2025