统一认证VPN入口

学科学术

当前位置: 长沙理工大学 > 学科学术 > 正文

张骏雪: Not All Tokens are Important: Exploiting Sparsity for Efficient LLM Systems

发布日期:2025年07月08日  来源:计算机学院

报告承办单位:计算机学院

报告内容: Not All Tokens are Important: Exploiting Sparsity for Efficient LLM Systems

报告人姓名:张骏雪

报告人所在单位:中国科学技术大学

报告人职称/职务及学术头衔:特任教授

报告时间: 2025年718日周五上午9

报告地点: 金盆岭校区9教211

报告简介:随着大模型系统(包括训练和推理)的持续发展,对 Token 数量的需求日益增长。一方面,训练任务日趋复杂,为提升模型性能,需要引入更多的 Token;另一方面,推理应用场景也在不断扩展,逐步支持更复杂的任务,如 RAG、多轮对话和推理问答等。这一趋势对大模型系统提出了新的挑战:如何在处理海量 Token 的同时,依然保持系统的高效性。

在本次演讲中,我们将介绍我们如何利用 Token 的稀疏性——即并非所有 Token 都同等重要的特性——来优化和设计更高效的大模型系统。具体内容包括两个方面:1. 训练优化方面,我们将介绍 Collider 系统。该系统结合 Activation Filter 和对 Sparse GEMM 的深度优化,成功地将算法层面的稀疏性转化为训练性能的显著提升。2. 推理优化方面,针对推理阶段的重调度(Re-scheduling)问题,我们提出了一种基于 KV Cache 稀疏性的渐进式传输机制,有效缩短了重调度响应时间,同时显著提升了资源利用率和调度稳定性。

报告人简介:张骏雪,中国科学技术大学特任教授、博导,国家海外高层次青年人才。本科及硕士均毕业于东南大学,博士学位获得于香港科技大学,师从陈凯教授。曾担任香港科技大学研究助理教授(Research Assistant Professor)。主要研究方向包括数据中心网络、RDMA网络以及机器学习系统。近年来,他在网络和系统领域的顶级学术会议和期刊上发表二十余篇论文,作为第一作者或通讯作者(包括共同通讯作者)在SIGCOMM、NSDI、ATC、EuroSys以及IEEE/ACM Transactions on Networking等会议、期刊上发表多篇重要论文。