AWQ:激活值感知的LLM低位权重量化

8月14日晚7点,青稞Talk第19期,MIT准博士生唐嘉铭,将直播分享《AWQ:激活值感知的LLM低位权重量化》。

主讲嘉宾

唐嘉铭,MIT准博士生;导师是韩松教授;此前,在上海交通大学(ACM班)获得了计算机科学学士学位;大三期间,在上海交通大学高性能计算中心实验室(EPCCLab)进行科研实习,导师是冷静文教授;研究兴趣是大语言模型的高效算法和系统,发表的论文 AWQ 获得了MLSys 2024最佳论文奖,并已被集成到Transformers、vLLM、FastChat、TensorRT-LLM和TGI中。

主题提纲

AWQ:激活值感知的LLM低位权重量化

  • 1、大模型量化的常见方法介绍
  • 2、激活感知权重量化 AWQ 技术解析
  • 3、AWQ 的代码实现及使用方法

成果链接

直播时间

8月14日(周三)19:00-20:00