DuQuant: 基于正交变换实现大型语言模型的 SOTA级 4 bit 量化


青稞Talk 第二十八期

11月5日19点,青稞Talk 第28期,中科院自动化所和香港城市大学联合培养博士生林浩坤,将直播分享《DuQuant: 基于正交变换实现大型语言模型的 SOTA级 4 bit 量化》。DuQuant 的论文在NeurIPS 2024 上获得 88877 的分数并被接收为Oral。

主讲嘉宾

林浩坤,中科院自动化所和香港城市大学联合培养博士生,研究方向为模型压缩加速,相关研究工作发表于CVPR、NeurIPS、ICLR等会议。

主题提纲

DuQuant: 基于正交变换实现大型语言模型的 SOTA级 4 bit 量化

1、大语言模型权重激活(WA)量化算法概述
2、SOTA 4bit 量化算法:DuQuant
  - LLM 中的离群值(outliers)问题
  - 正交变换分散 LLM 离群值策略
  - 在 LLaMA、Vicuna、Mistral 系列模型的验证
3、DuQuant 量化实践

成果链接

Paper:DuQuant: Distributing Outliers via Dual Transformation Makes Stronger Quantized LLMs
Abs:https://arxiv.org/pdf/2406.01721
Code: https://github.com/Hsu1023/DuQuant
Project:https://duquant.github.io

直播时间

11月5日(周二)19:00 - 20:00