DuQuant：基于正交变换实现大型语言模型的 SOTA级 4 bit 量化

青稞2024-11-05

11月5日19点，青稞Talk 第28期，中科院自动化所和香港城市大学联合培养博士生林浩坤，将直播分享《DuQuant：基于正交变换实现大型语言模型的 SOTA级 4 bit 量化》。DuQuant 的论文在NeurIPS 2024 上获得 88877 的分数并被接收为Oral。

主讲嘉宾

林浩坤，中科院自动化所和香港城市大学联合培养博士生，研究方向为模型压缩加速，相关研究工作发表于CVPR、NeurIPS、ICLR等会议。

1、大语言模型权重激活(WA)量化算法概述
2、SOTA 4bit 量化算法：DuQuant
- LLM 中的离群值(outliers)问题
- 正交变换分散 LLM 离群值策略
- 在 LLaMA、Vicuna、Mistral 系列模型的验证
3、DuQuant 量化实践

Paper：DuQuant: Distributing Outliers via Dual Transformation Makes Stronger Quantized LLMs
Abs：https://arxiv.org/pdf/2406.01721
Code： https://github.com/Hsu1023/DuQuant
Project：https://duquant.github.io

11月5日（周二）19:00 - 20:00