青稞Talk 第二十八期
11月5日19点,青稞Talk 第28期,中科院自动化所和香港城市大学联合培养博士生林浩坤,将直播分享《DuQuant: 基于正交变换实现大型语言模型的 SOTA级 4 bit 量化》。DuQuant 的论文在NeurIPS 2024 上获得 88877 的分数并被接收为Oral。
主讲嘉宾
林浩坤,中科院自动化所和香港城市大学联合培养博士生,研究方向为模型压缩加速,相关研究工作发表于CVPR、NeurIPS、ICLR等会议。
主题提纲
DuQuant: 基于正交变换实现大型语言模型的 SOTA级 4 bit 量化
1、大语言模型权重激活(WA)量化算法概述
2、SOTA 4bit 量化算法:DuQuant
- LLM 中的离群值(outliers)问题
- 正交变换分散 LLM 离群值策略
- 在 LLaMA、Vicuna、Mistral 系列模型的验证
3、DuQuant 量化实践
成果链接
Paper:DuQuant: Distributing Outliers via Dual Transformation Makes Stronger Quantized LLMs
Abs:https://arxiv.org/pdf/2406.01721
Code: https://github.com/Hsu1023/DuQuant
Project:https://duquant.github.io
直播时间
11月5日(周二)19:00 - 20:00