S-LoRA:实现多 LoRA 大模型的高效并行化推理
发表于🎥 观看直播

S-LoRA:实现多 LoRA 大模型的高效并行化推理
青稞8月26日11点,青稞Talk第20期,UC Berkeley 博士生曹诗怡,将对 S-Lora 进行分享,主题为《S-LoRA:实现多 LoRA 大模型的高效并行化推理》。
主讲嘉宾
曹诗怡,UC Berkeley 博士生;导师是Ion Stoica和Joseph E. Gonzalez教授,主要研究方向为机器学习系统,分布式系统和高性能计算。此前,在上海交通大学取得计算机科学学士学位,在苏黎世联邦理工取得硕士学位。博士一年级期间主要研究大语言模型的高效推理和部署,相关成果发表在MLSys,OSDI等会议中。个人主页:https://shiyicao.com/
主题提纲
S-LoRA:实现多 LoRA 大模型的高效并行化推理
- 1、大模型时代的多用户和定制化 LLM Serving 问题
- 2、常见的大模型微调方法及 LoRA 介绍
- 3、多 LoRA 并行推理的挑战
- 4、S-LoRA 方法解析及实现
- 5、VTC Fair Scheduling
成果链接
- Paper:S-LoRA: Serving Thousands of Concurrent LoRA Adapters
- Abs:https://arxiv.org/pdf/2311.03285.pdf
- Code:https://github.com/S-LoRA/S-LoRA
直播时间
8月26日(周一)11:00-12:00