S-LoRA：实现多 LoRA 大模型的高效并行化推理

青稞2024-08-26

8月26日11点，青稞Talk第20期，UC Berkeley 博士生曹诗怡，将对 S-Lora 进行分享，主题为《S-LoRA：实现多 LoRA 大模型的高效并行化推理》。

主讲嘉宾

曹诗怡，UC Berkeley 博士生；导师是Ion Stoica和Joseph E. Gonzalez教授，主要研究方向为机器学习系统，分布式系统和高性能计算。此前，在上海交通大学取得计算机科学学士学位，在苏黎世联邦理工取得硕士学位。博士一年级期间主要研究大语言模型的高效推理和部署，相关成果发表在MLSys，OSDI等会议中。个人主页：https://shiyicao.com/

主题提纲

S-LoRA：实现多 LoRA 大模型的高效并行化推理

1、大模型时代的多用户和定制化 LLM Serving 问题
2、常见的大模型微调方法及 LoRA 介绍
3、多 LoRA 并行推理的挑战
4、S-LoRA 方法解析及实现
5、VTC Fair Scheduling

成果链接

Paper：S-LoRA: Serving Thousands of Concurrent LoRA Adapters
Abs：https://arxiv.org/pdf/2311.03285.pdf
Code：https://github.com/S-LoRA/S-LoRA

直播时间

8月26日（周一）11:00-12:00