S-LoRA:实现多 LoRA 大模型的高效并行化推理

8月26日11点,青稞Talk第20期,UC Berkeley 博士生曹诗怡,将对 S-Lora 进行分享,主题为《S-LoRA:实现多 LoRA 大模型的高效并行化推理》。

主讲嘉宾

曹诗怡,UC Berkeley 博士生;导师是Ion Stoica和Joseph E. Gonzalez教授,主要研究方向为机器学习系统,分布式系统和高性能计算。此前,在上海交通大学取得计算机科学学士学位,在苏黎世联邦理工取得硕士学位。博士一年级期间主要研究大语言模型的高效推理和部署,相关成果发表在MLSys,OSDI等会议中。个人主页:https://shiyicao.com/

主题提纲

S-LoRA:实现多 LoRA 大模型的高效并行化推理

  • 1、大模型时代的多用户和定制化 LLM Serving 问题
  • 2、常见的大模型微调方法及 LoRA 介绍
  • 3、多 LoRA 并行推理的挑战
  • 4、S-LoRA 方法解析及实现
  • 5、VTC Fair Scheduling

成果链接

直播时间

8月26日(周一)11:00-12:00