SGLang v0.2：面向 LLM 和 VLM 的快速、高效通用服务引擎

发表于2024-09-03🎥 观看直播

SGLang v0.2：面向 LLM 和 VLM 的快速、高效通用服务引擎

青稞2024-09-03

9月3日11点，青稞Talk第21期，Databricks Mosaic Research研究科学家，斯坦福大学博士盛颖，将直播分享的《SGLang v0.2：面向 LLM 和 VLM 的快速、高效通用服务引擎》。

主讲嘉宾

盛颖，Databricks Mosaic Research研究科学家，斯坦福大学博士；近期研究重点是在不同场景下对大型语言模型(LLM)进行高效推理和服务。个人主页：https://sites.google.com/view/yingsheng

主题提纲

SGLang v0.2：面向 LLM 和 VLM 的快速、高效通用服务引擎

1、从Simple Chat 到 LLM Programs，现有大模型推理系统的挑战
2、SGLang 技术结构解析：
- RadixAttention
- Upper-level Scheduling
3、SGLang v0.2 部署应用实践及未来开发

成果链接

Paper：SGLang: Efficient Execution of Structured Language Model Programs
Abs：https://arxiv.org/abs/2312.07104
Code：https://github.com/sgl-project/sglang

直播时间

9月3日（周二）11:00-12:00

喜欢这篇文章的人也看了

基于 LightLLM 的 DeepSeek R1/V3 模型部署实战

S-LoRA：实现多 LoRA 大模型的高效并行化推理

SGLang、FlashInfer和MLC LLM：大模型高效部署与服务

Satori：通过训练LLM做自回归搜索来增强推理能力

PRIME：结合隐式过程奖励的强化学习

PC-Agent：面向复杂 PL 任务的多模态智能体框架