SGLang v0.2:面向 LLM 和 VLM 的快速、高效通用服务引擎
发表于🎥 观看直播

SGLang v0.2:面向 LLM 和 VLM 的快速、高效通用服务引擎
青稞9月3日11点,青稞Talk第21期,Databricks Mosaic Research研究科学家,斯坦福大学博士盛颖 ,将直播分享的《SGLang v0.2:面向 LLM 和 VLM 的快速、高效通用服务引擎》。
主讲嘉宾
盛颖,Databricks Mosaic Research研究科学家,斯坦福大学博士;近期研究重点是在不同场景下对大型语言模型(LLM)进行高效推理和服务。个人主页:https://sites.google.com/view/yingsheng
主题提纲
SGLang v0.2:面向 LLM 和 VLM 的快速、高效通用服务引擎
- 1、从Simple Chat 到 LLM Programs,现有大模型推理系统的挑战
- 2、SGLang 技术结构解析:
- RadixAttention
- Upper-level Scheduling
- 3、SGLang v0.2 部署应用实践及未来开发
成果链接
- Paper:SGLang: Efficient Execution of Structured Language Model Programs
- Abs:https://arxiv.org/abs/2312.07104
- Code:https://github.com/sgl-project/sglang
直播时间
9月3日(周二)11:00-12:00