SGLang、FlashInfer和MLC LLM:大模型高效部署与服务
发表于🎥 观看直播

SGLang、FlashInfer和MLC LLM:大模型高效部署与服务
青稞10月17日7点(PST 10月16日16:00),SGLang、FlashInfer和MLC LLM三个项目团队联合举办大模型高效部署与服务线上研讨会!三个项目的核心开发者们将共同分享、探讨他们在LLM高效部署和服务方面的不同见解。
会议议程
7:00 - 7:45 SGLang
- 演讲嘉宾:尹良升、郑怜悯、鲍科
- 分享主题:SGlang 中的低CPU 开销调度、Deepseek MLA 优化及 JSON 高效解码
- 视频回放:https://hcqnc.xetlk.com/s/2WjPut
7:50 - 8:35 FlashInfer
- 演讲嘉宾:叶子豪
- 分享主题:高性能LLM Serving的 Kernel 生成
- 视频回放:https://hcqnc.xetlk.com/s/qA8TD
8:40 - 9:30 MLC LLM
- 演讲嘉宾:赖睿航、董易昕、陈天奇
- 分享主题:通用 LLM 部署、低延时服务及基于 Grammar 的快速解码
- 视频回放:https://hcqnc.xetlk.com/s/2zJFTn
PPT
链接: 百度网盘 提取码: 9xzv