SGLang、FlashInfer和MLC LLM：大模型高效部署与服务

发表于2024-10-17🎥 观看直播

SGLang、FlashInfer和MLC LLM：大模型高效部署与服务

青稞2024-10-17

10月17日7点（PST 10月16日16:00），SGLang、FlashInfer和MLC LLM三个项目团队联合举办大模型高效部署与服务线上研讨会！三个项目的核心开发者们将共同分享、探讨他们在LLM高效部署和服务方面的不同见解。

会议议程

7:00 - 7:45 SGLang

演讲嘉宾：尹良升、郑怜悯、鲍科
分享主题：SGlang 中的低CPU 开销调度、Deepseek MLA 优化及 JSON 高效解码
视频回放：https://hcqnc.xetlk.com/s/2WjPut

7:50 - 8:35 FlashInfer

演讲嘉宾：叶子豪
分享主题：高性能LLM Serving的 Kernel 生成
视频回放：https://hcqnc.xetlk.com/s/qA8TD

8:40 - 9:30 MLC LLM

演讲嘉宾：赖睿航、董易昕、陈天奇
分享主题：通用 LLM 部署、低延时服务及基于 Grammar 的快速解码
视频回放：https://hcqnc.xetlk.com/s/2zJFTn

PPT

链接: 百度网盘提取码: 9xzv

喜欢这篇文章的人也看了

SGLang v0.2：面向 LLM 和 VLM 的快速、高效通用服务引擎

基于 LightLLM 的 DeepSeek R1/V3 模型部署实战

InferCept、Preble&Cognify：面向下一代 AI Agent 工作流系统的构建

S-LoRA：实现多 LoRA 大模型的高效并行化推理

SGLang v0.3发布！SGLang邀请您参与开发者会议