青稞社区 - 青年AI研究员Idea加油站，AI开发者的新能源充电站

🔥直播预告：

2025/4/19 11:00——B-STaR & SimpleRL-Zoo：通过强化学习自我提升推理性能和效率 | 香港科技大学（HKUST）计算机系博士生曾伟豪 2025/4/04 10:00——InferCept、Preble&Cognify：面向下一代 AI Agent 工作流系统的构建 | UCSD 副教授张怡颖 2025/3/29 11:00——VideoGrain：基于扩散模型的多粒度视频编辑的探索与应用 | UTS ReLER lab博士生杨向鹏 2025/3/22 11:00——COAT：显存高效的 FP8 训练，实现高效深度学习 | 加州大学伯克利分校计算机科学博士生席浩诚

青稞Talk

青稞Tea

加入青稞AI技术交流群

2025-03-22COAT：显存高效的 FP8 训练，实现高效深度学习

3月22日上午11点，青稞Talk 第42期，COAT 第一作者、加州大学伯克利分校计算机科学博士生席浩诚，将直播分享《COAT：显存高效的 FP8 训练，实现高效深度学习》。分享嘉宾席浩诚是加州大学伯克利分校计算机科学博士一年级学生，导师是Kurt Keutzer教授，研究方向为大型语言模型和扩散模型的高效训练与推理。本科毕业于清华大学姚班，师从陈键飞教授和朱军教授。他曾在英伟达实习研究FP8训练方法。他曾在ICMl、Neurips、ICLR等顶级会议上发表多篇论文，他的主要研究成果包括Sparse VideoGen、COAT、Jetfire等。主题提纲 COAT：显存高效的 FP8 训练，实现高效深度学习 1、大模型 FP8 低精度训练的难点 2、COAT 框架两大核心技术 - 动态范围扩展 FP8 量化优化器状态 - 混合粒度 FP8 精度流 3、效果展示及应用实践直播时间 3月8日（周六） 11:00 -12:00 成果链接论文标题：COAT: Compressing Optimizer States and Activation for memory effi ...

详情

2025-02-15Satori：通过训练LLM做自回归搜索来增强推理能力

2月15日上午11点，青稞Talk 第38期，Satori第一作者、MIT博士生沈茂昊，将直播分享《Satori：通过训练LLM做自回归搜索来增强推理能力》。主讲嘉宾沈茂昊，MIT EECS系四年级博士生，长期和MIT-IBM Watson AI lab 合作，本科毕业于UIUC ECE系。研究兴趣包括提升AI系统的可靠性，不确定性估计，以及涉及LLM的多个方向，包括提升LLM的推理能力等，曾在ICML、NeurIPS、AAAI等AI学术会议发表多篇论文。主题提纲 Satori：通过训练LLM做自回归搜索来增强推理能力 1、O1 类推理模型的技术路线 2、Satori 推理模型及两阶段训练解析 - 行动思维链 COAT 推理范式 - 小规模格式微调 - 大规模的强化学习阶段 3、Satori 的推理能力及泛化讨论成果链接 Paper：https://arxiv.org/pdf/2502.02508 Project：https://satori-reasoning.github.io 直播时间 2月15日（周六）11:00 – 12:00

详情

2024-10-17GenAD & Vista：构建通用可泛化的自动驾驶世界模型

10月17日19点，青稞Talk 第27期，香港科技大学在读博士高深远，将直播分享《GenAD & Vista：构建通用可泛化的自动驾驶世界模型》。主讲嘉宾高深远，香港科技大学在读博士，研究兴趣主要围绕具身场景中世界模型的构建及应用。曾在CVPR、NeurIPS、ECCV以第一作者身份发表多篇论文，并担任TPAMI、ICLR、NeurIPS、CVPR等期刊会议的审稿人。主题提纲 GenAD & Vista：构建通用可泛化的自动驾驶世界模型 1、世界模型的概念及其重要性 2、GenAD和OpenDV大规模自动驾驶数据集 3、Vista：高保真且多样可控的通用自动驾驶世界模型 4、应用分析及未来研究探讨成果链接 Paper：Vista: A Generalizable Driving World Model with High Fidelity and Versatile Controllability Abs：https://arxiv.org/abs/2405.17398 Code：https://github.com/opendrivelab/vista ...

详情

2024-07-08LLaMA Factory：从预训练到RLHF，大模型高效训练框架

7月8日晚7点，青稞Talk第13期，北京航空航天大学博士生郑耀威，将直播分享《LLaMA Factory：从预训练到RLHF，大模型高效训练框架》。分享嘉宾郑耀威，北京航空航天大学博士生。以第一作者在ACL、CVPR、AAAI、WWW等国际会议发表多篇论文，担任AAAI、EMNLP、Neural Computation等会议和期刊审稿人。曾获得华为杯数学建模全国一等奖、蓝桥杯全国一等奖、北航榜样、北航博士新生奖学金。大模型训练框架LLaMA Factory作者，GitHub开源项目获得超过2万Stars，受邀至人工智能计算大会、阿里云AI智领者峰会、中国人民大学、智谱AI作大模型主题报告。主题提纲 LLaMA Factory：从预训练到RLHF，大模型高效训练框架 1、大模型高效训练现状 2、LLaMA Factory 的构建动机与组成模块 - 上百种大模型的全栈微调适配原理 - LoRA算子优化加速方法 - 多种微调Trick集成思路 3、LLaMA Factory 部署实践成果链接 Abs：http://arxiv.org/abs/2403.13372 Code：ht ...

详情

荐

COAT：显存高效的 FP8 训练，实现高效深度学习

荐

Satori：通过训练LLM做自回归搜索来增强推理能力

荐

GenAD & Vista：构建通用可泛化的自动驾驶世界模型

荐

LLaMA Factory：从预训练到RLHF，大模型高效训练框架

2025-05-19｜🎥 观看直播

verl 源码解读与 HybridFlow 编程范式讲解

5月19晚8点，verl core contributor 童雨轩，将直播分享《verl 源码解读与 HybridFlow 编程范式讲解》。本次 Talk 会从entrypoint(例如 main_ppo.py)入手，按程序执行顺序讲解 verl 的主要逻辑(类似 debugger 视角，但经过整理总结)，穿插介绍 HybridFlow 编程范式的主要内容与设计动机。希望能让大家获得对 verl 的行为与设计思想较为全面的理解。分享嘉宾童雨轩，清华大学计算机系本科生，曾于清华大学知识工程实验（THUKEG）、香港科技大学自然语言处理实验室（HKUST-NLP）、卡耐基梅隆大学语言技术研究所（CMU-LTI）、字节跳动 Seed 等机构实习。在 NeurIPS、ICLR、ICML 等国际会议发表论文 3 篇，谷歌学术引用量达 650。研究兴趣集中在自然语言处理、机器学习、强化学习等领域，致力于构建具备长上下文推理能力的人工智能系统。主题提纲 verl 源码解读与 HybridFlow 编程范式讲解 1、Debugger 视角源码讲解：verl 执行逻辑 2、HybridFl ...

2025-05-14｜🎥 观看直播

从 TTS 到 TTRL：无标签数据强化学习探索与展望

5月14日20:00点，青稞Talk第48期，TTRL 作者、清华大学博士生张开颜，将直播分享《从 TTS 到 TTRL：无标签数据强化学习探索与展望》。本期Talk 张开颜博士将聚焦无标签数据上进行强化学习——即测试时强化学习（TTRL）的探索，探讨TTS与RL推理的关系，详述TTRL的方法与意义，并从协同与交互的视角展望RL经验时代。分享嘉宾张开颜，清华大学三年级博士生，导师为周伯文教授。研究方向为大语言模型测试时扩展（Test-time Scaling）、强化学习和多智能体协同技术。在NeurIPS,ICLR,ICML,ACL,EMNLP,COLM等国际人工智能顶级会议与期刊上发表论文十余篇。个人主页：https://iseesaw.github.io/ 主题提纲从 TTS 到 TTRL：无标签数据强化学习探索与展望 1、强化学习推理与 TTS 的关系 2、TTRL：无标签数据的测试时强化学习方法 3、TTRL 的有效性及局限性讨论 4、协同与交互视角下的 RL 经验时代直播时间 5月14日20:00 - 21:00 成果链接论文标题：TTRL: Test-Time ...

2025-04-26｜🎥 观看直播

Free4D：无需微调的 4D 场景生成新框架

分享嘉宾刘天齐，华中科技大学硕士在读，现为MMlab@NTU的研究助理，主要研究方向包括3D/4D重建与生成。主题提纲 Free4D：无需微调的 4D 场景生成新框架 1、4D 生成相关工作回顾 2、单图像生成 4D 场景的难点 3、Free4D：从单张图像生成高质量、时空一致的 4D 场景 4、效果展示与应用实践成果链接 Paper：Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency Abs：https://arxiv.org/abs/2503.20785 Code：https://github.com/TQTQliu/Free4D 直播时间 4月26日上午11:00 - 12:00 参与方式 Talk 将在青稞·知识社区上进行，扫码对暗号：" 0426 "，报名进群！

2025-04-22｜🎥 观看直播

从 TinyZero 到 APR：语言模型推理能力的探索与自适应并行化

4月22日上午9点，青稞Talk 第46期，UC Berkeley 博士生、TinyZero项目作者潘家怡和APR合作者李岫宇，将直播分享《从 TinyZero 到 APR：语言模型推理能力的探索与自适应并行化》。潘家怡，UC Berkeley 博士生，导师为 Alane Suhr教授，此前本科毕业于上海交通大学和密西根大学。现主要研究方向为大语言模型后训练方向，通过强化学习等方式提高模型在Agent和Reasoning上的能力。个人主页：jiayipan.com 主题提纲从 TinyZero 到 APR：语言模型推理能力的探索与自适应并行化 1、TinyZero: 低成本复现 DeepSeek R1 Zero Aha moment 2、大语言模型传统 CoT 推理中的挑战 3、APR: 自适应并行推理框架介绍 4、端到端强化学习驱动优化直播时间 4月22日上午9:00 - 10:00 参与方式 Talk 将在青稞·知识社区上进行，扫码对暗号：" 0422 "，报名进群！

2025-04-19｜🎥 观看直播

SimpleRL-Zoo & B-STaR：通过强化学习自我提升推理性能和效率

主讲嘉宾曾伟豪，香港科技大学（HKUST）计算机系博士生，主要研究方向为大语言模型（LLM）的post-training，特别关注模型推理能力增强、对齐数据工程、自我进化训练方法等。他提出了SimpleRL方法，利用极少数据结合强化学习显著提升模型在数学推理任务上的能力（Github 3K Star）；在B-STAR中引入探索与利用的动态平衡机制，进一步提升LLM的自我学习效果（ICLR 2025）；在Deita项目中，通过自动数据筛选实现高效指令微调，使对齐训练更加数据节省（ICLR 2024）；他还与微软合作提出Auto Evol-Instruct框架，实现无人工干预的指令进化（EMNLP 2024）。相关成果发表于ICLR、ACL、EMNLP等顶级会议，致力于推进开源LLM社区的发展。主题提纲 B-STaR & SimpleRL-Zoo：通过强化学习自我提升推理性能和效率 1、大模型训练中的强化学习方法 2、平衡探索与利用的自我提升框架 B-STaR 3、SimpleRL-Zoo：针对开源基座模型的零样本强化学习训练实现Zero RL训练成功的核心设计原则研 ...

2025-04-04｜🎥 观看直播

InferCept、Preble&Cognify：面向下一代 AI Agent 工作流系统的构建

主讲嘉宾张怡颖，现任加州大学圣地亚哥分校计算机科学与工程系副教授。她的研究领域涵盖人工智能系统与数据中心云计算系统，当前主要致力于构建下一代的AI Agent系统。她曾获得OSDI最佳论文奖、SYSTOR最佳论文奖、美国国家科学基金会CAREER奖，以及来自谷歌、Meta、亚马逊、英特尔、VMware和SRC的多项研究奖项。张怡颖在威斯康星大学麦迪逊分校计算机科学系获得博士学位，师从Andrea 和Remzi Arpaci-Dusseau。主题提纲 InferCept、Preble & Cognify：面向下一代 AI Agent 工作流系统的构建 1、AI 系统层面的 Agent 工作流系统设计 2、InferCept：专为 Transformer 模型 Agent 工作流设计的推理系统 3、针对共享长 LLM 提示的分布式系统 Preble 4、开源开发者工具 Cognify，自动优化 Agent 工作流直播时间 4月4日（周五）上午10点成果链接 Paper：INFERCEPT: Efficient Intercept Support for Augmen ...

2025-03-29｜🎥 观看直播

VideoGrain：基于扩散模型的多粒度视频编辑的探索与应用

3月29日上午11点，青稞Talk第43期，VideoGrain第一作者、UTS ReLER lab博士生杨向鹏，将在线讲解《VideoGrain：基于扩散模型的多粒度视频编辑的探索与应用》。主题提纲 VideoGrain：基于扩散模型的多粒度视频编辑的探索与应用 1、现有视频编辑方法概述和挑战 2、多粒度视频编辑任务的概念和解决思路多粒度视频编辑的定义及难点 VideoGrain的原理与思路 3、VideoGrain的视频编辑效果 4、未来工作的探索与应用成果链接 VideoGrain: Modulating Space-Time Attention for Multi-Grained Video Editing. 论文地址:https://arxiv.org/abs/2502.17258 Project page :https://knightyxp.github.io/VideoGrain_project_page https://github.com/knightyxp/VideoGrain 直播时间 3月29日（周六） 11:00 -12:00 参与方式 ...

2025-03-22｜🎥 观看直播

COAT：显存高效的 FP8 训练，实现高效深度学习

2025-03-15｜🎥 观看直播

PC-Agent：面向复杂 PL 任务的多模态智能体框架

3月15日上午11点，青稞Talk 第41期，阿里通义实验室高级算法工程师张熙，将直播分享《PC-Agent：面向复杂 PL 任务的多模态智能体框架》。分享嘉宾张熙，博士毕业于中科院自动化研究所，目前担任阿里通义实验室高级算法工程师，负责多模态智能体Mobile-Agent等工作。在国际顶级期刊和会议TPAMI/TIP/CVPR/ACM MM/TMM/TCSVT等发表论文，曾获得CCL BEST Demo、China MM BEST Paper、VCIP BEST Student Paper、中科院院长奖等，担任多个顶级会议与期刊Reviewer，并在开源社区Github获得236k star。主题提纲 PC-Agent：面向复杂 PL 任务的多模态智能体框架 1、PC 场景的复杂性 2、多模态智能体框架 PC-Agent 3、样例展示及应用实践 4、探讨-下：Manus/Owl/OpenManus … 直播时间 3月15日（周六） 11:00 -12:00

2025-03-08｜🎥 观看直播

基于 LightLLM 的 DeepSeek R1/V3 模型部署实战

3月8日上午11点，青稞Talk 第40期，商汤科技大模型工具体系团队研究员、LightLLM 核心开发人员白世豪，将直播分享《基于 LightLLM 的 DeepSeek R1/V3 模型部署实战》。分享嘉宾白世豪，商汤科技大模型工具体系团队研究员，LightLLM核心开发人员，主要负责大语言模型推理加速，探索更高效的大语言模型服务技术，在ASPLOS, IJCAI、AAAI、ICCV等期刊会议发表论文十篇。主题提纲基于 LightLLM 的 DeepSeek R1/V3 模型部署实战 1、LightLLM 框架及特性解读 2、PD 分离原型实现 3、针对 DeepSeek 系列模型的专项优化 4、DeepSeek R1/V3 部署实战直播时间 3月8日（周六） 11:00 -12:00

2025-02-22｜🎥 观看直播

PRIME：结合隐式过程奖励的强化学习

2月22日上午11点，青稞Talk 第39期，上海人工智能实验室青年科学家崔淦渠，将直播分享《PRIME: 结合隐式过程奖励的强化学习》。主讲嘉宾崔淦渠，上海人工智能实验室青年科学家，博士毕业于清华大学计算机系，导师为刘知远副教授。研究方向为大语言模型的对齐与强化学习技术。在ICML, NeurIPS, ACL, KDD等国际人工智能顶级会议与期刊上发表论文十余篇，谷歌学术引用超9000次。主题提纲 PRIME: 结合隐式过程奖励的强化学习 1、为什么强化学习是下一个 Scaling law 2、DeepSeek-R1：过程奖励模型在强化学习中的挑战 3、Implicit PRM与 PRIME 如何破局成果链接 Paper：Process Reinforcement through Implicit Rewards Abs：https://arxiv.org/pdf/2502.01456 Code：https://github.com/PRIME-RL/PRIME 直播时间 2月22日（周六） 11:00 -12:00

2025-02-15｜🎥 观看直播

Satori：通过训练LLM做自回归搜索来增强推理能力

2025-01-14｜🎥 观看直播

Motion Dreamer：面向自动驾驶与物理世界对齐的视频生成模型

1月14日19:00，青稞Talk 第37期，香港科技大学（广州）博士生许添硕，将直播分享《Motion Dreamer：面向自动驾驶与物理世界对齐的视频生成模型》。主讲嘉宾许添硕，香港科技大学（广州）博士生，导师为陈颖聪教授，研究兴趣是自动驾驶、视频生成。主题提纲 Motion Dreamer：面向自动驾驶与物理世界对齐的视频生成模型 1、现有视频生成模型的局限性 2、基于场景感知运动推理的视频生成模型 Motion Dreamer - 两阶段的视频生成框架 - 实例流的训练与推理策略 - 中间运动表示的选择 3、在自动驾驶等复杂场景中的应用讨论成果链接 Abs:https://arxiv.org/abs/2412.00547 直播时间 1月14日（周二）19:00 - 20:00

2025-01-04｜🎥 观看直播

Follow Family：可控视频生成方法探索与应用

主讲嘉宾马跃，香港科技大学计算机博士生，清华大学电子信息硕士，主要研究领域是视频生成、图片生成等，曾在百度，腾讯 AI Lab，腾讯混元作为算法研究实习，在NeurIPS，Siggraph，AAAI，CVPR，TMM等发表多篇高水平文章，曾经获得北京市优秀毕业生等荣誉称号。主题提纲 Follow Family：可控视频生成方法探索与应用 1、可控视频生成方法解析 2、Follow Family 系列工作探索骨架控制肖像控制局部可控图生视频大分辨率视频扩展生成 3、未来工作探索与应用直播时间 1月4日（周六）商上午11:00 - 12:00

2024-12-28｜🎥 观看直播

Tuning-Free Enhence：通过噪声初始化和采样轨迹优化增强预训练扩散模型

12月28日11点，青稞Talk 第35期，香港科技大学广州博士生周子凯，将直播分享《Tuning-Free Enhence：通过噪声初始化和采样轨迹优化增强预训练扩散模型》。主讲嘉宾周子凯，香港科技大学广州博士生。研究方向为扩散模型与模型压缩，发表IJCAI，NIPS等多篇论文。主题提纲 Tuning-Free Enhence：通过噪声初始化和采样轨迹优化增强预训练扩散模型无雪微调的扩散模型增强方法概述 Golden Noise:扩散模型噪声初始化框架采样轨迹优化 Zigzag Diffusion & lV-Mixed Sampler 对未来生成式模型的展望直播时间 2024年12月28日（周六）11:00 -12:00

2024-12-24｜🎥 观看直播

K-Sort Arena：视觉生成模型的高效人类偏好竞技场

12月24日20点，青稞Talk 第34期，中国科学院自动化研究所博士生、新加坡国立大学访问博士生李志凯，将直播分享《K-Sort Arena：视觉生成模型的高效人类偏好竞技场》。主讲嘉宾李志凯，中国科学院自动化研究所博士生，新加坡国立大学访问博士生。研究方向为高效深度学习和模型压缩，以第一作者身份在ICCV、ECCV、TNNLS、PR等期刊会议上发表多篇论文。主题提纲 K-Sort Arena：视觉生成模型的高效人类偏好竞技场 1、人类偏好评估概述 2、K-Sort Arena 解析 K-wise 比较概率建模与贝叶斯更新探索-利用的匹配算法 3、实验结果评估与排行榜构建成果链接 Paper：K-Sort Arena: Efficient and Reliable Benchmarking for Generative Models via K-wise Human Preferences Abs：https://arxiv.org/pdf/2408.14468 Hugging Face：https://huggingface.co/spaces/ksort/ ...

2024-12-21｜🎥 观看直播

XGrammar：高效实现 LLM灵活且可移植的结构化生成

12月21日11点，青稞Talk 第33期，CMU 博士生董易昕，将直播分享《XGrammar：高效实现 LLM灵活且可移植的结构化生成》。分享嘉宾董易昕，卡内基梅隆大学计算机科学系的一年级博士生，导师为陈天奇教授；本科毕业于上海交通大学计算机科学专业（ACM班）；研究聚焦于机器学习与系统的交叉领域，尤其对LLM Agents研究感兴趣；作为一名开源软件和项目的拥护者，共同领导并参与了一些流行的项目，包括 MLC-LLM 和 Apache TVM Unity，同时也担任 Apache TVM Reviewer；曾经在华盛顿大学与 Luis Ceze 教授共同研究。主题提纲 XGrammar：高效实现 LLM 灵活且可移植的结构化生成 1、大模型结构化生成方法概述及挑战 2、面向大语言模型的结构化生成引擎 XGrammar 上下文无关语法的解析高效可持久化的堆栈数据结构与 LLM 推理引擎的联合设计 3、XGrammar 应用实践成果链接 Paper：Grammar: Flexible and Efficient Structured Generation Eng ...

2024-12-16｜🎥 观看直播

LLMC：大语言模型压缩工具的开发实践

12月16日晚8点，青稞Talk第32期，商汤科技研究院谷石桥和雍洋两位模型压缩研究员，将对LLMC进行直播分享，主题为《LLMC：大语言模型压缩工具的开发实践》。他们将从工具框架设计，常用算法解读和工具使用方式等角度，为大家详细讲解LLMC及实践，希望大家可以从中获益。主讲嘉宾谷石桥，商汤科技研究院模型压缩研究员，毕业于天津大学，现主要研究方向为深度学习的模型压缩技术，目前已在EMNLP，PatternRecognition, TCSVT等发表多篇论文。雍洋，商汤科技研究院模型压缩研究员，毕业于西安交通大学，现主要研究方向为深度学习的模型压缩技术，目前已在AAAI，EMNLP，ACM MM等发表多篇论文。主题提纲 LLMC：大语言模型压缩工具的开发实践 1、大模型压缩及量化风险 2、大模型压缩包 LLMC 的框架设计 3、LLMC 落地实践和推理后端部署 4、自定义扩展新算法、模型及评测数据成果链接 https://github.com/ModelTC/llmc 直播时间 12月16日（周一）20:00 - 21:00

2024-12-14｜🎥 观看直播

Rectified Flow：矫正流生成式模型的概念及应用实践

12月14日11点，青稞Talk 第31期，深度求索(DeepSeek)研究员、UT Austin博士刘星超，将直播分享《Rectified Flow：矫正流生成式模型的概念及应用实践》。主讲嘉宾刘星超，深度求索(DeepSeek)研究员，UT Austin博士，师从刘强教授。研究兴趣是生成式模型的底层原理及对生成式模型框架的改进。在ICML、NeurIPS、ICLR等机器学习顶级会议上发表十余篇文章，并多次担任JMLR等顶级期刊审稿人。也是SD3.0和Flux背后采样器的作者。主题提纲 Rectified Flow：矫正流生成式模型的概念及应用实践 1、矫正流（Rectified Flow）的概念 2、矫正流算法的核心理论、数学原理以及代码实现 3、在新一代文生图模型中的应用实践 4、探讨矫正流与其它生成模型的联系成果链接 Paper：Flow Straight and Fast:Learning to Generate and Transfer Data with Rectified Flow Abs：https://arxiv.org/pdf/2209.03003 ...

2024-11-30｜🎥 观看直播

OminiParser：基于纯视觉的 GUI Agent

11月30日上午11点，微软研究院 AI Frontiers 实验室高级研究员鲁亚东，将直播分享《OminiParser：基于纯视觉的 GUI Agent》。主讲嘉宾鲁亚东，微软研究院 AI Frontiers 实验室高级研究员。研究兴趣主要集中在大型视觉语言模型上，专注于构建能够在图形用户界面上完成任务的多模态代理；在加入微软之前，于 2021 年获得加州大学欧文分校博士学位。主题提纲 OminiParser：基于纯视觉的 GUI Agent 1、VLMs 的研究及 GUI Agent 的应用难点 2、OminiParser：将屏幕 UI 解析为结构化文件 3、OmniParser 增强下的 GPT-4V 操作能力提升 4、与open source VLM的结合应用实践成果链接 Paper：OmniParser for Pure Vision Based GUI Agent Abs：https://arxiv.org/pdf/2408.00203 Code：https://github.com/microsoft/OmniParser hugging face dem ...

2024-11-23｜🎥 观看直播

VILA^2:视觉语言模型能力的自我提升

主讲嘉宾方云浩，本科毕业于浙江大学，硕士毕业于UCSD（苏昊教授），自24年2月起在Nvidia VILA团队实习（陆垚博士、韩松教授）。主要科研方向是大模型相关的1. 推理能力（通过探索提升推理上限: Unleashing the Creative Mind；通过演绎验证获得可靠思维链: Deductive Verification for Chain-of-thought Reasoning）；2. 推理、训练高效性（CLIP Distillation with OOD Generalization; VILA^2: VLM Augmented VLM for Self-improvement）。主题提纲 \(VILA^2\) : 视觉语言模型能力的自我提升 1、视觉语言模型研究概述 2、基础模型 VILA 的初衷及架构解析 3、基于自增强与专家增强的 VILA^2 4、探讨VILA-U、LongVILA 以及 World Model Benchmark 成果链接 \(VILA^2\) :https://arxiv.org/pdf/2407.17453 https:// ...

2024-11-05｜🎥 观看直播

DuQuant：基于正交变换实现大型语言模型的 SOTA级 4 bit 量化

11月5日19点，青稞Talk 第28期，中科院自动化所和香港城市大学联合培养博士生林浩坤，将直播分享《DuQuant：基于正交变换实现大型语言模型的 SOTA级 4 bit 量化》。DuQuant 的论文在NeurIPS 2024 上获得 88877 的分数并被接收为Oral。主讲嘉宾林浩坤，中科院自动化所和香港城市大学联合培养博士生，研究方向为模型压缩加速，相关研究工作发表于CVPR、NeurIPS、ICLR等会议。主题提纲 DuQuant：基于正交变换实现大型语言模型的 SOTA级 4 bit 量化 1、大语言模型权重激活(WA)量化算法概述 2、SOTA 4bit 量化算法：DuQuant LLM 中的离群值(outliers)问题正交变换分散 LLM 离群值策略在 LLaMA、Vicuna、Mistral 系列模型的验证 3、DuQuant 量化实践成果链接 Paper：DuQuant: Distributing Outliers via Dual Transformation Makes Stronger Quantized LLMs Abs：h ...

2024-10-17｜🎥 观看直播

GenAD & Vista：构建通用可泛化的自动驾驶世界模型

2024-10-17｜🎥 观看直播

SGLang、FlashInfer和MLC LLM：大模型高效部署与服务

10月17日7点（PST 10月16日16:00），SGLang、FlashInfer和MLC LLM三个项目团队联合举办大模型高效部署与服务线上研讨会！三个项目的核心开发者们将共同分享、探讨他们在LLM高效部署和服务方面的不同见解。会议议程 7:00 - 7:45 SGLang 演讲嘉宾：尹良升、郑怜悯、鲍科分享主题：SGlang 中的低CPU 开销调度、Deepseek MLA 优化及 JSON 高效解码视频回放：https://hcqnc.xetlk.com/s/2WjPut 7:50 - 8:35 FlashInfer 演讲嘉宾：叶子豪分享主题：高性能LLM Serving的 Kernel 生成视频回放：https://hcqnc.xetlk.com/s/qA8TD 8:40 - 9:30 MLC LLM 演讲嘉宾：赖睿航、董易昕、陈天奇分享主题：通用 LLM 部署、低延时服务及基于 Grammar 的快速解码视频回放：https://hcqnc.xetlk.com/s/2zJFTn PPT 链接: 百度网盘提取码: 9xzv

2024-10-14｜🎥 观看直播

VITA：开源交互式多模态基础大模型

10月14日19点，青稞Talk 第26期，VITA 第一作者，南京大学智能科学与技术学院研究员、助理教授、博导傅朝友，将直播分享《VITA：开源交互式多模态基础大模型》。主讲嘉宾傅朝友，南京大学智能科学与技术学院研究员，助理教授，博导。2022年博士毕业于中国科学院自动化研究所，2022年-2024年在腾讯优图实验室担任高级研究员，作为Technology & Project Leader从事学术研究和工程落地工作。已发表JCR-1区期刊/CCF-A类会议论文共20余篇，包括两篇一作IEEE TPAMI，研究成果GitHub开源项目共计获得超过1.3万次Star。研究方向为多模态大模型、大语言模型、生物特征识别，代表性工作包括Awesome-MLLM、MME、Video-MME、MME-RealWorld和VITA。长期担任CVPR、ICCV、ECCV、NeurIPS、ICLR、ICML、IEEE TIP等国际顶级期刊和会议的审稿人。曾获中国科学院院长特别奖、IEEE Biometrics Council最佳博士学位论文奖、北京市&中科院优秀博士学位论文、2022 ...

2024-10-11｜🎥 观看直播

LLMC：大语言模型的量化基准

10月11日晚7点，青稞Talk 第25期，商汤科技算法实习生、香港科技大学准博士生黄雨石，将直播分享《LLMC:大语言模型的量化基准》。主讲嘉宾黄雨石，本科毕业于北京航空航天大学，即将进入香港科技大学攻读计算机博士学位。研究方向为高效的AIGC模型，神经网络压缩与加速等，目前已在CVPR， EMNLP， ACM MM发表多篇论文。主题提纲 LLMC：大语言模型的量化基准 1、大语言模型量化技术概述 2、大模型压缩工具 LLMC 3、基于 LLMC 的量化基准测试校准数据算法（三种策略）数据格式成果链接 https://github.com/ModelTC/llmc 欢迎大家Star! 直播时间 10月11日（周五）19:00 - 20:00

2024-09-26｜🎥 观看直播

使用CAMEL Agents构建GraphRAG及应用实践

9月26日19点，青稞Talk 第24期，Eigent AI Founding Engineer、CAMEL AI开源多智能体框架核心贡献者范文栋，将直播分享《使用 CAMEL Agents 构建 GraphRAG 及应用实践》主讲嘉宾范文栋，Eigent AI Founding Engineer、CAMEL AI开源多智能体框架核心贡献者。主题提纲使用 CAMEL Agents 构建 GraphRAG 及应用实践 1、多智能体框架 CAMEL 及工作流介绍 2、传统 RAG VS GraphRAG 3、基于 CAMEL 的 GraphRAG 实现 4、GraphRAG 应用：角色扮演和知识图谱生成实践成果链接 Code：https://github.com/mistralai/cookbook/blob/main/third_party/CAMEL_AI/camel_graph_rag.ipynb 直播时间 9月26日（周四）19:00 - 20:00

2024-09-23｜🎥 观看直播

CogVideoX 视频生成开源模型上手实践

9月23日20点，青稞Talk 第23期，智谱AI算法工程师，CogVideoX作者之一张昱轩，将直播分享《CogVideoX 视频生成开源模型上手实践》主讲嘉宾张昱轩，智谱AI算法工程师，CogVideoX作者之一；智谱多个开源仓库的核心贡献者。主题提纲 CogVideoX 视频生成开源模型上手实践 1、CogVideoX-2B / 5B 模型详解 2、CogVideoX 代码架构解析 3、基于 CogVideoX 的基础调用及微调 4、CogVideoX-2B / 5B 工程适配实践成果链接 Paper：CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer Abs：https://arxiv.org/abs/2408.06072 Code：https://github.com/THUDM/CogVideo 直播时间 9月23日（周一）20:00 - 21:00

2024-09-22

SGLang v0.3发布！SGLang邀请您参与开发者会议

SGLang v0.3发布，它带来了显著的性能提升和对新模型架构的扩展支持： DeepSeek V2 MLA 相比 vLLM 提升 7 倍吞吐在小 batch size 上使用 torch.compile 提升 1.5 倍 decoding speed 支持 LLaVA-OneVision（注：LLaVA-OneVision 官方团队第一时间提供的支持） Gemma 2 支持 interleaved window attention，支持 8k context Gemma 2（注：vLLM 最新 0.6.0 是 4k context） DeepSeek多头潜在注意力（MLA）吞吐量优化多头潜在注意力（MLA）是DeepSeek团队引入的一种新的注意力变体，旨在提高推理效率。由于它与标准注意力机制的不同，现有的开源库尚未完全优化此操作。在SGLang v0.3中，我们为MLA实施了各种优化，包括权重吸收、分组解码内核、FP8批MatMul和FP8 KV缓存量化。基准测试结果显示，SGLang v0.3通过MLA优化实现了比基线系统高达3到7倍的吞吐量。基准测试测量了这些模型在H ...

2024-09-10｜🎥 观看直播

mPLUG-Owl3：探索长序列模型架构的通用多模态大模型

9月10日19点，青稞Talk 第22期，阿里巴巴通义实验室高级算法工程师、华东师范大学博士叶加博，将直播分享《mPLUG-Owl3：探索长序列模型架构的通用多模态大模型》。主讲嘉宾叶加博，华东师范大学博士，阿里巴巴通义实验室高级算法工程师，参与通义多模态大模型mPLUG家族的研发，包含多模态底座mPLUG系列，多模态大语言模型mPLUG-Owl系列以及多模态文档理解大模型mPLUG-DocOwl系列。其中多模态文档理解工作mPLUG-DocOwl首次提出图像切分策略解决大模型高分辨率图像理解问题，成为前沿多模态大模型通用组件。主题提纲 mPLUG-Owl3：探索长序列模型架构的通用多模态大模型 1、长视觉内容理解对多模态大模型的挑战 2、mPLUG-Owl3 模型架构及训练解析 Hyper-Attention 三阶段训练范式 3、mPLUG-Owl3 评估测试及应用实践成果链接 Paper：mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Mode ...

2024-09-03｜🎥 观看直播

SGLang v0.2：面向 LLM 和 VLM 的快速、高效通用服务引擎

9月3日11点，青稞Talk第21期，Databricks Mosaic Research研究科学家，斯坦福大学博士盛颖，将直播分享的《SGLang v0.2：面向 LLM 和 VLM 的快速、高效通用服务引擎》。主讲嘉宾盛颖，Databricks Mosaic Research研究科学家，斯坦福大学博士；近期研究重点是在不同场景下对大型语言模型(LLM)进行高效推理和服务。个人主页：https://sites.google.com/view/yingsheng 主题提纲 SGLang v0.2：面向 LLM 和 VLM 的快速、高效通用服务引擎 1、从Simple Chat 到 LLM Programs，现有大模型推理系统的挑战 2、SGLang 技术结构解析： RadixAttention Upper-level Scheduling 3、SGLang v0.2 部署应用实践及未来开发成果链接 Paper：SGLang: Efficient Execution of Structured Language Model Programs Abs：https://ar ...

2024-08-26｜🎥 观看直播

S-LoRA：实现多 LoRA 大模型的高效并行化推理

8月26日11点，青稞Talk第20期，UC Berkeley 博士生曹诗怡，将对 S-Lora 进行分享，主题为《S-LoRA：实现多 LoRA 大模型的高效并行化推理》。主讲嘉宾曹诗怡，UC Berkeley 博士生；导师是Ion Stoica和Joseph E. Gonzalez教授，主要研究方向为机器学习系统，分布式系统和高性能计算。此前，在上海交通大学取得计算机科学学士学位，在苏黎世联邦理工取得硕士学位。博士一年级期间主要研究大语言模型的高效推理和部署，相关成果发表在MLSys，OSDI等会议中。个人主页：https://shiyicao.com/ 主题提纲 S-LoRA：实现多 LoRA 大模型的高效并行化推理 1、大模型时代的多用户和定制化 LLM Serving 问题 2、常见的大模型微调方法及 LoRA 介绍 3、多 LoRA 并行推理的挑战 4、S-LoRA 方法解析及实现 5、VTC Fair Scheduling 成果链接 Paper：S-LoRA: Serving Thousands of Concurrent LoRA Adapters Abs：h ...

2024-08-14｜🎥 观看直播

AWQ：激活值感知的LLM低位权重量化

8月14日晚7点，青稞Talk第19期，MIT准博士生唐嘉铭，将直播分享《AWQ：激活值感知的LLM低位权重量化》。主讲嘉宾唐嘉铭，MIT准博士生；导师是韩松教授；此前，在上海交通大学（ACM班）获得了计算机科学学士学位；大三期间，在上海交通大学高性能计算中心实验室（EPCCLab）进行科研实习，导师是冷静文教授；研究兴趣是大语言模型的高效算法和系统，发表的论文 AWQ 获得了MLSys 2024最佳论文奖，并已被集成到Transformers、vLLM、FastChat、TensorRT-LLM和TGI中。主题提纲 AWQ：激活值感知的LLM低位权重量化 1、大模型量化的常见方法介绍 2、激活感知权重量化 AWQ 技术解析 3、AWQ 的代码实现及使用方法成果链接 Paper：AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration Abs：https://arxiv.org/abs/2306.00978 Code：https://github.com/mit-han- ...

2024-08-06｜🎥 观看直播

InternVL 2.0：通过渐进式策略扩展开源多模态大模型的性能边界

8月6日晚7点，青稞Talk第18期，香港中文大学博士后、上海人工智能实验室青年科学家、“书生”系列视觉基础模型核心开发者王文海，将直播分享《InternVL 2.0：通过渐进式策略扩展开源多模态大模型的性能边界》。他将和大家一起探讨图文多模态大模型的基本原理和技术，如何利用开源套件构建强大的多模态大模型，研究如何通过渐进式策略扩展开源多模态模型的性能边界，以缩小开源模型与商业闭源模型在多模态理解方面的能力差距。主讲嘉宾王文海，南京大学博士，香港中文大学博士后，上海人工智能实验室青年科学家，研究方向为视觉基础模型研究，上海人工智能实验室“书生”系列视觉基础模型核心开发者。主要成果发表在顶级期刊和会议TPAMI、CVPR、ICCV、ECCV、ICLR、NeurIPS等共43篇论文，其中19篇为一作/共一/通信。研究成果获得了总共超1.8万次引用，单篇最高引用超3000次。研究成果分别入选CVPR 2023最佳论文，世界人工智能大会青年优秀论文奖，CVMJ 2022最佳论文提名奖，两次入选ESI高被引论文（前1%）和热点论文（前0.1%），6次入选Paper Digest CVPR、 ...

2024-07-30｜🎥 观看直播

SEED-Story：生成长篇图文故事的多模态大型语言模型

7月30日晚7点，青稞Talk第17期，香港科技大学（广州）博士生杨帅，将直播分享《SEED-Story：生成长篇图文故事的多模态大型语言模型》。主讲嘉宾杨帅，香港科技大学（广州）人工智能方向的博士研究生，导师是陈颖聪博士。他的研究方向是高效深度学习和生成模型，相关成果已发表在ICCV，ICLR，CVPR，ECCV等国际顶级会议中。详见个人主页：https://andysonys.github.io/ 主题提纲 SEED-Story：生成长篇图文故事的多模态大型语言模型 1、多模态内容生成的挑战 2、SEED-Story 架构及训练方法 3、大规模高分辨率数据集 StoryStream 4、SEED-Story 微调及多模态故事生成实践成果链接 Paper：SEED-Story: Multimodal Long Story Generation with Large Language Model Abs：https://arxiv.org/abs/2407.08683 Code：https://github.com/TencentARC/SEED-Story 直播时间 ...

2024-07-23｜🎥 观看直播

YOLO-World：基于视觉语言模型的实时开放词汇物体检测

7月23日晚7点，青稞Talk第16期，华中科技大学博士生程天恒，将直播分享《YOLO-World：基于视觉语言模型的实时开放词汇物体检测》。主讲嘉宾程天恒，华中科技大学博士生；2019年获得华中科技大学（HUST）电子信息与通信专业的学士学位；研究兴趣包括计算机视觉、通用物体检测与分割以及多模态视觉模型，在人工智能与计算机视觉的顶级会议上发表学术论文11篇。主题提纲 YOLO-World：基于视觉语言模型的实时开放词汇物体检测 1、迈向更通用的开放词汇物体检测 2、YOLO-World：模型设计与大规模数据训练 3、YOLO-World微调与应用实践 4、多模态大模型时代的物体检测成果链接 Paper：YOLO-World: Real-Time Open-Vocabulary Object Detection Abs：https://arxiv.org/abs/2401.17270 Code：https://github.com/AILab-CVC/YOLO-World 直播时间 7月23日（周二）19:00-20:00

2024-07-15｜🎥 观看直播

MiniCPM-V：端侧可用的GPT-4V级多模态大模型

7月15日晚7点，青稞Talk第15期，清华大学自然语言处理实验室博士生余天予，将直播分享《MiniCPM-V：端侧可用的 GPT-4V 级多模态大模型》。分享嘉宾余天予，清华大学自然语言处理实验室博士生，发表AAAI、CVPR 等人工智能顶会论文多篇，主要研究方向为多模态大模型。主题提纲 MiniCPM-V：端侧可用的 GPT-4V 级多模态大模型 1、端侧多模态大模型的应用挑战 2、MiniCPM-V 系列模型与技术解析高效 Scaling Law 和 RLHF-V 等技术实现 8B 参数量 MiniCPM-Llama3-V 2.5 2B 参数量 MiniCPM-V 2.0 3、Demo 演示及 MiniCPM-V 端侧部署实践成果链接 Code：https://github.com/OpenBMB/MiniCPM-V/tree/main 直播时间 7月15日（周一）19:00 - 20:00

2024-07-11｜🎥 观看直播

Mobile-Agent：基于多模态Agent架构的手机智能体

7月11日晚7点，青稞Talk第14期，阿里通义实验室高级算法专家徐海洋，将直播分享《Mobile-Agent：基于多模态Agent架构的手机智能体》。分享嘉宾徐海洋，阿里通义实验室高级算法专家，负责通义多模态大模型mPLUG系列工作，包括基础多模态模型mPLUG/mPLUG-2，多模态对话大模型mPLUG-Owl/Owl2，多模态文档大模型mPLUG-DocOwl，多模态智能体Mobile-Agent等，其中 mPLUG 工作在 VQA 榜单首超人类的成绩。在国际顶级期刊和会议ICML/CVPR/ICCV/ACL/EMNLP/MM/TOIS/IJCAI/AAAI等发表论文30多篇，并担任多个顶级和会议AC/PC/Reviewer。主导参与开源项目mPLUG，X-PLUG，AliceMind，DELTA。主题提纲 Mobile-Agent：基于多模态Agent架构的手机智能体 1、多模态 Agent 的研究进展 2、基于视觉感知的 Mobile-Agent-V1 3、多 Agent 协作的多模态手机智能体 Mobile-Agent-V2 4、Mobile-Agent 应用实践 ...

2024-07-08｜🎥 观看直播

LLaMA Factory：从预训练到RLHF，大模型高效训练框架

2024-06-27｜🎥 观看直播

VillagerAgent：减少幻觉、提高任务分解效率的多智能协作体框架

6月27日晚7点，青稞社区组织【青稞Talk】第十二期，VillagerAgent一作、浙江大学硕士研究生董玉博，将直播分享 ACL 2024 findings 成果《VillagerAgent：减少幻觉、提高任务分解效率的多智能协作体框架》。主讲嘉宾董玉博，2023级浙江大学硕士研究生一年级。主题提纲 VillagerAgent：减少幻觉、提高任务分解效率的多智能协作体框架 1、多智能体的研究概述 2、经典多智能体框架解析 3、基于有向无环图的多智能体框架 VillagerAgent 4、基准测试对比及在多智能体协作应用探讨成果链接 Paper：VillagerAgent: A Graph-Based Multi-Agent Framework for Coordinating Complex Task Dependencies in Minecraft ArXiv：https://arxiv.org/pdf/2406.05720 Code：https://github.com/cnsdqd-dyb/VillagerAgent 直播时间 6月27日（周一）19:00 ...

2024-06-17｜🎥 观看直播

LLaMA Pro：扩展Transformer块优化的大型语言模型继续预训练

6月17日晚7点，青稞社区组织【青稞Talk】第十一期，LLAMA PRO一座、香港大学MMLAB在读博士吴成岳，将直播分享 ACL 2024最新成果《LLaMA Pro：扩展Transformer块优化的大型语言模型继续预训练》。主讲嘉宾吴成岳，香港大学MMLAB在读博士，师从罗平老师，研究方向为视觉-语言模型和大型语言模型。主题提纲 LLaMA Pro：扩展Transformer块优化的大型语言模型继续预训练 1、大型语言模型在特定领域的应用局限性 2、一种新的 LLM 后训练方案 LLaMA Pro 3、LLaMA-Pro-8.3B 模型的训练流程解析 4、基准测试表现及使用方法成果链接 paper：LLaMA Pro: Progressive LLaMA with Block Expansion arXiv：https://arxiv.org/pdf/2401.02415 code：https://github.com/TencentARC/LLaMA-Pro 直播时间 6月17日（周一）19:00 - 20:00

2024-06-13｜🎥 观看直播

PiSSA：收敛快、误差小的大模型参数高效微调方法

6月13日晚7点，青稞社区组织【青稞Talk】第十期，北京大学人工智能研究院孟繁续博士，将直播分享《PiSSA：收敛快、误差小的大模型参数高效微调方法》。分享嘉宾孟繁续，北京大学人工智能研究院在读博士；师从张牧涵教授。曾获哈尔滨工业大学优秀毕业生，师从卢光明教授。曾就职于腾讯优图实验室任研究员，mentor：孙星、程昊、李珂。研究方向为模型压缩与高效模型训练。曾以第一作者身份于CVPR，NeurIPS发表两篇论文。主题提纲 PiSSA：收敛快、误差小的大模型参数高效微调方法 1、参数高效微调方法 LoRA 和 QLoRA 2、继承 LoRA 优势的微调方法 PiSSA 3、在 LLaMA-3 等10余种主流大模型上的实验效果 4、PiSSA + LLaMA-3 微调实践成果链接 paper：PiSSA: Principal Singular Values and Singular Vectors Adaptation of Large Language Models arXiv：https://arxiv.org/pdf/2404.02948.pdf code：ht ...

2024-06-06｜🎥 观看直播

具身多模态大模型的视觉表征预训练研究

6月6日晚7点，青稞社区组织【青稞Talk】第九期，上海人工智能实验室青年研究员、OpenDriveLab具身智能方向负责人曾嘉博士，将直播分享《具身多模态大模型的视觉表征预训练研究》。主讲嘉宾曾嘉，上海人工智能实验室青年研究员，OpenDriveLab具身智能方向负责人。博士毕业于上海交通大学。在国际知名会议与期刊RSS、CVPR、IEEE T-PAMI、IEEE JBHI等发表论文30余篇，其中一作及共一论文10篇。担任CVPR、ECCV、ICML等顶会审稿人。获中国博后基金面上资助、上海“超级博士后”。参与国家自然基金委项目、科技部2030新一代人工智能重大项目、上海市科委科研专项等。主题提纲具身多模态大模型的视觉表征预训练研究 1、具身多模态大模型的研究分析 2、常见的视觉表征方法解析 3、面向机器人操作的视觉表征预训练方法 MPI 4、在下游机器人任务上的效果直播时间 6月6日（周四）19:00 - 20:00

2024-05-29｜🎥 观看直播

VideoBooth：文本和图像提示共同驱动的视频生成

5月29日晚7点，青稞社区组织【青稞Talk】第八期，南洋理工大学 MMLab 实验室在读博士姜瑜铭，将直播分享《VideoBooth：文本和图像提示共同驱动的视频生成》。主讲嘉宾姜瑜铭，南洋理工大学 MMLab 实验室在读博士生。导师为刘子纬(Ziwei Liu)教授和吕健勤(Chen Change Loy)教授。本科毕业于电子科技大学英才实验学院。主要研究方向为内容生成和复原，在CVPR、ICCV、ECCV、SIGGRAPH、TPAMI等期刊会议上发表多篇论文。博士期间获得过Google PhD Fellowship、ICLR Notable Reviewer等荣誉。主题提纲 VideoBooth：文本和图像提示共同驱动的视频生成 1、视频生成技术概述 2、融合文本和图像条件视频生成框架 3、定性实验及效果展示 4、VideoBooth 的定制化训练使用成果链接 paper：VideoBooth: Diffusion-based Video Generation with Image Prompts arXiv：https://arxiv.org/pdf/2312. ...

2024-05-24｜🎥 观看直播

MixEval：混合评测数据集来拟合大语言模型的人类评估

5月24日晚7点，青稞社区组织【青稞Talk】第七期，新加坡国立大学Research Fellow倪瑾杰博士，将直播分享《MixEval：混合评测数据集来拟合大语言模型的人类评估》。分享嘉宾倪瑾杰，新加坡国立大学Research Fellow。目前致力于大模型的高效训练，评估，以及多模态模型的训练。南洋理工大学计算机科学博士，博士期间研究方向为语言模型。主题提纲 MixEval：混合评测数据集来拟合大语言模型的人类评估 1、大语言模型为什么需要评估及难点分析 2、重采样评测数据集的基准测试方法 3、与其他主流基准测试的全面鸟瞰分析直播时间 5月24日（周五）19:00 - 20:00

2024-05-21｜🎥 观看直播

实时渲染 3DGS 中的反走样及逆渲染应用

5月21日晚7点，青稞社区组织【青稞Talk】第六期，邀请到华南理工大学几何感知与智能实验室博士梁智灏参与，分享《实时渲染 3DGS 中的反走样及逆渲染应用》。分享嘉宾梁智灏，华南理工大学几何感知与智能实验室博士，导师为贾奎教授；代表作三维语义分析方向（分割，检测）：SSTNet、VISTA；三维重建方向：HelixSurf、GS-IR、Analytic-Splatting。主题提纲实时渲染 3DGS 中的反走样及逆渲染应用 1、从 NeRF 到 3DGS，三维场景重建渲染方法概述 2、基于物理的逆渲染 3DGS 框架 GS-IR 3、实现 3DGS 反走样的 Analytic-Splatting 4、3DGS 落地难点及未来方向探讨成果链接 paper：Analytic-Splatting: Anti-Aliased 3D GaussianSplatting via Analytic Integration arXiv：https://arxiv.org/pdf/2403.11056 code：https://github.com/lzhnb/Analytic-S ...

2024-05-10｜🎥 观看直播

3D-VLA：构建生成式三维具身世界模型

20240507003245.png 5月10日晚7点，青稞社区组织【青稞Talk】第五期，邀请到 3D-VLA 一作甄昊宇参与，分享《3D-VLA：构建生成式三维具身世界模型》。分享嘉宾甄昊宇，上海交通大学大四，麻省理工学院访问学生，在ICML、NeurIPS、ICCV等会议上发表多篇论文。主题提纲 3D-VLA：构建生成式三维具身世界模型 1、世界模型、基础模型的研究 2、现有视觉-语言-动作（VLA）模型的局限 3、基于 3D-LLM 的生成式世界模型 3D-VLA 4、3D-VLA 的性能表现及未来方向成果链接 paper：3D-VLA: A 3D Vision-Language-Action Generative World Model arXiv：https://arxiv.org/abs/2403.09631 code：https://github.com/UMass-Foundation-Model/3D-VLA 直播时间 5月10日（周五）19:00 - 20:00 参与方式 Talk 将在青稞·知识社区上进行，扫码对暗号："0510"，报名交 ...

2024-04-24｜🎥 观看直播

Mini-Gemini：挖掘多模态视觉语言大模型的潜力

4月24日晚7点，青稞社区组织【青稞Talk】第四期，邀请到 Mini-Gemini 一作、香港中文大学在读博士李彦玮参与，分享《Mini-Gemini：挖掘多模态视觉语言大模型的潜力》。分享嘉宾李彦玮，香港中文大学计算机科学与工程系四年级博士生，师从贾佳亚教授；主要关注方向为计算机视觉和多模态模型；在CVPR、ICCV、ECCV、NeurIPS、TPAMI等会议及期刊上发表20篇以上文章，其中一作10篇，Google Scholar引用1600+；曾获微软奖学金提名，并作为一作获得Microsoft COCO比赛亚军；担任CVPR、ICCV、ECCV、NeurIPS、ICML、ICLR、IJCV等会议或期刊审稿人。主题提纲 Mini-Gemini：挖掘多模态视觉语言大模型的潜力 1、多模态大模型研究概述 2、多模态模型能力的构建路径 3、增强多模态视觉语言模型能力的 Mini-Gemini 4、2B至34B大语言基座模型上的性能及应用实践成果链接 Github 地址：https://github.com/dvlab-research/MiniGemini Demo ...

2024-04-19｜🎥 观看直播

从 3D LLM 到 MultiPLY ，3D 具身基础模型的构建

4月19日早9点，青稞社区组织【青稞Talk】第三期，邀请到 3D-LLM 和 MultiPLY 一作、加州大学洛杉矶分校在读博士洪逸宁参与，分享《从 3D LLM 到 MultiPLY ，3D 具身基础模型的构建》。分享嘉宾洪逸宁，加州大学洛杉矶分校在读博士，MIT-IBM沃森人工智能实验室研究员；在上海交通大学获得了学士学位；研究兴趣包括具身智能、3D大型语言模型和机器推理，在NeurIPS、CVPR、ICCV、AAAI等会议上发表了多篇第一作者的论文；曾获得2022年百度奖学金。主题提纲从 3D LLM 到 MultiPLY ，3D 具身基础模型的构建 1、具身智能大模型的研究 2、引入 3D 点云特征的大型语言模型 3D-LLM 3、多感官的多模态具身智能大模型 MultiPLY 4、模型的使用及未来方向探索研究成果链接 paper：MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in 3D World arxiv：https://arxiv.org/abs/2401. ...

2024-04-15｜🎥 观看直播

ChatDev：大语言模型驱动的多智能体协作与演化

4月15日晚7点，青稞社区组织【青稞Talk】第二期，并邀请到 ChatDev 一作、清华大学自然语言处理实验室（THUNLP）博士后钱忱参与，分享《ChatDev：大语言模型驱动的多智能体协作与演化》。本次 Talk 会基于 ChatDev 的关键思路，围绕大语言模型智能体的构建、协同、进化等方面进行相关技术和实践分享交流。分享嘉宾钱忱，清华大学自然语言处理实验室（THUNLP）博士后；清华大学软件学院博士，清华大学水木学者，主要研究方向为自然语言处理、大模型群体智能；合作导师为孙茂松和刘知远教授，曾在ACL、SIGIR、AAAI、CIKM等人工智能、信息管理、软件工程等相关的国际学术会议或期刊上以第一作者身份发表论文数篇。分享主题 ChatDev——大语言模型驱动的多智能体协作与演化 1、大语言模型驱动的自主智能体核心要素 2、交流链——多智能体的任务导向型高效协同 3、ChatDev——多智能体协同式软件开发实践 4、Co-Learning——多智能体的经验演化直播时间 4月15日（周一）19:00 - 20:00 成果链接 paper：Communicative ...

2024-04-10｜🎥 观看直播

SceneTex：高质量三维室内场景纹理图生成

4月10日晚7点，青稞社区组织【青稞Talk】第一期，并邀请到 SceneTex 一作、慕尼黑工业大学视觉计算实验室陈振宇博士参与，分享《SceneTex:高质量三维室内场景纹理图生成》。参与嘉宾陈振宇，慕尼黑工业大学视觉计算实验室博士；师从3D视觉著名教授Matthias Niessner，主要研究方向为文本驱动的三维场景理解与视觉定位，以及文本到三维内容生成，科研成果曾多次发表于计算机视觉顶级会议 (如CVPR，ICCV，ECCV)，并多次担任人工智能顶级会议审稿人。分享主题 SceneTex: 高质量三维室内场景纹理图生成 1、文本驱动的三维场景纹理图生成任务的研究重点及难点 2、基于二维扩散先验的三维场景纹理图生成方法 SceneTex 3、场景级三维纹理图生成策略及方法对比 4、现有方法的缺点及未来方向探讨成果链接 paper：SceneTex: High-Quality Texture Synthesis for Indoor Scenes via Diffusion Priors arxiv：https://arxiv.org/abs/2311.17261 ...

2024-02-26｜🎥 观看直播

青稞Panel 01 | Sora迷思：AIGC的微积分时刻?

最近，无论是 OpenAI 的 Sora 模型，还是 Stability AI 的 Stable Diffusion 3 ，都让我们看到了生成模型方面的突破。这也让我们不禁思考：AIGC 领域的微积分时刻是否已经到来？ 3月2日晚8点，青稞社区策划推出【青稞Panel】第一期，并邀请到DeepFaceLab(累计60,000 +⭐️)作者小黑兔、InstantID(huggingface space周榜第一)作者王浩帆、剑桥大学计算机系在读博士Andi Zhang和VBench 第一作者、南洋理工大学MMLab在读博士黄子琪参与，共同探讨《Sora迷思，AIGC的微积分时刻?》。 alt text 参与嘉宾王浩帆，CMU(卡耐基梅隆)硕士毕业，InstantX成员，代表工作InstantID(huggingface space周榜第一，Yann Lecun转发点赞)，Score-CAM(累计1000+ google citation)，发表过 NeurIPS、CVPR、ICCV、3DV 等多个领域顶级会议。 Andi Zhang，剑桥大学计算机数学双硕士，剑桥大学计算机系博士生 ...