2025-03-22COAT:显存高效的 FP8 训练,实现高效深度学习
3月22日上午11点 ,青稞Talk 第42期,COAT
第一作者、加州大学伯克利分校计算机科学博士生席浩诚,将直播分享《COAT:显存高效的
FP8 训练,实现高效深度学习》。
分享嘉宾
席浩诚是加州大学伯克利分校计算机科学博士一年级学生,导师是Kurt
Keutzer教授,研究方向为大型语言模型和扩散模型的高效训练与推理。本科毕业于清华大学姚班,师从陈键飞教授和朱军教授。他曾在英伟达实习研究FP8训练方法。他曾在ICMl、Neurips、ICLR等顶级会议上发表多篇论文,他的主要研究成果包括Sparse
VideoGen、COAT、Jetfire等。
主题提纲
COAT:显存高效的 FP8 训练,实现高效深度学习
1、大模型 FP8 低精度训练的难点 2、COAT 框架两大核心技术 -
动态范围扩展 FP8 量化优化器状态 - 混合粒度 FP8 精度流
3、效果展示及应用实践
直播时间
3月8日(周六) 11:00 -12:00
成果链接
论文标题:COAT: Compressing Optimizer States and Activation for
memory effi ...
详情 2025-02-15Satori:通过训练LLM做自回归搜索来增强推理能力
2月15日上午11点,青稞Talk
第38期,Satori第一作者、MIT博士生沈茂昊,将直播分享《Satori:通过训练LLM做自回归搜索来增强推理能力》。
主讲嘉宾
沈茂昊,MIT EECS系四年级博士生,长期和MIT-IBM Watson AI lab
合作,本科毕业于UIUC
ECE系。研究兴趣包括提升AI系统的可靠性,不确定性估计,以及涉及LLM的多个方向,包括提升LLM的推理能力等,曾在ICML、NeurIPS、AAAI等AI学术会议发表多篇论文。
主题提纲
Satori:通过训练LLM做自回归搜索来增强推理能力
1、O1 类推理模型的技术路线
2、Satori 推理模型及两阶段训练解析 - 行动思维链 COAT 推理范式 -
小规模格式微调 - 大规模的强化学习阶段
3、Satori 的推理能力及泛化讨论
成果链接
Paper:https://arxiv.org/pdf/2502.02508
Project:https://satori-reasoning.github.io
直播时间
2月15日(周六)11:00 – 12:00
详情 2024-10-17GenAD & Vista:构建通用可泛化的自动驾驶世界模型
10月17日19点,青稞Talk
第27期,香港科技大学在读博士高深远,将直播分享《GenAD &
Vista:构建通用可泛化的自动驾驶世界模型》。
主讲嘉宾
高深远,香港科技大学在读博士,研究兴趣主要围绕具身场景中世界模型的构建及应用。曾在CVPR、NeurIPS、ECCV以第一作者身份发表多篇论文,并担任TPAMI、ICLR、NeurIPS、CVPR等期刊会议的审稿人。
主题提纲
GenAD & Vista:构建通用可泛化的自动驾驶世界模型
1、世界模型的概念及其重要性
2、GenAD和OpenDV大规模自动驾驶数据集
3、Vista:高保真且多样可控的通用自动驾驶世界模型
4、应用分析及未来研究探讨
成果链接
Paper:Vista: A Generalizable Driving World Model with High
Fidelity and Versatile Controllability
Abs:https://arxiv.org/abs/2405.17398
Code:https://github.com/opendrivelab/vista ...
详情 2024-07-08LLaMA Factory:从预训练到RLHF,大模型高效训练框架
7月8日晚7点,青稞Talk第13期,北京航空航天大学博士生郑耀威,将直播分享《LLaMA
Factory:从预训练到RLHF,大模型高效训练框架》。
分享嘉宾
郑耀威,北京航空航天大学博士生。以第一作者在ACL、CVPR、AAAI、WWW等国际会议发表多篇论文,担任AAAI、EMNLP、Neural
Computation等会议和期刊审稿人。曾获得华为杯数学建模全国一等奖、蓝桥杯全国一等奖、北航榜样、北航博士新生奖学金。大模型训练框架LLaMA
Factory作者,GitHub开源项目获得超过2万Stars,受邀至人工智能计算大会、阿里云AI智领者峰会、中国人民大学、智谱AI作大模型主题报告。
主题提纲
LLaMA Factory:从预训练到RLHF,大模型高效训练框架
1、大模型高效训练现状 2、LLaMA Factory 的构建动机与组成模块
- 上百种大模型的全栈微调适配原理 - LoRA算子优化加速方法 -
多种微调Trick集成思路 3、LLaMA Factory 部署实践
成果链接
Abs:http://arxiv.org/abs/2403.13372
Code:ht ...
详情
3月29日上午11点,青稞Talk第43期,VideoGrain第一作者、UTS
ReLER
lab博士生杨向鹏,将在线讲解《VideoGrain:基于扩散模型的多粒度视频编辑的探索与应用》。
主题提纲
VideoGrain:基于扩散模型的多粒度视频编辑的探索与应用
1、现有视频编辑方法概述和挑战 2、多粒度视频编辑任务的概念和解决思路 -
多粒度视频编辑的定义及难点 - VideoGrain的原理与思路
3、VideoGrain的视频编辑效果 4、未来工作的探索与应用
成果链接
VideoGrain: Modulating Space-Time Attention for Multi-Grained Video
Editing.
论文地址:https://arxiv.org/abs/2502.17258
Project page
:https://knightyxp.github.io/VideoGrain_project_page
https://github.com/knightyxp/VideoGrain
直播时间
3月29日(周六) 11:00 -12:00
参与方式
...
3月22日上午11点 ,青稞Talk 第42期,COAT
第一作者、加州大学伯克利分校计算机科学博士生席浩诚,将直播分享《COAT:显存高效的
FP8 训练,实现高效深度学习》。
分享嘉宾
席浩诚是加州大学伯克利分校计算机科学博士一年级学生,导师是Kurt
Keutzer教授,研究方向为大型语言模型和扩散模型的高效训练与推理。本科毕业于清华大学姚班,师从陈键飞教授和朱军教授。他曾在英伟达实习研究FP8训练方法。他曾在ICMl、Neurips、ICLR等顶级会议上发表多篇论文,他的主要研究成果包括Sparse
VideoGen、COAT、Jetfire等。
主题提纲
COAT:显存高效的 FP8 训练,实现高效深度学习
1、大模型 FP8 低精度训练的难点 2、COAT 框架两大核心技术 -
动态范围扩展 FP8 量化优化器状态 - 混合粒度 FP8 精度流
3、效果展示及应用实践
直播时间
3月8日(周六) 11:00 -12:00
成果链接
论文标题:COAT: Compressing Optimizer States and Activation for
memory effi ...
3月15日上午11点,青稞Talk
第41期,阿里通义实验室高级算法工程师张熙,将直播分享《PC-Agent:面向复杂
PL 任务的多模态智能体框架》。
分享嘉宾
张熙,博士毕业于中科院自动化研究所,目前担任阿里通义实验室高级算法工程师,负责多模态智能体Mobile-Agent等工作。在国际顶级期刊和会议TPAMI/TIP/CVPR/ACM
MM/TMM/TCSVT等发表论文,曾获得CCL BEST Demo、China MM BEST Paper、VCIP
BEST Student
Paper、中科院院长奖等,担任多个顶级会议与期刊Reviewer,并在开源社区Github获得236k
star。
主题提纲
PC-Agent:面向复杂 PL 任务的多模态智能体框架
1、PC 场景的复杂性
2、多模态智能体框架 PC-Agent
3、样例展示及应用实践
4、探讨-下:Manus/Owl/OpenManus …
直播时间
3月15日(周六) 11:00 -12:00
3月8日上午11点,青稞Talk
第40期,商汤科技大模型工具体系团队研究员、LightLLM
核心开发人员白世豪,将直播分享《基于 LightLLM 的 DeepSeek R1/V3
模型部署实战》。
分享嘉宾
白世豪,商汤科技大模型工具体系团队研究员,LightLLM核心开发人员,主要负责大语言模型推理加速,探索更高效的大语言模型服务技术,在ASPLOS,
IJCAI、AAAI、ICCV等期刊会议发表论文十篇。
主题提纲
基于 LightLLM 的 DeepSeek R1/V3 模型部署实战
1、LightLLM 框架及特性解读
2、PD 分离原型实现
3、针对 DeepSeek 系列模型的专项优化
4、DeepSeek R1/V3 部署实战
直播时间
3月8日(周六) 11:00 -12:00
2月22日上午11点,青稞Talk
第39期,上海人工智能实验室青年科学家崔淦渠,将直播分享《PRIME:
结合隐式过程奖励的强化学习》。
主讲嘉宾
崔淦渠,上海人工智能实验室青年科学家,博士毕业于清华大学计算机系,导师为刘知远副教授。研究方向为大语言模型的对齐与强化学习技术。在ICML,
NeurIPS, ACL,
KDD等国际人工智能顶级会议与期刊上发表论文十余篇,谷歌学术引用超9000次。
主题提纲
PRIME: 结合隐式过程奖励的强化学习
1、为什么强化学习是下一个 Scaling law
2、DeepSeek-R1:过程奖励模型在强化学习中的挑战
3、Implicit PRM与 PRIME 如何破局
成果链接
Paper:Process Reinforcement through Implicit Rewards
Abs:https://arxiv.org/pdf/2502.01456
Code:https://github.com/PRIME-RL/PRIME
直播时间
2月22日(周六) 11:00 -12:00
2月15日上午11点,青稞Talk
第38期,Satori第一作者、MIT博士生沈茂昊,将直播分享《Satori:通过训练LLM做自回归搜索来增强推理能力》。
主讲嘉宾
沈茂昊,MIT EECS系四年级博士生,长期和MIT-IBM Watson AI lab
合作,本科毕业于UIUC
ECE系。研究兴趣包括提升AI系统的可靠性,不确定性估计,以及涉及LLM的多个方向,包括提升LLM的推理能力等,曾在ICML、NeurIPS、AAAI等AI学术会议发表多篇论文。
主题提纲
Satori:通过训练LLM做自回归搜索来增强推理能力
1、O1 类推理模型的技术路线
2、Satori 推理模型及两阶段训练解析 - 行动思维链 COAT 推理范式 -
小规模格式微调 - 大规模的强化学习阶段
3、Satori 的推理能力及泛化讨论
成果链接
Paper:https://arxiv.org/pdf/2502.02508
Project:https://satori-reasoning.github.io
直播时间
2月15日(周六)11:00 – 12:00
1月14日19:00,青稞Talk
第37期,香港科技大学(广州)博士生许添硕,将直播分享《Motion
Dreamer:面向自动驾驶与物理世界对齐的视频生成模型》。
主讲嘉宾
许添硕,香港科技大学(广州)博士生,导师为陈颖聪教授,研究兴趣是自动驾驶、视频生成。
主题提纲
Motion Dreamer:面向自动驾驶与物理世界对齐的视频生成模型
1、现有视频生成模型的局限性
2、基于场景感知运动推理的视频生成模型 Motion Dreamer -
两阶段的视频生成框架 - 实例流的训练与推理策略 - 中间运动表示的选择
3、在自动驾驶等复杂场景中的应用讨论
成果链接
Abs:https://arxiv.org/abs/2412.00547
直播时间
1月14日(周二)19:00 - 20:00
主讲嘉宾
马跃,香港科技大学计算机博士生,清华大学电子信息硕士,主要研究领域是视频生成、图片生成等,曾在百度,腾讯
AI
Lab,腾讯混元作为算法研究实习,在NeurIPS,Siggraph,AAAI,CVPR,TMM等发表多篇高水平文章,曾经获得北京市优秀毕业生等荣誉称号。
主题提纲
Follow Family:可控视频生成方法探索与应用
1、可控视频生成方法解析
2、Follow Family 系列工作探索
骨架控制
肖像控制
局部可控图生视频
大分辨率视频扩展生成
3、未来工作探索与应用
直播时间
1月4日(周六)商上午11:00 - 12:00
12月28日11点,青稞Talk
第35期,香港科技大学广州博士生周子凯,将直播分享《Tuning-Free
Enhence:通过噪声初始化和采样轨迹优化增强预训练扩散模型》。
主讲嘉宾
周子凯,香港科技大学广州博士生。研究方向为扩散模型与模型压缩,发表IJCAI,NIPS等多篇论文。
主题提纲
Tuning-Free
Enhence:通过噪声初始化和采样轨迹优化增强预训练扩散模型
无雪微调的扩散模型增强方法概述
Golden
Noise:扩散模型噪声初始化框架
采样轨迹优化 Zigzag
Diffusion & lV-Mixed
Sampler
对未来生成式模型的展望
直播时间
2024年12月28日(周六)11:00 -12:00
12月24日20点,青稞Talk
第34期,中国科学院自动化研究所博士生、新加坡国立大学访问博士生李志凯,将直播分享《K-Sort
Arena:视觉生成模型的高效人类偏好竞技场》。
主讲嘉宾
李志凯,中国科学院自动化研究所博士生,新加坡国立大学访问博士生。研究方向为高效深度学习和模型压缩,以第一作者身份在ICCV、ECCV、TNNLS、PR等期刊会议上发表多篇论文。
主题提纲
K-Sort Arena:视觉生成模型的高效人类偏好竞技场
1、人类偏好评估概述
2、K-Sort Arena 解析
K-wise 比较
概率建模与贝叶斯更新
探索-利用的匹配算法
3、实验结果评估与排行榜构建
成果链接
Paper:K-Sort Arena: Efficient and Reliable Benchmarking for
Generative Models via K-wise Human Preferences
Abs:https://arxiv.org/pdf/2408.14468
Hugging Face:https://huggingface.co/spaces/ksort/ ...
12月21日11点,青稞Talk 第33期,CMU
博士生董易昕,将直播分享《XGrammar:高效实现
LLM灵活且可移植的结构化生成》。
分享嘉宾
董易昕,卡内基梅隆大学计算机科学系的一年级博士生,导师为陈天奇教授;本科毕业于上海交通大学计算机科学专业(ACM班);研究聚焦于机器学习与系统的交叉领域,尤其对LLM
Agents研究感兴趣;作为一名开源软件和项目的拥护者,共同领导并参与了一些流行的项目,包括
MLC-LLM 和 Apache TVM Unity,同时也担任 Apache TVM
Reviewer;曾经在华盛顿大学与 Luis Ceze 教授共同研究。
主题提纲
XGrammar:高效实现 LLM 灵活且可移植的结构化生成
1、大模型结构化生成方法概述及挑战
2、面向大语言模型的结构化生成引擎 XGrammar
上下文无关语法的解析
高效可持久化的堆栈数据结构
与 LLM 推理引擎的联合设计
3、XGrammar 应用实践
成果链接
Paper:Grammar: Flexible and Efficient Structured Generation Eng ...
12月16日晚8点,青稞Talk第32期,商汤科技研究院谷石桥和雍洋两位模型压缩研究员,将对LLMC进行直播分享,主题为《LLMC:大语言模型压缩工具的开发实践》。
他们将从工具框架设计,常用算法解读和工具使用方式等角度,为大家详细讲解LLMC及实践,希望大家可以从中获益。
主讲嘉宾
谷石桥,商汤科技研究院模型压缩研究员,毕业于天津大学,现主要研究方向为深度学习的模型压缩技术,目前已在EMNLP,PatternRecognition,
TCSVT等发表多篇论文。
雍洋,商汤科技研究院模型压缩研究员,毕业于西安交通大学,现主要研究方向为深度学习的模型压缩技术,目前已在AAAI,EMNLP,ACM
MM等发表多篇论文。
主题提纲
LLMC:大语言模型压缩工具的开发实践
1、大模型压缩及量化风险
2、大模型压缩包 LLMC 的框架设计
3、LLMC 落地实践和推理后端部署
4、自定义扩展新算法、模型及评测数据
成果链接
https://github.com/ModelTC/llmc
直播时间
12月16日(周一)20:00 - 21:00
12月14日11点,青稞Talk
第31期,深度求索(DeepSeek)研究员、UT
Austin博士刘星超,将直播分享《Rectified
Flow:矫正流生成式模型的概念及应用实践》。
主讲嘉宾
刘星超,深度求索(DeepSeek)研究员,UT
Austin博士,师从刘强教授。研究兴趣是生成式模型的底层原理及对生成式模型框架的改进。在ICML、NeurIPS、ICLR等机器学习顶级会议上发表十余篇文章,并多次担任JMLR等顶级期刊审稿人。也是SD3.0和Flux背后采样器的作者。
主题提纲
Rectified Flow:矫正流生成式模型的概念及应用实践
1、矫正流(Rectified Flow)的概念
2、矫正流算法的核心理论、数学原理以及代码实现
3、在新一代文生图模型中的应用实践
4、探讨矫正流与其它生成模型的联系
成果链接
Paper:Flow Straight and Fast:Learning to Generate and Transfer Data
with Rectified Flow
Abs:https://arxiv.org/pdf/2209.03003 ...
11月30日上午11点,微软研究院 AI Frontiers
实验室高级研究员鲁亚东,将直播分享《OminiParser:基于纯视觉的
GUI Agent》。
主讲嘉宾
鲁亚东,微软研究院 AI Frontiers
实验室高级研究员。研究兴趣主要集中在大型视觉语言模型上,专注于构建能够在图形用户界面上完成任务的多模态代理;在加入微软之前,于
2021 年获得加州大学欧文分校博士学位。
主题提纲
OminiParser:基于纯视觉的 GUI Agent
1、VLMs 的研究及 GUI Agent 的应用难点
2、OminiParser:将屏幕 UI 解析为结构化文件
3、OmniParser 增强下的 GPT-4V 操作能力提升
4、与open source VLM的结合应用实践
成果链接
Paper:OmniParser for Pure Vision Based GUI Agent
Abs:https://arxiv.org/pdf/2408.00203
Code:https://github.com/microsoft/OmniParser
hugging face
dem ...
主讲嘉宾
方云浩,本科毕业于浙江大学,硕士毕业于UCSD(苏昊教授),自24年2月起在Nvidia
VILA团队实习(陆垚博士、韩松教授)。主要科研方向是大模型相关的1.
推理能力(通过探索提升推理上限: Unleashing the Creative
Mind;通过演绎验证获得可靠思维链: Deductive Verification for
Chain-of-thought Reasoning);2. 推理、训练高效性(CLIP
Distillation with OOD Generalization; VILA^2: VLM Augmented VLM for
Self-improvement)。
主题提纲
\(VILA^2\) :
视觉语言模型能力的自我提升
1、视觉语言模型研究概述
2、基础模型 VILA 的初衷及架构解析
3、基于自增强与专家增强的 VILA^2
4、探讨VILA-U、LongVILA 以及 World Model Benchmark
成果链接
\(VILA^2\)
:https://arxiv.org/pdf/2407.17453
https:// ...
11月5日19点,青稞Talk
第28期,中科院自动化所和香港城市大学联合培养博士生林浩坤,将直播分享《DuQuant:
基于正交变换实现大型语言模型的 SOTA级 4 bit 量化》。DuQuant
的论文在NeurIPS 2024 上获得 88877 的分数并被接收为Oral。
主讲嘉宾
林浩坤,中科院自动化所和香港城市大学联合培养博士生,研究方向为模型压缩加速,相关研究工作发表于CVPR、NeurIPS、ICLR等会议。
主题提纲
DuQuant: 基于正交变换实现大型语言模型的 SOTA级 4 bit 量化
1、大语言模型权重激活(WA)量化算法概述
2、SOTA 4bit 量化算法:DuQuant
LLM 中的离群值(outliers)问题
正交变换分散 LLM 离群值策略
在 LLaMA、Vicuna、Mistral 系列模型的验证
3、DuQuant 量化实践
成果链接
Paper:DuQuant: Distributing Outliers via Dual Transformation Makes
Stronger Quantized LLMs
Abs:h ...
10月17日19点,青稞Talk
第27期,香港科技大学在读博士高深远,将直播分享《GenAD &
Vista:构建通用可泛化的自动驾驶世界模型》。
主讲嘉宾
高深远,香港科技大学在读博士,研究兴趣主要围绕具身场景中世界模型的构建及应用。曾在CVPR、NeurIPS、ECCV以第一作者身份发表多篇论文,并担任TPAMI、ICLR、NeurIPS、CVPR等期刊会议的审稿人。
主题提纲
GenAD & Vista:构建通用可泛化的自动驾驶世界模型
1、世界模型的概念及其重要性
2、GenAD和OpenDV大规模自动驾驶数据集
3、Vista:高保真且多样可控的通用自动驾驶世界模型
4、应用分析及未来研究探讨
成果链接
Paper:Vista: A Generalizable Driving World Model with High
Fidelity and Versatile Controllability
Abs:https://arxiv.org/abs/2405.17398
Code:https://github.com/opendrivelab/vista ...
10月17日7点(PST
10月16日16:00),SGLang、FlashInfer和MLC
LLM三个项目团队联合举办大模型高效部署与服务线上研讨会!三个项目的核心开发者们将共同分享、探讨他们在LLM高效部署和服务方面的不同见解。
会议议程
7:00 - 7:45 SGLang
演讲嘉宾:尹良升、郑怜悯、鲍科
分享主题:SGlang 中的低CPU 开销调度、Deepseek MLA 优化及 JSON
高效解码
视频回放:https://hcqnc.xetlk.com/s/2WjPut
7:50 - 8:35 FlashInfer
演讲嘉宾:叶子豪
分享主题:高性能LLM Serving的 Kernel 生成
视频回放:https://hcqnc.xetlk.com/s/qA8TD
8:40 - 9:30 MLC LLM
演讲嘉宾:赖睿航、董易昕、陈天奇
分享主题:通用 LLM 部署、低延时服务及基于 Grammar 的快速解码
视频回放:https://hcqnc.xetlk.com/s/2zJFTn
PPT
链接: 百度网盘
提取码: 9xzv
10月14日19点,青稞Talk 第26期,VITA
第一作者,南京大学智能科学与技术学院研究员、助理教授、博导傅朝友,将直播分享《VITA:开源交互式多模态基础大模型》。
主讲嘉宾
傅朝友,南京大学智能科学与技术学院研究员,助理教授,博导。2022年博士毕业于中国科学院自动化研究所,2022年-2024年在腾讯优图实验室担任高级研究员,作为Technology
& Project
Leader从事学术研究和工程落地工作。已发表JCR-1区期刊/CCF-A类会议论文共20余篇,包括两篇一作IEEE
TPAMI,研究成果GitHub开源项目共计获得超过1.3万次Star。研究方向为多模态大模型、大语言模型、生物特征识别,代表性工作包括Awesome-MLLM、MME、Video-MME、MME-RealWorld和VITA。长期担任CVPR、ICCV、ECCV、NeurIPS、ICLR、ICML、IEEE
TIP等国际顶级期刊和会议的审稿人。曾获中国科学院院长特别奖、IEEE
Biometrics
Council最佳博士学位论文奖、北京市&中科院优秀博士学位论文、2022 ...
10月11日晚7点,青稞Talk
第25期,商汤科技算法实习生、香港科技大学准博士生黄雨石,将直播分享《LLMC:大语言模型的量化基准》。
主讲嘉宾
黄雨石,本科毕业于北京航空航天大学,即将进入香港科技大学攻读计算机博士学位。研究方向为高效的AIGC模型,神经网络压缩与加速等,目前已在CVPR,
EMNLP, ACM MM发表多篇论文。
主题提纲
LLMC:大语言模型的量化基准
1、大语言模型量化技术概述
2、大模型压缩工具 LLMC
3、基于 LLMC 的量化基准测试
校准数据
算法(三种策略)
数据格式
成果链接
https://github.com/ModelTC/llmc
欢迎大家Star!
直播时间
10月11日(周五)19:00 - 20:00
9月26日19点,青稞Talk 第24期,Eigent AI Founding
Engineer、CAMEL
AI开源多智能体框架核心贡献者范文栋,将直播分享《使用 CAMEL
Agents 构建 GraphRAG 及应用实践》
主讲嘉宾
范文栋,Eigent AI Founding Engineer、CAMEL
AI开源多智能体框架核心贡献者。
主题提纲
使用 CAMEL Agents 构建 GraphRAG 及应用实践
1、多智能体框架 CAMEL 及工作流介绍
2、传统 RAG VS GraphRAG
3、基于 CAMEL 的 GraphRAG 实现
4、GraphRAG 应用:角色扮演和知识图谱生成实践
成果链接
Code:https://github.com/mistralai/cookbook/blob/main/third_party/CAMEL_AI/camel_graph_rag.ipynb
直播时间
9月26日(周四)19:00 - 20:00
9月23日20点,青稞Talk
第23期,智谱AI算法工程师,CogVideoX作者之一张昱轩,将直播分享《CogVideoX
视频生成开源模型上手实践》
主讲嘉宾
张昱轩,智谱AI算法工程师,CogVideoX作者之一;智谱多个开源仓库的核心贡献者。
主题提纲
CogVideoX 视频生成开源模型上手实践
1、CogVideoX-2B / 5B 模型详解 2、CogVideoX 代码架构解析 3、基于
CogVideoX 的基础调用及微调 4、CogVideoX-2B / 5B 工程适配实践
成果链接
Paper:CogVideoX: Text-to-Video Diffusion Models with An Expert
Transformer Abs:https://arxiv.org/abs/2408.06072
Code:https://github.com/THUDM/CogVideo
直播时间
9月23日(周一)20:00 - 21:00
SGLang v0.3发布,它带来了显著的性能提升和对新模型架构的扩展支持:
DeepSeek V2 MLA 相比 vLLM 提升 7 倍吞吐
在小 batch size 上使用 torch.compile 提升 1.5 倍 decoding speed
支持 LLaVA-OneVision(注:LLaVA-OneVision
官方团队第一时间提供的支持)
Gemma 2 支持 interleaved window attention,支持 8k context Gemma
2(注:vLLM 最新 0.6.0 是 4k context)
DeepSeek多头潜在注意力(MLA)吞吐量优化
多头潜在注意力(MLA)是DeepSeek团队引入的一种新的注意力变体,旨在提高推理效率。由于它与标准注意力机制的不同,现有的开源库尚未完全优化此操作。在SGLang
v0.3中,我们为MLA实施了各种优化,包括权重吸收、分组解码内核、FP8批MatMul和FP8
KV缓存量化。基准测试结果显示,SGLang
v0.3通过MLA优化实现了比基线系统高达3到7倍的吞吐量。
基准测试测量了这些模型在H ...
9月10日19点,青稞Talk
第22期,阿里巴巴通义实验室高级算法工程师、华东师范大学博士叶加博,将直播分享《mPLUG-Owl3:探索长序列模型架构的通用多模态大模型》。
主讲嘉宾
叶加博,华东师范大学博士,阿里巴巴通义实验室高级算法工程师,参与通义多模态大模型mPLUG家族的研发,包含多模态底座mPLUG系列,多模态大语言模型mPLUG-Owl系列以及多模态文档理解大模型mPLUG-DocOwl系列。其中多模态文档理解工作mPLUG-DocOwl首次提出图像切分策略解决大模型高分辨率图像理解问题,成为前沿多模态大模型通用组件。
主题提纲
mPLUG-Owl3:探索长序列模型架构的通用多模态大模型
1、长视觉内容理解对多模态大模型的挑战
2、mPLUG-Owl3 模型架构及训练解析
Hyper-Attention
三阶段训练范式
3、mPLUG-Owl3 评估测试及应用实践
成果链接
Paper:mPLUG-Owl3: Towards Long Image-Sequence Understanding in
Multi-Modal Large Language Mode ...
9月3日11点,青稞Talk第21期,Databricks Mosaic
Research研究科学家,斯坦福大学博士盛颖 ,将直播分享的《SGLang
v0.2:面向 LLM 和 VLM 的快速、高效通用服务引擎》。
主讲嘉宾
盛颖,Databricks Mosaic
Research研究科学家,斯坦福大学博士;近期研究重点是在不同场景下对大型语言模型(LLM)进行高效推理和服务。个人主页:https://sites.google.com/view/yingsheng
主题提纲
SGLang v0.2:面向 LLM 和 VLM 的快速、高效通用服务引擎
1、从Simple Chat 到 LLM Programs,现有大模型推理系统的挑战
2、SGLang 技术结构解析:
RadixAttention
Upper-level Scheduling
3、SGLang v0.2 部署应用实践及未来开发
成果链接
Paper:SGLang: Efficient Execution of Structured Language Model
Programs
Abs:https://ar ...
8月26日11点,青稞Talk第20期,UC Berkeley 博士生曹诗怡,将对 S-Lora
进行分享,主题为《S-LoRA:实现多 LoRA 大模型的高效并行化推理》。
主讲嘉宾
曹诗怡,UC Berkeley 博士生;导师是Ion Stoica和Joseph E.
Gonzalez教授,主要研究方向为机器学习系统,分布式系统和高性能计算。此前,在上海交通大学取得计算机科学学士学位,在苏黎世联邦理工取得硕士学位。博士一年级期间主要研究大语言模型的高效推理和部署,相关成果发表在MLSys,OSDI等会议中。个人主页:https://shiyicao.com/
主题提纲
S-LoRA:实现多 LoRA 大模型的高效并行化推理
1、大模型时代的多用户和定制化 LLM Serving 问题
2、常见的大模型微调方法及 LoRA 介绍
3、多 LoRA 并行推理的挑战
4、S-LoRA 方法解析及实现
5、VTC Fair Scheduling
成果链接
Paper:S-LoRA: Serving Thousands of Concurrent LoRA Adapters
Abs:h ...
8月14日晚7点,青稞Talk第19期,MIT准博士生唐嘉铭,将直播分享《AWQ:激活值感知的LLM低位权重量化》。
主讲嘉宾
唐嘉铭,MIT准博士生;导师是韩松教授;此前,在上海交通大学(ACM班)获得了计算机科学学士学位;大三期间,在上海交通大学高性能计算中心实验室(EPCCLab)进行科研实习,导师是冷静文教授;研究兴趣是大语言模型的高效算法和系统,发表的论文
AWQ 获得了MLSys
2024最佳论文奖,并已被集成到Transformers、vLLM、FastChat、TensorRT-LLM和TGI中。
主题提纲
AWQ:激活值感知的LLM低位权重量化
1、大模型量化的常见方法介绍
2、激活感知权重量化 AWQ 技术解析
3、AWQ 的代码实现及使用方法
成果链接
Paper:AWQ: Activation-aware Weight Quantization for LLM Compression
and Acceleration
Abs:https://arxiv.org/abs/2306.00978
Code:https://github.com/mit-han- ...
8月6日晚7点,青稞Talk第18期,香港中文大学博士后、上海人工智能实验室青年科学家、“书生”系列视觉基础模型核心开发者王文海,将直播分享《InternVL
2.0:通过渐进式策略扩展开源多模态大模型的性能边界》。他将和大家一起探讨图文多模态大模型的基本原理和技术,如何利用开源套件构建强大的多模态大模型,研究如何通过渐进式策略扩展开源多模态模型的性能边界,以缩小开源模型与商业闭源模型在多模态理解方面的能力差距。
主讲嘉宾
王文海,南京大学博士,香港中文大学博士后,上海人工智能实验室青年科学家,研究方向为视觉基础模型研究,上海人工智能实验室“书生”系列视觉基础模型核心开发者。主要成果发表在顶级期刊和会议TPAMI、CVPR、ICCV、ECCV、ICLR、NeurIPS等共43篇论文,其中19篇为一作/共一/通信。研究成果获得了总共超1.8万次引用,单篇最高引用超3000次。研究成果分别入选CVPR
2023最佳论文,世界人工智能大会青年优秀论文奖,CVMJ
2022最佳论文提名奖,两次入选ESI高被引论文(前1%)和热点论文(前0.1%),6次入选Paper
Digest CVPR、 ...
7月30日晚7点,青稞Talk第17期,香港科技大学(广州)博士生杨帅,将直播分享《SEED-Story:生成长篇图文故事的多模态大型语言模型》。
主讲嘉宾
杨帅,香港科技大学(广州)人工智能方向的博士研究生,导师是陈颖聪博士。他的研究方向是高效深度学习和生成模型,相关成果已发表在ICCV,ICLR,CVPR,ECCV等国际顶级会议中。详见个人主页:https://andysonys.github.io/
主题提纲
SEED-Story:生成长篇图文故事的多模态大型语言模型
1、多模态内容生成的挑战
2、SEED-Story 架构及训练方法
3、大规模高分辨率数据集 StoryStream
4、SEED-Story 微调及多模态故事生成实践
成果链接
Paper:SEED-Story: Multimodal Long Story Generation with Large
Language Model
Abs:https://arxiv.org/abs/2407.08683
Code:https://github.com/TencentARC/SEED-Story
直播时间
...
7月23日晚7点,青稞Talk第16期,华中科技大学博士生程天恒,将直播分享《YOLO-World:基于视觉语言模型的实时开放词汇物体检测》。
主讲嘉宾
程天恒,华中科技大学博士生;2019年获得华中科技大学(HUST)电子信息与通信专业的学士学位;研究兴趣包括计算机视觉、通用物体检测与分割以及多模态视觉模型,在人工智能与计算机视觉的顶级会议上发表学术论文11篇。
主题提纲
YOLO-World:基于视觉语言模型的实时开放词汇物体检测
1、迈向更通用的开放词汇物体检测
2、YOLO-World:模型设计与大规模数据训练
3、YOLO-World微调与应用实践
4、多模态大模型时代的物体检测
成果链接
Paper:YOLO-World: Real-Time Open-Vocabulary Object Detection
Abs:https://arxiv.org/abs/2401.17270
Code:https://github.com/AILab-CVC/YOLO-World
直播时间
7月23日(周二)19:00-20:00
7月15日晚7点,青稞Talk第15期,清华大学自然语言处理实验室博士生余天予,将直播分享《MiniCPM-V:端侧可用的
GPT-4V 级多模态大模型》。
分享嘉宾
余天予,清华大学自然语言处理实验室博士生,发表AAAI、CVPR
等人工智能顶会论文多篇,主要研究方向为多模态大模型。
主题提纲
MiniCPM-V:端侧可用的 GPT-4V 级多模态大模型
1、端侧多模态大模型的应用挑战
2、MiniCPM-V 系列模型与技术解析
高效 Scaling Law 和 RLHF-V 等技术实现
8B 参数量 MiniCPM-Llama3-V 2.5
2B 参数量 MiniCPM-V 2.0
3、Demo 演示及 MiniCPM-V 端侧部署实践
成果链接
Code:https://github.com/OpenBMB/MiniCPM-V/tree/main
直播时间
7月15日(周一)19:00 - 20:00
7月11日晚7点,青稞Talk第14期,阿里通义实验室高级算法专家徐海洋,将直播分享《Mobile-Agent:基于多模态Agent架构的手机智能体》。
分享嘉宾
徐海洋,阿里通义实验室高级算法专家,负责通义多模态大模型mPLUG系列工作,包括基础多模态模型mPLUG/mPLUG-2,多模态对话大模型mPLUG-Owl/Owl2,多模态文档大模型mPLUG-DocOwl,多模态智能体Mobile-Agent等,其中
mPLUG 工作在 VQA
榜单首超人类的成绩。在国际顶级期刊和会议ICML/CVPR/ICCV/ACL/EMNLP/MM/TOIS/IJCAI/AAAI等发表论文30多篇,并担任多个顶级和会议AC/PC/Reviewer。主导参与开源项目mPLUG,X-PLUG,AliceMind,DELTA。
主题提纲
Mobile-Agent:基于多模态Agent架构的手机智能体
1、多模态 Agent 的研究进展
2、基于视觉感知的 Mobile-Agent-V1
3、多 Agent 协作的多模态手机智能体 Mobile-Agent-V2
4、Mobile-Agent 应用实践 ...
7月8日晚7点,青稞Talk第13期,北京航空航天大学博士生郑耀威,将直播分享《LLaMA
Factory:从预训练到RLHF,大模型高效训练框架》。
分享嘉宾
郑耀威,北京航空航天大学博士生。以第一作者在ACL、CVPR、AAAI、WWW等国际会议发表多篇论文,担任AAAI、EMNLP、Neural
Computation等会议和期刊审稿人。曾获得华为杯数学建模全国一等奖、蓝桥杯全国一等奖、北航榜样、北航博士新生奖学金。大模型训练框架LLaMA
Factory作者,GitHub开源项目获得超过2万Stars,受邀至人工智能计算大会、阿里云AI智领者峰会、中国人民大学、智谱AI作大模型主题报告。
主题提纲
LLaMA Factory:从预训练到RLHF,大模型高效训练框架
1、大模型高效训练现状 2、LLaMA Factory 的构建动机与组成模块
- 上百种大模型的全栈微调适配原理 - LoRA算子优化加速方法 -
多种微调Trick集成思路 3、LLaMA Factory 部署实践
成果链接
Abs:http://arxiv.org/abs/2403.13372
Code:ht ...
6月27日晚7点,青稞社区组织【青稞Talk】第十二期,VillagerAgent一作、浙江大学硕士研究生董玉博,将直播分享
ACL 2024 findings
成果《VillagerAgent:减少幻觉、提高任务分解效率的多智能协作体框架》。
主讲嘉宾
董玉博,2023级浙江大学硕士研究生一年级。
主题提纲
VillagerAgent:减少幻觉、提高任务分解效率的多智能协作体框架
1、多智能体的研究概述
2、经典多智能体框架解析
3、基于有向无环图的多智能体框架 VillagerAgent
4、基准测试对比及在多智能体协作应用探讨
成果链接
Paper:VillagerAgent: A Graph-Based Multi-Agent Framework for
Coordinating Complex Task Dependencies in Minecraft
ArXiv:https://arxiv.org/pdf/2406.05720
Code:https://github.com/cnsdqd-dyb/VillagerAgent
直播时间
6月27日(周一)19:00 ...
6月17日晚7点,青稞社区组织【青稞Talk】第十一期,LLAMA
PRO一座、香港大学MMLAB在读博士吴成岳,将直播分享 ACL 2024最新成果《LLaMA
Pro:扩展Transformer块优化的大型语言模型继续预训练》。
主讲嘉宾
吴成岳,香港大学MMLAB在读博士,师从罗平老师,研究方向为视觉-语言模型和大型语言模型。
主题提纲
LLaMA Pro:扩展Transformer块优化的大型语言模型继续预训练
1、大型语言模型在特定领域的应用局限性
2、一种新的 LLM 后训练方案 LLaMA Pro
3、LLaMA-Pro-8.3B 模型的训练流程解析
4、基准测试表现及使用方法
成果链接
paper:LLaMA Pro: Progressive LLaMA with Block Expansion
arXiv:https://arxiv.org/pdf/2401.02415
code:https://github.com/TencentARC/LLaMA-Pro
直播时间
6月17日(周一)19:00 - 20:00
6月13日晚7点,青稞社区组织【青稞Talk】第十期,北京大学人工智能研究院孟繁续博士,将直播分享《PiSSA:收敛快、误差小的大模型参数高效微调方法》。
分享嘉宾
孟繁续,北京大学人工智能研究院在读博士;师从张牧涵教授。曾获哈尔滨工业大学优秀毕业生,师从卢光明教授。曾就职于腾讯优图实验室任研究员,mentor:孙星、程昊、李珂。研究方向为模型压缩与高效模型训练。曾以第一作者身份于CVPR,NeurIPS发表两篇论文。
主题提纲
PiSSA:收敛快、误差小的大模型参数高效微调方法
1、参数高效微调方法 LoRA 和 QLoRA
2、继承 LoRA 优势的微调方法 PiSSA
3、在 LLaMA-3 等10余种主流大模型上的实验效果
4、PiSSA + LLaMA-3 微调实践
成果链接
paper:PiSSA: Principal Singular Values and Singular Vectors
Adaptation of Large Language Models
arXiv:https://arxiv.org/pdf/2404.02948.pdf
code:ht ...
6月6日晚7点,青稞社区组织【青稞Talk】第九期,上海人工智能实验室青年研究员、OpenDriveLab具身智能方向负责人曾嘉博士,将直播分享《具身多模态大模型的视觉表征预训练研究》。
主讲嘉宾
曾嘉,上海人工智能实验室青年研究员,OpenDriveLab具身智能方向负责人。博士毕业于上海交通大学。在国际知名会议与期刊RSS、CVPR、IEEE
T-PAMI、IEEE
JBHI等发表论文30余篇,其中一作及共一论文10篇。担任CVPR、ECCV、ICML等顶会审稿人。获中国博后基金面上资助、上海“超级博士后”。参与国家自然基金委项目、科技部2030新一代人工智能重大项目、上海市科委科研专项等。
主题提纲
具身多模态大模型的视觉表征预训练研究
1、具身多模态大模型的研究分析
2、常见的视觉表征方法解析
3、面向机器人操作的视觉表征预训练方法 MPI
4、在下游机器人任务上的效果
直播时间
6月6日(周四)19:00 - 20:00
5月29日晚7点,青稞社区组织【青稞Talk】第八期,南洋理工大学 MMLab
实验室在读博士姜瑜铭,将直播分享《VideoBooth:文本和图像提示共同驱动的视频生成》。
主讲嘉宾
姜瑜铭,南洋理工大学 MMLab 实验室在读博士生。导师为刘子纬(Ziwei
Liu)教授和吕健勤(Chen Change
Loy)教授。本科毕业于电子科技大学英才实验学院。主要研究方向为内容生成和复原,在CVPR、ICCV、ECCV、SIGGRAPH、TPAMI等期刊会议上发表多篇论文。博士期间获得过Google
PhD Fellowship、ICLR Notable Reviewer等荣誉。
主题提纲
VideoBooth:文本和图像提示共同驱动的视频生成
1、视频生成技术概述
2、融合文本和图像条件视频生成框架
3、定性实验及效果展示
4、VideoBooth 的定制化训练使用
成果链接
paper:VideoBooth: Diffusion-based Video Generation with Image
Prompts
arXiv:https://arxiv.org/pdf/2312. ...
5月24日晚7点,青稞社区组织【青稞Talk】第七期,新加坡国立大学Research
Fellow倪瑾杰博士,将直播分享《MixEval:混合评测数据集来拟合大语言模型的人类评估》。
分享嘉宾
倪瑾杰,新加坡国立大学Research
Fellow。目前致力于大模型的高效训练,评估,以及多模态模型的训练。
南洋理工大学计算机科学博士,博士期间研究方向为语言模型。
主题提纲
MixEval:混合评测数据集来拟合大语言模型的人类评估
1、大语言模型为什么需要评估及难点分析
2、重采样评测数据集的基准测试方法
3、与其他主流基准测试的全面鸟瞰分析
直播时间
5月24日(周五)19:00 - 20:00
5月21日晚7点,青稞社区组织【青稞Talk】第六期,邀请到华南理工大学几何感知与智能实验室博士梁智灏参与,分享《实时渲染
3DGS 中的反走样及逆渲染应用》。
分享嘉宾
梁智灏,华南理工大学几何感知与智能实验室博士
,导师为贾奎教授;代表作三维语义分析方向(分割,检测):SSTNet、VISTA;三维重建方向:HelixSurf、GS-IR、Analytic-Splatting。
主题提纲
实时渲染 3DGS 中的反走样及逆渲染应用
1、从 NeRF 到 3DGS,三维场景重建渲染方法概述
2、基于物理的逆渲染 3DGS 框架 GS-IR
3、实现 3DGS 反走样的 Analytic-Splatting
4、3DGS 落地难点及未来方向探讨
成果链接
paper:Analytic-Splatting: Anti-Aliased 3D GaussianSplatting via
Analytic Integration
arXiv:https://arxiv.org/pdf/2403.11056
code:https://github.com/lzhnb/Analytic-S ...
20240507003245.png
5月10日晚7点,青稞社区组织【青稞Talk】第五期,邀请到
3D-VLA 一作甄昊宇参与,分享《3D-VLA:构建生成式三维具身世界模型》。
分享嘉宾
甄昊宇,上海交通大学大四,麻省理工学院访问学生,在ICML、NeurIPS、ICCV等会议上发表多篇论文。
主题提纲
3D-VLA:构建生成式三维具身世界模型
1、世界模型、基础模型的研究
2、现有视觉-语言-动作(VLA) 模型的局限
3、基于 3D-LLM 的生成式世界模型 3D-VLA
4、3D-VLA 的性能表现及未来方向
成果链接
paper:3D-VLA: A 3D Vision-Language-Action Generative World
Model
arXiv:https://arxiv.org/abs/2403.09631
code:https://github.com/UMass-Foundation-Model/3D-VLA
直播时间
5月10日(周五)19:00 - 20:00
参与方式
Talk
将在青稞·知识社区上进行,扫码对暗号:"0510",报名交 ...
4月24日晚7点,青稞社区组织【青稞Talk】第四期,邀请到
Mini-Gemini
一作、香港中文大学在读博士李彦玮参与,分享《Mini-Gemini:挖掘多模态视觉语言大模型的潜力》。
分享嘉宾
李彦玮,香港中文大学计算机科学与工程系四年级博士生,师从贾佳亚教授;主要关注方向为计算机视觉和多模态模型;在CVPR、ICCV、ECCV、NeurIPS、TPAMI等会议及期刊上发表20篇以上文章,其中一作10篇,Google
Scholar引用1600+;曾获微软奖学金提名,并作为一作获得Microsoft
COCO比赛亚军;担任CVPR、ICCV、ECCV、NeurIPS、ICML、ICLR、IJCV等会议或期刊审稿人。
主题提纲
Mini-Gemini:挖掘多模态视觉语言大模型的潜力
1、多模态大模型研究概述
2、多模态模型能力的构建路径
3、增强多模态视觉语言模型能力的 Mini-Gemini
4、2B至34B大语言基座模型上的性能及应用实践
成果链接
Github 地址:https://github.com/dvlab-research/MiniGemini
Demo ...
4月19日早9点,青稞社区组织【青稞Talk】第三期,邀请到
3D-LLM 和 MultiPLY
一作、加州大学洛杉矶分校在读博士洪逸宁参与,分享《从 3D LLM 到
MultiPLY ,3D 具身基础模型的构建》。
分享嘉宾
洪逸宁,加州大学洛杉矶分校在读博士,MIT-IBM沃森人工智能实验室研究员;在上海交通大学获得了学士学位;研究兴趣包括具身智能、3D大型语言模型和机器推理,在NeurIPS、CVPR、ICCV、AAAI等会议上发表了多篇第一作者的论文;曾获得2022年百度奖学金。
主题提纲
从 3D LLM 到 MultiPLY ,3D 具身基础模型的构建
1、具身智能大模型的研究
2、引入 3D 点云特征的大型语言模型 3D-LLM
3、多感官的多模态具身智能大模型 MultiPLY
4、模型的使用及未来方向探索研究
成果链接
paper:MultiPLY: A Multisensory Object-Centric Embodied Large
Language Model in 3D World
arxiv:https://arxiv.org/abs/2401. ...
4月15日晚7点,青稞社区组织【青稞Talk】第二期,并邀请到 ChatDev
一作、清华大学自然语言处理实验室(THUNLP)博士后钱忱参与,分享《ChatDev:大语言模型驱动的多智能体协作与演化》。本次
Talk 会基于 ChatDev
的关键思路,围绕大语言模型智能体的构建、协同、进化等方面进行相关技术和实践分享交流。
分享嘉宾
钱忱,清华大学自然语言处理实验室(THUNLP)博士后;清华大学软件学院博士,清华大学水木学者,主要研究方向为自然语言处理、大模型群体智能;合作导师为孙茂松和刘知远教授,曾在ACL、SIGIR、AAAI、CIKM等人工智能、信息管理、软件工程等相关的国际学术会议或期刊上以第一作者身份发表论文数篇。
分享主题
ChatDev——大语言模型驱动的多智能体协作与演化
1、大语言模型驱动的自主智能体核心要素
2、交流链——多智能体的任务导向型高效协同
3、ChatDev——多智能体协同式软件开发实践
4、Co-Learning——多智能体的经验演化
直播时间
4月15日(周一)19:00 - 20:00
成果链接
paper:Communicative ...
4月10日晚7点,青稞社区组织【青稞Talk】第一期,并邀请到 SceneTex
一作、慕尼黑工业大学视觉计算实验室陈振宇博士参与,分享《SceneTex:高质量三维室内场景纹理图生成》。
参与嘉宾
陈振宇,慕尼黑工业大学视觉计算实验室博士;师从3D视觉著名教授Matthias
Niessner,主要研究方向为文本驱动的三维场景理解与视觉定位,以及文本到三维内容生成,科研成果曾多次发表于计算机视觉顶级会议
(如CVPR,ICCV,ECCV),并多次担任人工智能顶级会议审稿人。
分享主题
SceneTex: 高质量三维室内场景纹理图生成
1、文本驱动的三维场景纹理图生成任务的研究重点及难点
2、基于二维扩散先验的三维场景纹理图生成方法 SceneTex
3、场景级三维纹理图生成策略及方法对比
4、现有方法的缺点及未来方向探讨
成果链接
paper:SceneTex: High-Quality Texture Synthesis for Indoor Scenes
via Diffusion Priors
arxiv:https://arxiv.org/abs/2311.17261 ...
最近,无论是 OpenAI 的 Sora 模型,还是 Stability AI 的 Stable
Diffusion 3 ,都让我们看到了生成模型方面的突破。这也让我们不禁思考:AIGC
领域的微积分时刻是否已经到来?
3月2日晚8点,青稞社区策划推出【青稞Panel】第一期,并邀请到DeepFaceLab(累计60,000
+⭐️)作者小黑兔、InstantID(huggingface
space周榜第一)作者王浩帆、剑桥大学计算机系在读博士Andi Zhang和VBench
第一作者、南洋理工大学MMLab在读博士黄子琪参与,共同探讨《Sora迷思,AIGC的微积分时刻?》。
alt text
参与嘉宾
王浩帆,CMU(卡耐基梅隆)硕士毕业,InstantX成员,代表工作InstantID(huggingface
space周榜第一,Yann Lecun转发点赞),Score-CAM(累计1000+ google
citation),发表过 NeurIPS、CVPR、ICCV、3DV 等多个领域顶级会议。
Andi
Zhang,剑桥大学计算机数学双硕士,剑桥大学计算机系博士生 ...