加载头像
分类 - 青稞Talk

2025

InferCept、Preble&Cognify:面向下一代 AI Agent 工作流系统的构建
InferCept、Preble&Cognify:面向下一代 AI Agent 工作流系统的构建
VideoGrain:基于扩散模型的多粒度视频编辑的探索与应用
VideoGrain:基于扩散模型的多粒度视频编辑的探索与应用
COAT:显存高效的 FP8 训练,实现高效深度学习
COAT:显存高效的 FP8 训练,实现高效深度学习
PC-Agent:面向复杂 PL 任务的多模态智能体框架
PC-Agent:面向复杂 PL 任务的多模态智能体框架
基于 LightLLM 的 DeepSeek R1/V3 模型部署实战
基于 LightLLM 的 DeepSeek R1/V3 模型部署实战
PRIME:结合隐式过程奖励的强化学习
PRIME:结合隐式过程奖励的强化学习
Satori:通过训练LLM做自回归搜索来增强推理能力
Satori:通过训练LLM做自回归搜索来增强推理能力
Motion Dreamer:面向自动驾驶与物理世界对齐的视频生成模型
Motion Dreamer:面向自动驾驶与物理世界对齐的视频生成模型
Follow Family:可控视频生成方法探索与应用
Follow Family:可控视频生成方法探索与应用

2024

Tuning-Free Enhence:通过噪声初始化和采样轨迹优化增强预训练扩散模型
Tuning-Free Enhence:通过噪声初始化和采样轨迹优化增强预训练扩散模型
K-Sort Arena:视觉生成模型的高效人类偏好竞技场
K-Sort Arena:视觉生成模型的高效人类偏好竞技场
XGrammar:高效实现 LLM灵活且可移植的结构化生成
XGrammar:高效实现 LLM灵活且可移植的结构化生成
LLMC:大语言模型压缩工具的开发实践
LLMC:大语言模型压缩工具的开发实践
Rectified Flow:矫正流生成式模型的概念及应用实践
Rectified Flow:矫正流生成式模型的概念及应用实践
OminiParser:基于纯视觉的 GUI Agent
OminiParser:基于纯视觉的 GUI Agent
VILA^2:视觉语言模型能力的自我提升
VILA^2:视觉语言模型能力的自我提升
DuQuant: 基于正交变换实现大型语言模型的 SOTA级 4 bit 量化
DuQuant: 基于正交变换实现大型语言模型的 SOTA级 4 bit 量化
GenAD & Vista:构建通用可泛化的自动驾驶世界模型
GenAD & Vista:构建通用可泛化的自动驾驶世界模型
VITA:开源交互式多模态基础大模型
VITA:开源交互式多模态基础大模型
LLMC:大语言模型的量化基准
LLMC:大语言模型的量化基准
使用CAMEL Agents构建GraphRAG及应用实践
使用CAMEL Agents构建GraphRAG及应用实践
CogVideoX 视频生成开源模型上手实践
CogVideoX 视频生成开源模型上手实践
mPLUG-Owl3:探索长序列模型架构的通用多模态大模型
mPLUG-Owl3:探索长序列模型架构的通用多模态大模型
SGLang v0.2:面向 LLM 和 VLM 的快速、高效通用服务引擎
SGLang v0.2:面向 LLM 和 VLM 的快速、高效通用服务引擎
S-LoRA:实现多 LoRA 大模型的高效并行化推理
S-LoRA:实现多 LoRA 大模型的高效并行化推理
AWQ:激活值感知的LLM低位权重量化
AWQ:激活值感知的LLM低位权重量化
InternVL 2.0:通过渐进式策略扩展开源多模态大模型的性能边界
InternVL 2.0:通过渐进式策略扩展开源多模态大模型的性能边界
SEED-Story:生成长篇图文故事的多模态大型语言模型
SEED-Story:生成长篇图文故事的多模态大型语言模型
YOLO-World:基于视觉语言模型的实时开放词汇物体检测
YOLO-World:基于视觉语言模型的实时开放词汇物体检测
MiniCPM-V:端侧可用的GPT-4V级多模态大模型
MiniCPM-V:端侧可用的GPT-4V级多模态大模型
Mobile-Agent:基于多模态Agent架构的手机智能体
Mobile-Agent:基于多模态Agent架构的手机智能体
LLaMA Factory:从预训练到RLHF,大模型高效训练框架
LLaMA Factory:从预训练到RLHF,大模型高效训练框架
VillagerAgent:减少幻觉、提高任务分解效率的多智能协作体框架
VillagerAgent:减少幻觉、提高任务分解效率的多智能协作体框架
LLaMA Pro:扩展Transformer块优化的大型语言模型继续预训练
LLaMA Pro:扩展Transformer块优化的大型语言模型继续预训练
PiSSA:收敛快、误差小的大模型参数高效微调方法
PiSSA:收敛快、误差小的大模型参数高效微调方法
具身多模态大模型的视觉表征预训练研究
具身多模态大模型的视觉表征预训练研究
VideoBooth:文本和图像提示共同驱动的视频生成
VideoBooth:文本和图像提示共同驱动的视频生成
MixEval:混合评测数据集来拟合大语言模型的人类评估
MixEval:混合评测数据集来拟合大语言模型的人类评估
实时渲染 3DGS 中的反走样及逆渲染应用
实时渲染 3DGS 中的反走样及逆渲染应用
3D-VLA:构建生成式三维具身世界模型
3D-VLA:构建生成式三维具身世界模型
引用到评论
随便逛逛博客分类文章标签
复制地址关闭热评深色模式轉為繁體