加载头像
多模态大模型

2024

VILA^2:视觉语言模型能力的自我提升
VILA^2:视觉语言模型能力的自我提升
VITA:开源交互式多模态基础大模型
VITA:开源交互式多模态基础大模型
mPLUG-Owl3:探索长序列模型架构的通用多模态大模型
mPLUG-Owl3:探索长序列模型架构的通用多模态大模型
InternVL 2.0:通过渐进式策略扩展开源多模态大模型的性能边界
InternVL 2.0:通过渐进式策略扩展开源多模态大模型的性能边界
SEED-Story:生成长篇图文故事的多模态大型语言模型
SEED-Story:生成长篇图文故事的多模态大型语言模型
YOLO-World:基于视觉语言模型的实时开放词汇物体检测
YOLO-World:基于视觉语言模型的实时开放词汇物体检测
MiniCPM-V:端侧可用的GPT-4V级多模态大模型
MiniCPM-V:端侧可用的GPT-4V级多模态大模型
Mobile-Agent:基于多模态Agent架构的手机智能体
Mobile-Agent:基于多模态Agent架构的手机智能体
具身多模态大模型的视觉表征预训练研究
具身多模态大模型的视觉表征预训练研究
Mini-Gemini:挖掘多模态视觉语言大模型的潜力
Mini-Gemini:挖掘多模态视觉语言大模型的潜力
引用到评论
随便逛逛博客分类文章标签
复制地址关闭热评深色模式轉為繁體