OminiParser：基于纯视觉的 GUI Agent

发表于2024-11-30🎥 观看直播

OminiParser：基于纯视觉的 GUI Agent

青稞2024-11-30

11月30日上午11点，微软研究院 AI Frontiers 实验室高级研究员鲁亚东，将直播分享《OminiParser：基于纯视觉的 GUI Agent》。

主讲嘉宾

鲁亚东，微软研究院 AI Frontiers 实验室高级研究员。研究兴趣主要集中在大型视觉语言模型上，专注于构建能够在图形用户界面上完成任务的多模态代理；在加入微软之前，于 2021 年获得加州大学欧文分校博士学位。

主题提纲

OminiParser：基于纯视觉的 GUI Agent

1、VLMs 的研究及 GUI Agent 的应用难点
2、OminiParser：将屏幕 UI 解析为结构化文件
3、OmniParser 增强下的 GPT-4V 操作能力提升
4、与open source VLM的结合应用实践

成果链接

Paper：OmniParser for Pure Vision Based GUI Agent
Abs：https://arxiv.org/pdf/2408.00203
Code：https://github.com/microsoft/OmniParser
hugging face demo：https://huggingface.co/spaces/microsoft/OmniParser

直播时间

11月30日上午11点

喜欢这篇文章的人也看了

PC-Agent：面向复杂 PL 任务的多模态智能体框架

InferCept、Preble&Cognify：面向下一代 AI Agent 工作流系统的构建

ChatDev：大语言模型驱动的多智能体协作与演化

VillagerAgent：减少幻觉、提高任务分解效率的多智能协作体框架

Mobile-Agent：基于多模态Agent架构的手机智能体

使用CAMEL Agents构建GraphRAG及应用实践