OminiParser:基于纯视觉的 GUI Agent
发表于🎥 观看直播

OminiParser:基于纯视觉的 GUI Agent
青稞11月30日上午11点,微软研究院 AI Frontiers 实验室高级研究员鲁亚东,将直播分享《OminiParser:基于纯视觉的 GUI Agent》。
主讲嘉宾
鲁亚东,微软研究院 AI Frontiers 实验室高级研究员。研究兴趣主要集中在大型视觉语言模型上,专注于构建能够在图形用户界面上完成任务的多模态代理;在加入微软之前,于 2021 年获得加州大学欧文分校博士学位。
主题提纲
OminiParser:基于纯视觉的 GUI Agent
- 1、VLMs 的研究及 GUI Agent 的应用难点
- 2、OminiParser:将屏幕 UI 解析为结构化文件
- 3、OmniParser 增强下的 GPT-4V 操作能力提升
- 4、与open source VLM的结合应用实践
成果链接
- Paper:OmniParser for Pure Vision Based GUI Agent
- Abs:https://arxiv.org/pdf/2408.00203
- Code:https://github.com/microsoft/OmniParser
- hugging face demo:https://huggingface.co/spaces/microsoft/OmniParser
直播时间
11月30日上午11点