OminiParser:基于纯视觉的 GUI Agent


青稞Talk 第三十期

11月30日上午11点,微软研究院 AI Frontiers 实验室高级研究员鲁亚东,将直播分享《OminiParser:基于纯视觉的 GUI Agent》。

主讲嘉宾

鲁亚东,微软研究院 AI Frontiers 实验室高级研究员。研究兴趣主要集中在大型视觉语言模型上,专注于构建能够在图形用户界面上完成任务的多模态代理;在加入微软之前,于 2021 年获得加州大学欧文分校博士学位。

主题提纲

OminiParser:基于纯视觉的 GUI Agent

1、VLMs 的研究及 GUI Agent 的应用难点
2、OminiParser:将屏幕 UI 解析为结构化文件
3、OmniParser 增强下的 GPT-4V 操作能力提升
4、与open source VLM的结合应用实践

成果链接

Paper:OmniParser for Pure Vision Based GUI Agent
Abs:https://arxiv.org/pdf/2408.00203
Code:https://github.com/microsoft/OmniParser
hugging face demo:https://huggingface.co/spaces/microsoft/OmniParser

直播时间

11月30日上午11点