OminiParser:基于纯视觉的 GUI Agent

11月30日上午11点,微软研究院 AI Frontiers 实验室高级研究员鲁亚东,将直播分享《OminiParser:基于纯视觉的 GUI Agent》。

主讲嘉宾

鲁亚东,微软研究院 AI Frontiers 实验室高级研究员。研究兴趣主要集中在大型视觉语言模型上,专注于构建能够在图形用户界面上完成任务的多模态代理;在加入微软之前,于 2021 年获得加州大学欧文分校博士学位。

主题提纲

OminiParser:基于纯视觉的 GUI Agent

  • 1、VLMs 的研究及 GUI Agent 的应用难点
  • 2、OminiParser:将屏幕 UI 解析为结构化文件
  • 3、OmniParser 增强下的 GPT-4V 操作能力提升
  • 4、与open source VLM的结合应用实践

成果链接

  • Paper:OmniParser for Pure Vision Based GUI Agent
  • Abs:https://arxiv.org/pdf/2408.00203
  • Code:https://github.com/microsoft/OmniParser
  • hugging face demo:https://huggingface.co/spaces/microsoft/OmniParser

直播时间

11月30日上午11点