青稞Talk 第三十期
11月30日上午11点,微软研究院 AI Frontiers 实验室高级研究员鲁亚东,将直播分享《OminiParser:基于纯视觉的 GUI Agent》。
主讲嘉宾
鲁亚东,微软研究院 AI Frontiers 实验室高级研究员。研究兴趣主要集中在大型视觉语言模型上,专注于构建能够在图形用户界面上完成任务的多模态代理;在加入微软之前,于 2021 年获得加州大学欧文分校博士学位。
主题提纲
OminiParser:基于纯视觉的 GUI Agent
1、VLMs 的研究及 GUI Agent 的应用难点
2、OminiParser:将屏幕 UI 解析为结构化文件
3、OmniParser 增强下的 GPT-4V 操作能力提升
4、与open source VLM的结合应用实践
成果链接
Paper:OmniParser for Pure Vision Based GUI Agent
Abs:https://arxiv.org/pdf/2408.00203
Code:https://github.com/microsoft/OmniParser
hugging face demo:https://huggingface.co/spaces/microsoft/OmniParser
直播时间
11月30日上午11点