青稞Talk 30期预告！OminiParser：基于纯视觉的 GUI Agent

青稞2024-11-262024-11-26

近年来，大型视觉-语言模型（VLMs）的发展（如GPT-4V和GPT-4o）在推动能够在用户界面（UI）中运行的智能代理系统方面展现出了巨大潜力。然而，这些多模态模型在现实应用中的全部潜力仍未得到充分挖掘，尤其是在仅依赖视觉输入，作为通用代理跨越多种操作系统和应用程序执行任务时。一项主要的限制因素是缺乏一种强大的屏幕解析技术，该技术需要能够：

1）可靠地识别用户界面中的可交互图标；
2）理解截图中各元素的语义，并能将目标操作准确地与屏幕上的对应区域关联起来。

为此，微软研究院的研究员们开源了 OmniParser，一个紧凑的屏幕解析模块，能够将用户界面截图转化为大语言模型可以看懂的“结构化元素”。比如识别屏幕上所有可交互的图标和按钮，并用框框标出来，给每个框框一个独一无二的ID；用文字描述每个图标的功能，比如“设置”、“最小化”。识别屏幕上的文字，并提取出来等等。

OmniParser 可以与多种模型配合使用，以创建能够在用户界面上执行操作的智能代理，比如 Phi-3.5-V、Llama-3.2-V 等。OmniParser 可以作为一种通用且易于使用的工具，能够在 PC 和移动平台上解析一般用户屏幕，而无需依赖 Android 中的 HTML 和视图层次结构等额外信息。