具体来说,研究如何通过LLMs的解释复杂GUI元素和基于自然语言指令自主执行动作来实现更智能、更灵活的自动化。 该问题的研究相关工作包括早期的基于脚本或规则的方法、近年来引入的机器学习和计算机视觉技术、以及最近的大型语言模型在GUI自动化中的应用。
利用大型语言模型(LLMs)来增强GUI自动化代理的方法:
架构和流程:一个基本的LLM驱动GUI代理的架构,包括操作环境、提示工程、模型推理、动作执行和内存管理五个主要组件。操作环境负责感知当前环境状态,提示工程构建输入提示以指导LLM进行推理,模型推理生成计划和动作,动作执行模拟用户操作,内存管理用于跟踪多步骤任务的状态。
平台特定感知:针对不同平台(移动设备、Web、桌面操作系统),代理使用不同的工具和技术来感知环境状态。例如,移动设备使用Accessibility API,Web使用Selenium,桌面操作系统使用Windows UI Automation。
提示工程:提示工程是关键步骤,涉及将用户请求、环境状态、可用动作等信息整合成一个结构化的输入提示。公式:Prompt=User Request+Agent Instruction+Environment States+Action Documents+Demonstrated Examples+Complementary Information
模型推理:模型推理部分将结构化提示输入到LLM中,生成计划和动作。LLM可以生成多种类型的输出,包括规划、动作和补充信息。
动作执行:动作执行部分将推理结果转化为具体的用户界面操作,如点击、输入文本、滚动等。代理还使用各种工具和技术来增强其操作能力,如API调用和AI工具。
天津联才科技发展有限公司是一家为企业提供互联网系统技术方案和网站建设服务的企业。公司创立于2015年,主要为政府、国企、国内上市公司、国外公司提供专业的品牌服务和技术开发服务。
自2015年成立以来,我们一直在帮助企业实现具有影响力的、行业特定的品牌、官网及软件系统解决方案。我们为企业提供从需求分析、功能规划、交互设计、原型设计、系统运维的整体软件开发技术解决方案。 联才科技始终关注有前景的软件开发集成框架和培养经验丰富的技术开发团队,为我们的客户提供优异的互联网解决方案。