Open Computer Agent – Hugging Face 推出的免费云端 AI Agent 工具-爱论文

Open Computer Agent是什么

Open Computer Agent 是 Hugging Face 推出的免费云端 AI Agent 工具。支持在 Linux 虚拟机中运行，基于预装的程序（如 Firefox）完成用户指定的任务，例如用 Google Maps 查找地点等。工具基于先进的视觉模型（如 Qwen-VL），能用图像坐标定位和点击虚拟界面中的元素。Open Computer Agent 为未来更高效的自动化任务处理提供了发展方向。

Open Computer Agent的主要功能

任务自动化：用户用自然语言指令让 Open Computer Agent 完成各种任务，比如打开特定的网页、搜索信息、填写表单等。图像识别与交互：支持识别虚拟机屏幕上的图像元素，根据坐标定位和点击图像元素，实现与图形界面的交互。多任务处理：支持在虚拟机中同时运行多个程序，完成复杂的任务流程。云托管与共享：作为云托管的服务，用户无需本地安装软件，基于网络访问和使用工具，方便快捷。

Open Computer Agent的技术原理

预训练语言模型：基于先进的预训练语言模型理解用户的自然语言指令，生成相应的操作指令。模型经过大量文本数据的训练，能准确解析用户的需求。视觉模型与图像识别：结合视觉模型（如 Qwen-VL），模型具备“内置定位能力”，即基于坐标定位图像中的元素，识别虚拟机屏幕上的界面元素，进行点击等操作。虚拟机技术：基于在云端运行 Linux 虚拟机，模拟真实的计算机操作环境。用户指定的任务在虚拟机中执行，避免对本地计算机的直接操作。任务规划与执行：当接收到用户指令后，Open Computer Agent 进行任务规划，分解任务为一系列可执行的步骤，在虚拟机中依次执行步骤，最终完成用户的目标。