当前位置: 网站首页 >AI教程资讯 >正文

Amazon Nova Act – 亚马逊推出的通用 AI 智能体,自主执行网页任务

来源:爱论文 时间:2025-04-16 13:01:57

Amazon Nova Act是什么

Amazon Nova Act是亚马逊 AGI Labs推出的通用AI代理,用于在网页浏览器中执行任务。Amazon Nova Act支持开发者基于配套的 SDK 构建智能体应用原型,完成如提交请假申请、预订日历或发送自动回复邮件等操作。Amazon Nova Act 基于将复杂任务分解为原子命令,结合 Playwright 直接操作浏览器,提升任务执行的可靠性和效率。Amazon Nova Act能帮助开发者构建自动化处理网络操作的智能体应用,未来有望实现更复杂的多步骤任务。

Amazon Nova Act

Amazon Nova Act的主要功能

分解复杂任务:支持开发者将复杂的多步骤任务分解为可靠的原子命令,例如搜索、填写表单、点击按钮等。添加详细指令:支持开发者为每个命令添加更详细的指令,例如“不要接受保险推销”或“选择特定日期”,确保任务按照预期执行。支持多任务操作:同时处理多个任务,基于 Python 代码实现任务的并行化处理,提高效率。提供 SDK 工具包:亚马逊推出配套的软件开发工具包(SDK),帮助开发者构建智能体应用原型。

Amazon Nova Act的技术原理

自然语言处理(NLP):基于预训练的语言模型,解析用户的意图,转化为具体的任务操作。NLP 技术支持多语言处理,使Amazon Nova Act 能在全球范围内为不同语言的用户提供服务。网页自动化技术:基于自动化工具(如 Selenium 或 Puppeteer)模拟人类的网页浏览行为。基于解析网页的 HTML 结构,识别表单字段自动填写用户提供的数据。支持从网页中提取所需的信息,如餐厅预订确认号、订单状态等。机器学习与强化学习:机器学习算法优化任务执行的效率和准确性。基于大量的训练数据,模型能学习到最优的任务执行路径。学习技术使 Nova Act 在执行任务时根据反馈进行自我优化。例如,如果在预订餐厅时遇到错误,基于强化学习调整策略,避免再次犯同样的错误。API 调用与集成:基于 API 调用与各种外部服务(如餐厅预订系统、在线购物平台等)进行交互,完成复杂的任务。Amazon Nova Act提供 SDK,开发者结合自己的业务逻辑,开发出更多定制化的应用。

Amazon Nova Act的项目地址

项目官网:https://labs.amazon.science/blog/nova-act

Amazon Nova Act的应用场景

办公自动化:自动提交请假申请、安排会议、填写表单和生成报告。电子商务:自动完成在线购物、定期采购和价格监控。个人生活管理:自动管理日程、健康生活安排和餐饮预订。复杂任务处理:自动组织活动(如婚礼、派对)和执行复杂 IT 任务。企业业务流程:自动处理客户关系、供应链管理和数据分析。
上一篇:Amodal3R – 南洋理工联合牛津等推出的条件式 3D 生成模型
相关资讯 更多+
  • Amazon Nova Act – 亚马逊推出的通用 AI 智能体,自主执行网页任务
    Amazon Nova Act – 亚马逊推出的通用 AI 智能体,自主执行网页任务

    Amazon Nova Act是亚马逊 AGI Labs推出的通用AI代理,用于在网页浏览器中执行任务。Amazon Nova Act支持开发者基于配套的 SDK 构建智能体应用原型,完成如提交请假申请、预订日历或发送自动回复邮件等操作。

    AI教程资讯 2023-04-14

  • Amodal3R – 南洋理工联合牛津等推出的条件式 3D 生成模型
    Amodal3R – 南洋理工联合牛津等推出的条件式 3D 生成模型

    Amodal3R 是条件式 3D 生成模型,能从部分可见的 2D 物体图像中推测并重建完整的 3D 形态和外观。模型基于“基础”3D 生成模型 TRELLIS 构建,通过引入掩码加权多头交叉注意力机制和遮挡感知注意力层,利用遮挡先验知识指导重建过程。

    AI教程资讯 2023-04-14

  • AutoAgent – 港大推出的 AI 智能体框架,零代码创建智能助手
    AutoAgent – 港大推出的 AI 智能体框架,零代码创建智能助手

    AutoAgent 是香港大学推出的零代码、自动化 LLM 智能体框架。基于自然语言交互,让用户无需编程即可创建智能助手,适用于智能搜索、数据分析、报告生成等场景。AutoAgent核心功能包括三种使用模式,用户模式、智能体编辑器、工作流编辑器,适应不同用户需求。

    AI教程资讯 2023-04-14

  • Text to Bark – ElevenLabs 推出的 AI“狗语”文本转语音模型
    Text to Bark – ElevenLabs 推出的 AI“狗语”文本转语音模型

    Text to Bark 是 ElevenLabs 推出的全球首个AI“狗语”文本转语音模型。用户输入文字选择犬种,模型能生成高度逼真的狗吠声,95%的狗无法分辨其与真实吠声。模型基于开源犬类语言学研究开发,支持个性化选择品种和调整语气,能部署到智能家居设备等“云吠基础设施”。

    AI教程资讯 2023-04-14

最新录入 更多+
确定