当前位置: 网站首页 >AI教程资讯 >正文

Magma – 微软研究院联合华盛顿等高校推出的多模态AI基础模型

来源:爱论文 时间:2025-03-17 10:27:27

Magma是什么

Magma 是微软研究院推出的新型多模态AI基础模型,能为多模态人工智能代理(AI agents)提供通用能力。Magma能理解和执行多模态输入的任务,覆盖数字和物理环境。Magma基于大规模的视觉-语言数据和动作数据进行预训练,Magma 结合了语言智能、空间智能和时间智能,能完成从 UI 导航到机器人操作的复杂任务。在实验中,Magma 在零样本和微调设置下均展现出卓越性能,在机器人操作和多模态理解任务中,超越了现有的专用模型。

Magma

Magma的主要功能

多模态理解:能处理图像、视频、文本等多种模态的数据,理解其语义、空间和时间信息。支持从简单的图像识别到复杂的视频理解任务。动作规划与执行:将复杂的任务分解为一系列可执行的动作序列。支持从 UI 导航(如网页操作、移动应用操作)到物理环境中的机器人操作(如抓取、放置、移动物体)。环境适应性:在零样本(zero-shot)的情况下适应多种下游任务,包括 UI 导航、机器人操作和多模态理解。

Magma的技术原理

预训练架构:使用卷积网络(如 ConvNeXt)作为视觉编码器,处理图像和视频数据。将编码后的视觉信息与语言标记一起输入到一个大型语言模型(LLM)中,生成动作序列或语言描述。Set-of-Mark (SoM):在图像中标注可操作的视觉对象(如 GUI 中的按钮、机器人手臂的目标位置)。基于预测这些标记的位置,帮助模型理解和执行动作落地(action grounding)。Trace-of-Mark (ToM):在视频中标注物体的运动轨迹(如机器人手臂的运动路径)。基于预测未来轨迹,帮助模型理解和规划动作序列,增强时间动态的理解能力。多模态数据融合:预训练数据包括图像、视频、机器人操作数据和多模态理解任务的数据。基于 SoM 和 ToM 技术,将这些不同类型的数据统一到一个预训练框架中,提升模型的通用性和适应性。零样本和微调能力:预训练后的模型能直接应用于未见过的任务(零样本),表现出较强的泛化能力。在少量数据上进行微调后,能进一步提升性能,适应特定任务的需求。

Magma的项目地址

项目官网:https://microsoft.github.io/Magma/GitHub仓库:https://github.com/microsoft/MagmaarXiv技术论文:https://www.arxiv.org/pdf/2502.13130

Magma的应用场景

网页和移动应用操作:自动完成搜索、安装应用、填写表单等任务。机器人操作:控制机器人完成抓取、放置和移动物体等任务。视频理解:分析视频内容,回答相关问题。智能助手:作为虚拟助手,理解指令并完成交互任务。教育与培训:辅助教学,提供操作指导和反馈。
上一篇:流畅阅读 – 开源AI浏览器翻译插件,支持双语对照显示
相关资讯 更多+
  • Magma – 微软研究院联合华盛顿等高校推出的多模态AI基础模型
    Magma – 微软研究院联合华盛顿等高校推出的多模态AI基础模型

    Magma 是微软研究院推出的新型多模态AI基础模型,能为多模态人工智能代理(AI agents)提供通用能力。Magma能理解和执行多模态输入的任务,覆盖数字和物理环境。Magma基于大规模的视觉-语言数据和动作数据进行预训练,Magma 结合了语言智能、空间智能和时间智能,能完成从 UI 导航到机器人操作的复杂任务。

    AI教程资讯 2023-04-14

  • 流畅阅读 – 开源AI浏览器翻译插件,支持双语对照显示
    流畅阅读 – 开源AI浏览器翻译插件,支持双语对照显示

    流畅阅读(FluentRead)是开源的浏览器翻译插件,致力于为用户提供类似母语的阅读体验。流畅阅读基于先进的AI技术,支持多种翻译引擎,包括传统机器翻译和AI大模型翻译,支持用户自定义翻译服务。流畅阅读核心功能包括智能翻译、双语对照显示及隐私保护,所有数据均本地存储,确保用户信息安全。

    AI教程资讯 2023-04-14

  • Muse – 微软研究院推出的生成式AI模型
    Muse – 微软研究院推出的生成式AI模型

    Muse是微软推出的首个用在游戏创意生成的生成式AI模型,基于“World and Human Action Model”(WHAM)。Muse能生成游戏视觉效果和控制器操作,基于学习人类玩家的游戏数据(如图像和操作指令)模拟真实的游戏玩法序列。

    AI教程资讯 2023-04-14

  • HealthGPT – 浙大联合阿里等机构推出的医学视觉语言模型
    HealthGPT – 浙大联合阿里等机构推出的医学视觉语言模型

    HealthGPT 是浙江大学、电子科技大学、阿里巴巴等多家机构联合开发的先进的医学视觉语言模型(Med-LVLM),通过异构知识适应技术实现医学视觉理解和生成任务的统一框架。采用创新的异构低秩适应(H-LoRA)技术,将视觉理解与生成任务的知识存储在独立的“插件”中,避免任务间的冲突。

    AI教程资讯 2023-04-14

最新录入 更多+
确定