Magma – 微软研究院联合华盛顿等高校推出的多模态AI基础模型-爱论文

Magma是什么

Magma 是微软研究院推出的新型多模态AI基础模型，能为多模态人工智能代理（AI agents）提供通用能力。Magma能理解和执行多模态输入的任务，覆盖数字和物理环境。Magma基于大规模的视觉-语言数据和动作数据进行预训练，Magma 结合了语言智能、空间智能和时间智能，能完成从 UI 导航到机器人操作的复杂任务。在实验中，Magma 在零样本和微调设置下均展现出卓越性能，在机器人操作和多模态理解任务中，超越了现有的专用模型。

Magma的主要功能

多模态理解：能处理图像、视频、文本等多种模态的数据，理解其语义、空间和时间信息。支持从简单的图像识别到复杂的视频理解任务。动作规划与执行：将复杂的任务分解为一系列可执行的动作序列。支持从 UI 导航（如网页操作、移动应用操作）到物理环境中的机器人操作（如抓取、放置、移动物体）。环境适应性：在零样本（zero-shot）的情况下适应多种下游任务，包括 UI 导航、机器人操作和多模态理解。

Magma的技术原理

预训练架构：使用卷积网络（如 ConvNeXt）作为视觉编码器，处理图像和视频数据。将编码后的视觉信息与语言标记一起输入到一个大型语言模型（LLM）中，生成动作序列或语言描述。Set-of-Mark (SoM)：在图像中标注可操作的视觉对象（如 GUI 中的按钮、机器人手臂的目标位置）。基于预测这些标记的位置，帮助模型理解和执行动作落地（action grounding）。Trace-of-Mark (ToM)：在视频中标注物体的运动轨迹（如机器人手臂的运动路径）。基于预测未来轨迹，帮助模型理解和规划动作序列，增强时间动态的理解能力。多模态数据融合：预训练数据包括图像、视频、机器人操作数据和多模态理解任务的数据。基于 SoM 和 ToM 技术，将这些不同类型的数据统一到一个预训练框架中，提升模型的通用性和适应性。零样本和微调能力：预训练后的模型能直接应用于未见过的任务（零样本），表现出较强的泛化能力。在少量数据上进行微调后，能进一步提升性能，适应特定任务的需求。