当前位置: 网站首页 >AI教程资讯 >正文

Migician – 北交大联合清华、华中科大推出的多模态视觉定位模型

来源:爱论文 时间:2025-03-15 10:57:35

Migician是什么

Migician是北京交通大学、华中科技大学和清华大学的研究团队联合推出的多模态大语言模型(MLLM),专门用在自由形式的多图像定位(Multi-Image Grounding, MIG)任务,设计了大规模训练数据集MGrounding-630k。根据自由形式的查询(如文本描述、图像或两者的组合)在多幅图像中识别精确定位相关的视觉区域。Migician基于大规模的指令调优数据集MGrounding-630k进行训练,用两阶段训练方法,结合多图像理解和单图像定位能力,实现端到端的多图像定位功能。Migician的设计和训练方法为多模态模型在复杂视觉场景中的应用提供新的思路,推动多图像理解与细粒度视觉定位的融合。

Migician

Migician的主要功能

跨图像定位:在多幅图像中找到与查询相关的对象或区域,给出其精确位置(如坐标框)。灵活的输入形式:支持文本、图像或两者的组合作为查询,例如“在图2中找到与图1相似的物体,但颜色不同”。多任务支持:处理多种与多图像相关的任务,如对象跟踪、差异识别、共同对象定位等。高效推理:基于端到端的模型设计,直接在多图像场景中进行推理,避免传统方法中的多步推理和错误传播问题。

Migician的技术原理

端到端的多图像定位框架:基于端到端的模型架构直接处理多图像定位任务,避免传统方法中将任务分解为多个子任务(如先生成文本描述再定位)的复杂性和效率问题。同时理解多幅图像的内容,根据查询直接输出目标对象的位置。大规模指令调优数据集(MGrounding-630k):包含超过63万条多图像定位任务的数据。数据集涵盖多种任务类型(如静态差异定位、共同对象定位、对象跟踪等),结合自由形式的指令,模型学习到多样化的定位能力。两阶段训练方法:第一阶段:模型在多种多图像任务上进行训练,学习基本的多图像理解和定位能力。第二阶段:基于自由形式的指令调优,提升模型在复杂查询下的定位能力,保持对多样化任务的适应性。多模态融合与推理:结合视觉和语言模态的信息,基于多模态融合实现对复杂查询的理解和定位,处理抽象的视觉语义信息,例如通过对比、相似性或功能关联定位目标对象。模型合并技术:基于模型合并技术,将不同训练阶段的权重进行平均,优化整体性能。

Migician的项目地址

项目官网:https://migician-vg.github.io/GitHub仓库:https://github.com/thunlp/MigicianHuggingFace模型库:https://huggingface.co/Michael4933/MigicianarXiv技术论文:https://arxiv.org/pdf/2501.05767

Migician的应用场景

自动驾驶:快速定位车辆周围目标(如行人、障碍物),支持多视角感知和动态目标跟踪。安防监控:多摄像头联动识别异常行为或目标,分析人群聚集、快速移动等异常情况。机器人交互:精准定位目标物体,支持机器人在复杂环境中完成抓取、导航等任务。图像编辑:分析多幅图像内容,实现对象替换、删除或创意内容生成。医疗影像:融合多模态影像,快速定位病变区域或异常组织,支持动态监测。
上一篇:ComfyUI-Copilot – 阿里推出基于 ComfyUI 的 AI 智能助手
相关资讯 更多+
  • Migician – 北交大联合清华、华中科大推出的多模态视觉定位模型
    Migician – 北交大联合清华、华中科大推出的多模态视觉定位模型

    Migician是北京交通大学、华中科技大学和清华大学的研究团队联合推出的多模态大语言模型(MLLM),专门用在自由形式的多图像定位(Multi-Image Grounding, MIG)任务,设计了大规模训练数据集MGrounding-630k。根据自由形式的查询(如文本描述、图像或两者的组合)在多幅图像中识别并精确定位相关的视觉区域。

    AI教程资讯 2023-04-14

  • ComfyUI-Copilot – 阿里推出基于 ComfyUI 的 AI 智能助手
    ComfyUI-Copilot – 阿里推出基于 ComfyUI 的 AI 智能助手

    ComfyUI-Copilot 是阿里巴巴国际数字商业集团(AIDC-AI)推出基于 ComfyUI 框架深度开发的 AI 智能助手。ComfyUI-Copilot给予自然语言交互,为用户提供节点推荐、工作流构建辅助、模型查询等功能,降低 ComfyUI 的使用门槛,提升开发效率。

    AI教程资讯 2023-04-14

  • Auto-Deep-Research – 香港大学开源的全自动个人 AI 助理
    Auto-Deep-Research – 香港大学开源的全自动个人 AI 助理

    Auto-Deep-Research 是香港大学黄超教授实验室开源的全自动个人 AI 助理,作为 OpenAI Deep Research 的开源替代方案。基于 AutoAgent 框架开发,专注于深度研究功能,采用模块化的多 Agent 架构,包括 Web Agent、Coding Agent 和 Local File Agent。

    AI教程资讯 2023-04-14

  • OOMOL – 基于 VSCode 的 AI 工作流集成开发环境
    OOMOL – 基于 VSCode 的 AI 工作流集成开发环境

    OOMOL (悟墨)是基于 VSCode 打造的现代化集成开发环境(IDE),专为工作流自动化而设计。通过拖拽式图形化界面,让用户能直观地搭建复杂的工作流,无需编程基础。核心优势在于预装的 Python 和 Node js 环境,结合容器化技术,实现开箱即用,同时支持跨平台共享和数据安全隔离。

    AI教程资讯 2023-04-14

最新录入 更多+
确定