当前位置: 网站首页 >AI教程资讯 >正文

Finedefics – 北大团队推出的细粒度多模态大模型

来源:爱论文 时间:2025-03-18 11:25:25

Finedefics是什么

Finedefics 是北京大学彭宇新教授团队推出的细粒度多模态大模型,提升多模态大语言模型(MLLMs)在细粒度视觉识别(FGVR)任务中的表现。模型通过引入对象的细粒度属性描述,基于对比学习对齐视觉对象与类别名称的表示,解决了传统模型中视觉对象与细粒度子类别未对齐的问题。

Finedefics

Finedefics的主要功能

细粒度视觉识别能力提升:Finedefics 通过引入对象的细粒度属性描述,用对比学习对齐视觉对象与类别名称的表示,解决了传统模型中视觉对象与细粒度子类别未对齐的问题。数据与知识协同训练:模型通过提示大语言模型构建视觉对象的细粒度属性知识,将这些知识与图像和文本对齐,实现数据与知识的协同训练。高性能表现:在多个权威细粒度图像分类数据集(如 Stanford Dog-120、Bird-200、FGVC-Aircraft 等)上,Finedefics 的平均准确率达到 76.84%,相比其他同类模型有显著提升。属性描述构建与对齐:通过挖掘区分细粒度子类别的关键特征(如毛色、毛型等),将其转化为自然语言描述,Finedefics 使用这些描述作为中间点,将视觉对象与类别名称在大语言模型的表征空间中对齐。

Finedefics的技术原理

属性描述构建:Finedefics 首先通过属性描述构建,挖掘区分细粒度子类别的关键特征,例如毛色、毛型、毛皮质地等。这些特征被提取为图像对象的属性对(如“毛色:棕褐色”),转化为自然语言形式的对象属性描述(如“图中小猫的毛为棕褐色,带有斑纹,质地柔软”)。属性增强对齐:通过属性增强对齐,Finedefics 将构建的对象属性描述作为视觉对象与细粒度子类别的共同对齐目标。模型基于对象-属性、属性-类别、类别-类别对比学习,充分建立视觉对象与细粒度子类别的对应关系。对比学习与指令微调:在训练阶段,Finedefics 采用对比学习,将视觉对象、属性描述和类别名称的全局表示输入大语言模型,通过引入困难负样本来优化对齐效果。通过指令微调,进一步提升其在细粒度视觉识别任务中的表现。

Finedefics的项目地址

Github仓库:https://github.com/PKU-ICST-MIPL/FinedeficsHuggingFace模型库:https://huggingface.co/StevenHH2000/FinedeficsarXiv技术论文:https://arxiv.org/pdf/2501.15140

Finedefics的应用场景

生物多样性监测:Finedefics 可用于自动识别和分类生物物种,例如区分不同种类的鸟类、植物或动物。智能交通:在交通领域,Finedefics 可用于车辆识别和分类,例如区分不同品牌或型号的汽车(如宝马、奔驰、奥迪等),可以进一步识别同一品牌下的不同车型(如奥迪 A4、A6、A8)。智能零售:Finedefics 可以应用于零售场景中,帮助识别和分类商品,例如不同种类的水果、花卉或零售产品。可以用于库存管理、商品推荐以及自动结账系统,提升零售企业的运营效率。工业检测与质量控制:在工业生产中,Finedefics 可以用于检测和分类零部件或产品的细粒度差异,例如识别不同型号的机械部件或检测产品质量问题。
上一篇:Step-Audio – 阶跃星辰开源的语音交互模型
相关资讯 更多+
  • Finedefics – 北大团队推出的细粒度多模态大模型
    Finedefics – 北大团队推出的细粒度多模态大模型

    Finedefics 是北京大学彭宇新教授团队推出的细粒度多模态大模型,提升多模态大语言模型(MLLMs)在细粒度视觉识别(FGVR)任务中的表现。模型通过引入对象的细粒度属性描述,基于对比学习对齐视觉对象与类别名称的表示,解决了传统模型中视觉对象与细粒度子类别未对齐的问题。

    AI教程资讯 2023-04-14

  • Step-Audio – 阶跃星辰开源的语音交互模型
    Step-Audio – 阶跃星辰开源的语音交互模型

    Step-Audio是阶跃星辰团队推出的首个产品级的开源语音交互模型,能根据不同的场景需求生成情绪、方言、语种、歌声和个性化风格的表达,能和用户自然地进行高质量对话。Step-Audio基于130B参数的统一模型,将语音理解与生成相结合,支持语音识别、对话、语音合成等功能。

    AI教程资讯 2023-04-14

  • SkyReels-V1 – 昆仑万维开源首个面向AI短剧创作的视频生成模型
    SkyReels-V1 – 昆仑万维开源首个面向AI短剧创作的视频生成模型

    SkyReels-V1是昆仑万维开源的首个面向AI短剧创作的视频生成模型。基于在千万级高质量影视数据上进行微调,实现影视级的人物微表情和肢体动作生成,支持33种细腻表情与400多种自然动作组合,高度还原真实情感表达。

    AI教程资讯 2023-04-14

  • LangFlow – AI应用构建工具,拖拽组件创建复杂工作流
    LangFlow – AI应用构建工具,拖拽组件创建复杂工作流

    LangFlow 是低代码、可视化的 AI 应用构建工具,用于快速搭建和实验 LangChain 流水线。通过拖拽式界面,用户能轻松创建复杂的 AI 工作流,无需编写大量代码。LangFlow 支持多代理对话管理和 RAG(检索增强生成)应用,适用于构建智能聊天机器人、文档分析系统和内容生成工具等场景。

    AI教程资讯 2023-04-14

最新录入 更多+
确定