当前位置: 网站首页 >AI教程资讯 >正文

mPLUG-DocOwl2 – 阿里推出多页文档理解的多模态大模型,单页仅需324个token

来源:爱论文 时间:2025-02-28 17:09:44

mPLUG-DocOwl2是什么

mPLUG-DocOwl 2是由阿里巴巴通义实验室mPLUG团队推出的用于多页文档理解的多模态大型语言模型。在不依赖光学字符识别(OCR)技术的情况下,通过高分辨率文档图像压缩技术,实现对文档图片的高效理解和处理。mPLUG-DocOwl 2在多页文档理解基准测试中达到了新的最高标准(SOTA),每页文档图像消耗324个token,降低显存占用和首包时间,提高处理速度。模型的训练分为三个阶段:单页预训练、多页预训练和多任务指令微调。mPLUG-DocOwl 2支持理解单页文档,还能处理多页文档中的复杂问题,如跨页内容关联和结构解析。

mPLUG-DocOwl2

mPLUG-DocOwl2的主要功能

多页文档理解:在不依赖OCR技术的情况下,直接从多页文档图像中提取和理解信息。高分辨率图像处理:通过高分辨率文档图像压缩模块,将每页文档图像压缩成324个视觉token,减少显存占用和首包时间。多页问答能力:回答有关多页文档内容的问题,提供详细的解释以及相关页码。文档结构解析:解析并表示多页文档的层级结构,以JSON格式输出,便于进一步的数据处理和分析。跨页内容关联:理解和关联多页文档中跨页的内容,提供跨页结构理解。高效处理:在单个A100-80G GPU上,同时处理多达60页的高清文档图片,提高处理效率。

mPLUG-DocOwl2的技术原理

高分辨率文档图像压缩(High-resolution DocCompressor):基于低分辨率全局视觉特征作为指导,通过cross-attention机制将高分辨率文档图像压缩成较少的视觉token。Shape-adaptive Cropping:自适应裁剪模块根据文档的形状和大小进行切割,来适应不同页面的布局。视觉特征提取:使用视觉编码器(如ViT)提取每个切片的视觉特征,并通过H-Reducer模块进行特征合并和维度对齐。跨注意力机制:在压缩过程中,使用全局图特征作为查询,切片特征作为键值对,通过cross-attention层实现特征压缩。全局与局部视觉特征结合:结合全局视觉特征(捕捉布局信息)和局部视觉特征(保留文本和图像细节),实现更准确的文档理解。

mPLUG-DocOwl2的项目地址

GitHub仓库:https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl2arXiv技术论文:https://arxiv.org/pdf/2409.03420v2

mPLUG-DocOwl2的应用场景

法律文件分析:自动化解析法律文件和案例,提取关键信息,支持法律研究和案件准备。医疗记录管理:从医疗记录和报告中提取重要数据,支持病人护理、研究和行政管理。学术研究:帮助研究人员快速理解和总结大量文献,加速科学发现和知识创新。金融报告分析:自动化处理年度报告、财务报表和其他金融文档,提取关键财务指标和趋势。**文档处理:自动化处理**发布的公告、法规和政策文件,提高**服务效率。
上一篇:SleepFM – 斯坦福大学开源的多模态睡眠分析模型
相关资讯 更多+
  • mPLUG-DocOwl2 – 阿里推出多页文档理解的多模态大模型,单页仅需324个token
    mPLUG-DocOwl2 – 阿里推出多页文档理解的多模态大模型,单页仅需324个token

    mPLUG-DocOwl 2是由阿里巴巴通义实验室mPLUG团队推出的用于多页文档理解的多模态大型语言模型。在不依赖光学字符识别(OCR)技术的情况下,通过高分辨率文档图像压缩技术,实现对文档图片的高效理解和处理。

    AI教程资讯 2023-04-14

  • SleepFM – 斯坦福大学开源的多模态睡眠分析模型
    SleepFM – 斯坦福大学开源的多模态睡眠分析模型

    SleepFM 是斯坦福大学开源的多模态睡眠分析模型,基于超过14,000名参与者的100,000小时睡眠数据,通过融合大脑活动、心电图和呼吸信号,提供全面的睡眠健康评估。旨在提高睡眠分析的效率和准确性。

    AI教程资讯 2023-04-14

  • QA-MDT – 中科大联合科大讯飞推出开源音乐生成模型
    QA-MDT – 中科大联合科大讯飞推出开源音乐生成模型

    QA-MDT(Quality-aware Masked Diffusion Transformer)是由中国科学技术大学和科大讯飞联合推出的开源音乐生成模型。模型基于文本描述生成高质量且音乐性强的音乐,创新的质量感知训练策略,在训练过程中识别并提升音乐波形的质量。

    AI教程资讯 2023-04-14

  • 书生·筑梦2.0(Vchitect 2.0) – 上海人工智能实验室推出的AI视频生成模型
    书生·筑梦2.0(Vchitect 2.0) – 上海人工智能实验室推出的AI视频生成模型

    书生·筑梦2 0(Vchitect 2 0)是由上海人工智能实验室推出的升级版视频生成开源大模型,旨在生成符合中国文化和东方审美的视频内容。模型支持长达20秒的视频生成,兼容多种分辨率,包括4:3和16:9。提供2K分辨率、24fps的一体化视频增强模型,通过集成的视频生成、插帧超分、画面修复等功能,提升视频的质量和美学水平。

    AI教程资讯 2023-04-14

最新录入 更多+
确定