ViDoRAG – 通义联合中科大、上交大推出的视觉文档检索增强生成框架-爱论文

ViDoRAG是什么

ViDoRAG是阿里巴巴通义实验室联合中国科学技术大学和上海交通大学推出的视觉文档检索增强生成框架。基于多智能体协作和动态迭代推理，解决传统方法在处理复杂视觉文档时的检索和推理局限性。ViDoRAG用高斯混合模型（GMM）的多模态混合检索策略，动态调整检索结果数量，优化文本和视觉信息的整合。框架中包含Seeker、Inspector和Answer三种智能体，分别负责快速筛选、详细审查和最终答案生成，基于迭代交互逐步细化答案，提升生成质量和一致性。ViDoRAG在ViDoSeek基准数据集上显著优于现有方法，平均性能提升超过10%，展现了在视觉文档检索和推理任务中的高效性和优越性。

ViDoRAG的主要功能

多模态检索：整合视觉和文本信息，实现精准的文档检索。动态迭代推理：多智能体协作（Seeker、Inspector、Answer Agent），逐步细化答案，提升推理深度和准确性。复杂文档理解：支持单跳和多跳推理，处理复杂的视觉文档内容。生成一致性保障：基于Answer Agent确保最终答案的准确性和一致性。高效生成：动态调整检索结果数量，减少计算开销，提升生成效率。

ViDoRAG的技术原理

多模态混合检索：结合文本和视觉检索结果，基于高斯混合模型（GMM）动态调整检索结果数量。GMM拟合查询与文档集合的相似度分布，动态确定最优的检索结果数量（Top-K），避免固定数量检索带来的噪声和计算开销，有效整合视觉和文本信息，提升检索精度，减少无关信息的干扰。动态迭代推理框架：Seeker Agent：负责快速筛选相关图像或文档片段，提供全局线索。Inspector Agent：对筛选结果进行详细审查，提供反馈或初步答案。Answer Agent：整合Inspector的初步答案，验证一致性生成最终答案。粗到细的生成策略：从全局视角开始，逐步聚焦到局部细节，多智能体协作实现从粗到细的生成过程，减少无关信息的干扰，提升生成效率和准确性。推理能力激活：基于迭代推理和多智能体协作，激活模型的推理能力，特别是在处理复杂视觉文档时，提升模型在多跳推理和复杂文档理解任务中的表现。动态检索长度调整：基于GMM动态调整检索结果数量，避免固定Top-K值带来的局限性，减少计算开销，提升检索效率和生成质量。

ViDoRAG的项目地址

GitHub仓库：https://github.com/Alibaba-NLP/ViDoRAGarXiv技术论文：https://arxiv.org/pdf/2502.18017

ViDoRAG的应用场景

教育领域：帮助学生和教师快速检索教材中的图表、数据和文字内容，生成精准解答和知识点总结。金融行业：从财务报告和市场研究文档中提取关键数据和图表，生成分析报告，辅助投资决策。医疗健康：快速定位医学文献中的图表和数据，辅助医生进行研究或生成患者教育材料。法律行业：从法律文件中检索相关条款和案例图表，辅助律师分析案件或准备文件。企业知识管理：从内部文档中提取关键信息，快速回答员工查询，生成项目报告或风险分析。