当前位置: 网站首页 >AI教程资讯 >正文

Mini-Monkey – 华科联合华南理工推出的多模态AI模型

来源:爱论文 时间:2025-05-04 14:35:02

Mini-Monkey是什么

Mini-Monkey是华中科技大学和华南理工大学联合推出的轻量级多模态AI模型。采用多尺度自适应切分策略(MSAC)和尺度压缩机制(SCM),有效解决了传统图像切分带来的锯齿效应,提升了在高分辨率图像和文档理解任务中的表现。Mini-Monkey在多项基准测试中取得优异成绩,在多模态理解和文档智能领域的拥有强大潜力。

Mini-Monkey的功能特色

多尺度自适应切分策略(MSAC):通过在不同尺度上生成表示,允许模型选择未被分割的对象,从而提高对小物体或不规则形状物体的识别能力。尺度压缩机制(SCM):一种无需训练且无参数的机制,用于减少计算开销,通过关注细节层的视觉标记来提取关键视觉特征。高分辨率图像处理:优化了对高分辨率图像的处理能力,减少了因图像切分导致的语义不连贯问题。文档理解任务:在文档理解方面表现出色,在处理文档中的小文字和不规则形状时,有效避免了传统切分策略带来的问题。

Mini-Monkey的技术原理

多尺度自适应切分策略(MSAC):策略通过将图像分割成不同尺度的网格,并根据网格的纵横比进行分层,提供不同尺度的特征。细节层提供高分辨率的图像细节,自适应层则根据细节层生成的纵横比来避免在同一物体上重复切割,确保了不同层之间的语义一致性。尺度压缩机制(SCM):SCM用于减少MSAC带来的计算开销,通过生成注意力图来识别和提取关键的视觉特征。用训练好的大型语言模型(LLM)的前几层来选择视觉Tokens,无需额外的训练或参数。注意力权重分配:在SCM中,通过分配高注意力权重和低注意力权重来区分不同重要性的视觉Tokens。注意力权重较低的Tokens将被过滤,重要的Tokens则被保留用于进一步处理。共享LLM层:SCM中使用LLM的块层来共享处理不同视觉Tokens的计算,有助于提高模型的效率和性能。

Mini-Monkey的项目地址

arXiv技术论文:https://arxiv.org/pdf/2408.02034v2
上一篇:MDT-A2G – 复旦&腾讯优图推出的AI模型,可根据语音同步生成手势
相关资讯 更多+
  • Mini-Monkey – 华科联合华南理工推出的多模态AI模型
    Mini-Monkey – 华科联合华南理工推出的多模态AI模型

    Mini-Monkey是华中科技大学和华南理工大学联合推出的轻量级多模态AI模型。采用多尺度自适应切分策略(MSAC)和尺度压缩机制(SCM),有效解决了传统图像切分带来的锯齿效应,提升了在高分辨率图像和文档理解任务中的表现。

    AI教程资讯 2023-04-14

  • MDT-A2G – 复旦&腾讯优图推出的AI模型,可根据语音同步生成手势
    MDT-A2G – 复旦&腾讯优图推出的AI模型,可根据语音同步生成手势

    MDT-A2G是复旦大学和腾讯优图联合推出的AI模型,专门用于根据语音内容同步生成相应的手势动作。MDT-A2G模仿人类在交流时自然产生的手势,计算机能更加生动和自然地进行"表演"。

    AI教程资讯 2023-04-14

  • ASAM – vivo公司推出的AI图像分割模型
    ASAM – vivo公司推出的AI图像分割模型

    ASAM(Adversarial Adjustment of Segment Anything Model)是vivo公司推出的AI图像分割模型,通过对抗性调整来增强原有SAM模型的性能。ASAM用自然对抗性示例,通过稳定的扩散模型增强数据集,生成能代表自然变化的对抗性实例。

    AI教程资讯 2023-04-14

  • Falcon Mamba 7B – 首个通用Mamba开源AI大模型
    Falcon Mamba 7B – 首个通用Mamba开源AI大模型

    Falcon Mamba 7B是阿联酋技术创新研究所(TII)推出的开源AI大模型,性能超越了Meta的Llama 3 1-8B等模型。Falcon Mamba 7B采用编码器-解码器结构和多头注意力技术,优化了长序列处理能力。

    AI教程资讯 2023-04-14

最新录入 更多+
确定