当前位置: 网站首页 >AI教程资讯 >正文

Chameleon – Meta推出的图文混合多模态开源模型

来源:爱论文 时间:2025-05-05 19:12:05

Chameleon是什么

Chameleon 是 Meta(Facebook 的母公司)的人工智能研究团队 FAIR(Facebook AI Research)发布的一个能理解和生成任意序列的图像和文本的混合多模态开源模型。拥有 34B 参数,能生成文本和图像内容。早期融合技术将不同模态信息映射到统一表示空间,实现跨模态无缝处理。在多项基准测试中,Chameleon 表现出色,性能接近 GPT-4V,引领多模态 AI 技术的新浪潮。

Chameleon的核心能力

多模态处理:Chameleon 能够在单一神经网络中无缝处理文本和图像,生成多模态内容。参数规模:模型拥有高达 34B(340 亿)参数,经过大规模训练,具备强大的学习和生成能力。训练数据:使用了包括纯文本、文本-图像对以及文本和图像交错出现的多模态文档在内的大量数据进行训练。技术创新:早期融合:通过将不同模态的信息在输入阶段就映射到同一个表示空间中,实现跨模态的无缝处理。图像分词器:开发了一种新的图像分词器,将图像编码为离散的 token,以便模型处理。性能表现:在多种基准测试中表现出色,特别是在常识推理、阅读理解、数学问题和世界知识领域。在视觉问答和图像标注任务中刷新了 SOTA(State of the Art),性能接近 GPT-4V。开源资源:Chameleon 的 GitHub 仓库提供了模型的独立推理代码、输入输出查看工具以及用于人类评估的混合模态和纯文本提示。

Chameleon的项目地址

GitHub仓库:https://github.com/facebookresearch/chameleonHugging Face模型库:https://huggingface.co/papers/2405.09818arXiv技术论文:https://arxiv.org/abs/2405.09818

Chameleon的应用场景

图像和文本生成:Chameleon 能生成与文本描述相匹配的图像,适用于创意写作、教育材料制作、游戏设计等领域。视觉问答(Visual Question Answering):在给定图像和相关问题的情况下,Chameleon 可以提供准确的答案,适用于图像内容理解、辅助视觉障碍人士等。图像标注:Chameleon 可以为图像生成描述性标签,适用于图像数据库管理、图像检索系统等。多模态文档生成:能生成包含文本和图像的复杂文档,适用于自动化报告生成、教育材料、营销内容创作等。
上一篇:Mem0 – 一款开源的大语言模型记忆增强工具
相关资讯 更多+
  • Chameleon – Meta推出的图文混合多模态开源模型
    Chameleon – Meta推出的图文混合多模态开源模型

    Chameleon 是 Meta(Facebook 的母公司)的人工智能研究团队 FAIR(Facebook AI Research)发布的一个能理解和生成任意序列的图像和文本的混合多模态模型。拥有 34B 参数,能生成文本和图像内容。

    AI教程资讯 2023-04-14

  • Mem0 – 一款开源的大语言模型记忆增强工具
    Mem0 – 一款开源的大语言模型记忆增强工具

    Mem0 是一款开源的大语言模型记忆增强工具,能够让 AI 拥有长期、适应性强的记忆。通过自适应记忆系统,AI能实现跨应用记住用户的偏好和交互,提供连贯且不断进化的响应。

    AI教程资讯 2023-04-14

  • STORM AI – 斯坦福大学推出的开源AI写作工具
    STORM AI – 斯坦福大学推出的开源AI写作工具

    STORM AI 是斯坦福大学推出的开源AI写作工具,可在几秒钟内将一个主题转换为长篇文章 研究论文,完全免费,是 Perplexity Pages 的一种 替代品 。STORM AI 利用大语言模型(LLM)进行多角度提问和模拟专家对话,以生成深入且准确的内容。

    AI教程资讯 2023-04-14

  • DCLM-7B – 苹果公司与合作团队推出的开源小模型
    DCLM-7B – 苹果公司与合作团队推出的开源小模型

    DCLM-7B是由苹果公司联合研究团队推出的70亿参数开源小模型,性能超越Mistral-7B,接近Llama 3和Gemma。最近,苹果公司作为 DataComp-LM(DCLM)项目的研究机构之一,在 Hugging Face 上发布了 DCLM-7B 开源模型。

    AI教程资讯 2023-04-14

最新录入 更多+
确定