当前位置: 网站首页 >AI教程资讯 >正文

UniTok – 字节联合港大、华中科技推出的统一视觉分词器

来源:爱论文 时间:2025-05-13 14:15:29

UniTok是什么

UniTok 是字节跳动联合香港大学和华中科技大学推出的统一视觉分词器,能同时支持视觉生成和理解任务。基于多码本量化技术,将视觉特征分割成多个小块,每块用独立的子码本进行量化,极大地扩展离散分词的表示能力,解决传统分词器在细节捕捉和语义理解之间的矛盾。UniTok 在 ImageNet 上的零样本分类准确率达到 78.6%,重建质量(rFID)仅为 0.38,显著优于现有分词器。基于 UniTok 构建的多模态大语言模型(MLLM)在视觉问答和图像生成任务中均表现出色,展现了在多模态任务中的强大潜力。

UniTok的主要功能

统一视觉表示:将图像编码为离散的视觉 token,token能用在图像生成任务(如文生图),也能用在视觉理解任务(如视觉问答)。高质量图像重建:在保持图像细节的同时进行高效的图像重建。语义对齐:结合对比学习和重建损失,确保生成的视觉 token 与文本描述对齐,提升视觉理解能力。支持多模态大语言模型(MLLM):作为多模态大语言模型的视觉输入模块,支持模型在多模态任务中的统一处理和生成。

UniTok的技术原理

多码本量化:UniTok 将视觉 token 分割成多个小块,每个小块用独立的子码本进行量化。例如,将 64 维的视觉特征向量分割成 8 个 8 维的小块,每个小块基于 4096 个码字的子码本进行量化。用这种方式,UniTok 的理论词汇量可以指数级增长,极大地扩展离散 token 的表示能力。注意力分解:用多头注意力模块替代传统的线性投影层进行 token 分解,更好地保留原始 token 中的语义信息,提升分解后特征的表达能力。UniTok 用因果注意力(causal attention)确保与自回归生成任务的兼容性。统一的训练目标:基于 VQVAE 的重建损失确保图像的细节被准确重建。损失包括像素级重建误差、感知损失、判别器损失和向量量化损失。UniTok 引入类似 CLIP 的对比损失,确保生成的视觉 token 与文本描述对齐,提升视觉理解能力。最终的总损失是重建损失和对比损失的加权和,基于这种方式,UniTok 能同时优化生成和理解任务。多模态大语言模型(MLLM)的集成:将生成的视觉 token 基于一个 MLP 投影层映射到多模态大语言模型的 token 空间,实现视觉和语言的统一处理。为简化 MLLM 的输入,UniTok 将多个子码本生成的 token 合并为一个视觉 token 输入到 MLLM 中。在需要预测视觉 token 时,MLLM 自回归地预测下一个位置对应的多个子码本 token,实现高效的视觉生成。

UniTok的项目地址

项目官网:https://foundationvision.github.io/UniTok/GitHub仓库:https://github.com/FoundationVision/UniTokHuggingFace模型库:https://huggingface.co/FoundationVision/unitok_tokenizerarXiv技术论文:https://arxiv.org/pdf/2502.20321

UniTok的应用场景

多模态模型的视觉输入:作为多模态大语言模型的视觉模块,帮助模型同时处理图文信息,提升综合性能。高质量图像生成:根据文本描述生成细节丰富的图像,适用于创意设计、广告制作等领域。视觉问答与理解:辅助模型理解图像内容,回答视觉相关问题,用在教育、医疗影像分析等。多模态内容创作:快速生成图文内容,用在新闻报道、社交媒体等,提高创作效率。跨模态检索与推荐:根据文本或图像进行检索和推荐,提升电商平台、多媒体平台的用户体验。
上一篇:D-DiT – 耶鲁大学联合字节Seed等机构推出的多模态扩散模型
相关资讯 更多+
  • UniTok – 字节联合港大、华中科技推出的统一视觉分词器
    UniTok – 字节联合港大、华中科技推出的统一视觉分词器

    UniTok 是字节跳动联合香港大学和华中科技大学推出的统一视觉分词器,能同时支持视觉生成和理解任务。基于多码本量化技术,将视觉特征分割成多个小块,每块用独立的子码本进行量化,极大地扩展离散分词的表示能力,解决传统分词器在细节捕捉和语义理解之间的矛盾。

    AI教程资讯 2023-04-14

  • D-DiT – 耶鲁大学联合字节Seed等机构推出的多模态扩散模型
    D-DiT – 耶鲁大学联合字节Seed等机构推出的多模态扩散模型

    D-DiT(Dual Diffusion Transformer)是卡内基梅隆大学、耶鲁大学和字节跳动Seed实验室推出的多模态扩散模型,能统一图像生成和理解任务。模型结合连续图像扩散(流匹配)和离散文本扩散(掩码扩散),基于双向注意力机制同时训练图像和文本模态。

    AI教程资讯 2023-04-14

  • Granite 4.0 Tiny Preview – IBM推出的语言模型
    Granite 4.0 Tiny Preview – IBM推出的语言模型

    Granite 4 0 Tiny Preview 是 IBM 推出的 Granite 4 0 语言模型家族中最小的模型的预览版本。Granite 4 0 Tiny Preview用极高的计算效率和紧凑的模型结构为特点,在消费级 GPU 上能运行多个长上下文(128K)任务,性能接近 Granite 3 3 2B Instruct,内存需求减少约 72%。

    AI教程资讯 2023-04-14

  • Gemini 2.5 Pro (I/O 版) – 谷歌推出的升级版多模态AI模型
    Gemini 2.5 Pro (I/O 版) – 谷歌推出的升级版多模态AI模型

    Gemini 2 5 Pro (I O 版) 是 Google 推出的 Gemini 2 5 Pro 升级版多模态AI模型,具体版本号为 Gemini 2 5 Pro Preview 05-06。模型在编程能力上取得重大突破,擅长构建交互式 Web 应用、游戏和模拟程序。

    AI教程资讯 2023-04-14

最新录入 更多+
确定