UniTok – 字节联合港大、华中科技推出的统一视觉分词器-爱论文

UniTok是什么

UniTok 是字节跳动联合香港大学和华中科技大学推出的统一视觉分词器，能同时支持视觉生成和理解任务。基于多码本量化技术，将视觉特征分割成多个小块，每块用独立的子码本进行量化，极大地扩展离散分词的表示能力，解决传统分词器在细节捕捉和语义理解之间的矛盾。UniTok 在 ImageNet 上的零样本分类准确率达到 78.6%，重建质量（rFID）仅为 0.38，显著优于现有分词器。基于 UniTok 构建的多模态大语言模型（MLLM）在视觉问答和图像生成任务中均表现出色，展现了在多模态任务中的强大潜力。

UniTok的主要功能

统一视觉表示：将图像编码为离散的视觉 token，token能用在图像生成任务（如文生图），也能用在视觉理解任务（如视觉问答）。高质量图像重建：在保持图像细节的同时进行高效的图像重建。语义对齐：结合对比学习和重建损失，确保生成的视觉 token 与文本描述对齐，提升视觉理解能力。支持多模态大语言模型（MLLM）：作为多模态大语言模型的视觉输入模块，支持模型在多模态任务中的统一处理和生成。

UniTok的技术原理

多码本量化：UniTok 将视觉 token 分割成多个小块，每个小块用独立的子码本进行量化。例如，将 64 维的视觉特征向量分割成 8 个 8 维的小块，每个小块基于 4096 个码字的子码本进行量化。用这种方式，UniTok 的理论词汇量可以指数级增长，极大地扩展离散 token 的表示能力。注意力分解：用多头注意力模块替代传统的线性投影层进行 token 分解，更好地保留原始 token 中的语义信息，提升分解后特征的表达能力。UniTok 用因果注意力（causal attention）确保与自回归生成任务的兼容性。统一的训练目标：基于 VQVAE 的重建损失确保图像的细节被准确重建。损失包括像素级重建误差、感知损失、判别器损失和向量量化损失。UniTok 引入类似 CLIP 的对比损失，确保生成的视觉 token 与文本描述对齐，提升视觉理解能力。最终的总损失是重建损失和对比损失的加权和，基于这种方式，UniTok 能同时优化生成和理解任务。多模态大语言模型（MLLM）的集成：将生成的视觉 token 基于一个 MLP 投影层映射到多模态大语言模型的 token 空间，实现视觉和语言的统一处理。为简化 MLLM 的输入，UniTok 将多个子码本生成的 token 合并为一个视觉 token 输入到 MLLM 中。在需要预测视觉 token 时，MLLM 自回归地预测下一个位置对应的多个子码本 token，实现高效的视觉生成。

UniTok的项目地址

项目官网：https://foundationvision.github.io/UniTok/GitHub仓库：https://github.com/FoundationVision/UniTokHuggingFace模型库：https://huggingface.co/FoundationVision/unitok_tokenizerarXiv技术论文：https://arxiv.org/pdf/2502.20321

UniTok的应用场景

多模态模型的视觉输入：作为多模态大语言模型的视觉模块，帮助模型同时处理图文信息，提升综合性能。高质量图像生成：根据文本描述生成细节丰富的图像，适用于创意设计、广告制作等领域。视觉问答与理解：辅助模型理解图像内容，回答视觉相关问题，用在教育、医疗影像分析等。多模态内容创作：快速生成图文内容，用在新闻报道、社交媒体等，提高创作效率。跨模态检索与推荐：根据文本或图像进行检索和推荐，提升电商平台、多媒体平台的用户体验。