GigaTok – 港大联合字节推出用于自回归图像生成的视觉分词器-爱论文

GigaTok是什么

GigaTok 是用于自回归图像生成的视觉分词器，参数量达 30 亿。通过语义正则化技术，将分词器特征与预训练视觉编码器（如 DINOv2）的语义特征对齐，有效约束潜在空间复杂度，解决了视觉分词器在扩展时重建质量与生成质量之间的矛盾。GigaTok 采用了一维分词器架构以提高可扩展性，优先扩展解码器以高效分配计算资源，引入熵损失来稳定大规模模型的训练。

GigaTok的主要功能

高质量图像重建：GigaTok 成功地将视觉分词器扩展到 30 亿参数规模，显著提升了图像重建质量。通过语义正则化技术，将分词器特征与预训练视觉编码器（如 DINOv2）的语义特征对齐，在扩展过程中防止潜在空间复杂度过高。提升下游生成性能：GigaTok 在下游自回归生成任务中表现出色，解决了传统方法中重建质量与生成质量之间的矛盾。通过语义正则化和优化扩展策略，GigaTok 在生成任务中实现了更高的质量和更好的泛化能力。优化表示学习：GigaTok 通过扩展视觉分词器规模并结合语义正则化，显著提升了下游自回归模型的表示学习质量。实验表明，使用 GigaTok 训练的模型在线性探测准确率方面取得了显著提升。创新的扩展策略：GigaTok 提出了一维分词器架构，相比传统的二维分词器具有更好的可扩展性。优先扩展解码器，引入熵损失来稳定大规模模型的训练。

GigaTok的技术原理

混合架构设计：GigaTok 采用结合 CNN 和 Transformer 的混合架构，实现高效的特征提取和潜在空间编码。编码器部分通过 CNN 块逐步下采样图像，然后通过 Transformer 层和向量量化器生成离散的潜在编码。解码器则通过 Transformer 层和 CNN 解码器将潜在编码重建为图像。支持一维（1D）和二维（2D）分词器，其中 1D 分词器在扩展性上表现更优。语义正则化：为解决分词器扩展时潜在空间复杂度过高的问题，GigaTok 引入了语义正则化技术。通过将分词器的特征与预训练视觉编码器（如 DINOv2）的语义一致特征对齐，约束潜在空间的复杂度。具体而言，通过对比学习框架，强制分词器的中间特征与预训练模型的语义空间对齐，在扩展模型规模时保持生成质量。非对称扩展策略：GigaTok 在扩展编码器和解码器时，优先扩展解码器。能更高效地分配计算资源，同时避免因编码器过度复杂而导致的潜在空间失控。熵损失：GigaTok 引入熵损失来稳定大规模分词器的训练。熵损失通过鼓励更高的码本使用率，确保模型在训练过程中保持稳定，避免因复杂度增加而导致的训练崩溃。

GigaTok的项目地址

项目官网：https://silentview.github.io/GigaTok/Github仓库：https://github.com/SilentView/GigaTokarXiv技术论文：https://arxiv.org/pdf/2504.08736

GigaTok的应用场景

图像生成与合成：GigaTok 在自回归图像生成方面表现出色，能生成高质量的图像。可以用于艺术创作、游戏开发、虚拟现实等领域，帮助用户快速生成符合需求的图像内容。图像编辑与增强：GigaTok 可以用于图像编辑任务，例如将前景物体无缝融入背景图像中。数据增强与预训练：GigaTok 通过高效的图像分词和重建能力，可以为机器学习模型提供高质量的预训练数据。多模态学习：GigaTok 的语义正则化技术使其能与文本生成模型结合，实现文本到图像的生成。多模态能力可以应用于智能创作、虚拟助手等领域。医学图像处理：GigaTok 的高保真图像重建能力可以应用于医学图像生成和处理，例如生成高质量的医学影像用于诊断或研究。