当前位置: 网站首页 >AI教程资讯 >正文

GigaTok – 港大联合字节推出用于自回归图像生成的视觉分词器

来源:爱论文 时间:2025-04-27 11:34:09

GigaTok是什么

GigaTok 是用于自回归图像生成的视觉分词器,参数量达 30 亿。通过语义正则化技术,将分词器特征与预训练视觉编码器(如 DINOv2)的语义特征对齐,有效约束潜在空间复杂度,解决了视觉分词器在扩展时重建质量与生成质量之间的矛盾。GigaTok 采用了一维分词器架构以提高可扩展性,优先扩展解码器以高效分配计算资源,引入熵损失来稳定大规模模型的训练。

GigaTok的主要功能

高质量图像重建:GigaTok 成功地将视觉分词器扩展到 30 亿参数规模,显著提升了图像重建质量。通过语义正则化技术,将分词器特征与预训练视觉编码器(如 DINOv2)的语义特征对齐,在扩展过程中防止潜在空间复杂度过高。提升下游生成性能:GigaTok 在下游自回归生成任务中表现出色,解决了传统方法中重建质量与生成质量之间的矛盾。通过语义正则化和优化扩展策略,GigaTok 在生成任务中实现了更高的质量和更好的泛化能力。优化表示学习:GigaTok 通过扩展视觉分词器规模并结合语义正则化,显著提升了下游自回归模型的表示学习质量。实验表明,使用 GigaTok 训练的模型在线性探测准确率方面取得了显著提升。创新的扩展策略:GigaTok 提出了一维分词器架构,相比传统的二维分词器具有更好的可扩展性。优先扩展解码器,引入熵损失来稳定大规模模型的训练。

GigaTok的技术原理

混合架构设计:GigaTok 采用结合 CNN 和 Transformer 的混合架构,实现高效的特征提取和潜在空间编码。编码器部分通过 CNN 块逐步下采样图像,然后通过 Transformer 层和向量量化器生成离散的潜在编码。解码器则通过 Transformer 层和 CNN 解码器将潜在编码重建为图像。支持一维(1D)和二维(2D)分词器,其中 1D 分词器在扩展性上表现更优。语义正则化:为解决分词器扩展时潜在空间复杂度过高的问题,GigaTok 引入了语义正则化技术。通过将分词器的特征与预训练视觉编码器(如 DINOv2)的语义一致特征对齐,约束潜在空间的复杂度。具体而言,通过对比学习框架,强制分词器的中间特征与预训练模型的语义空间对齐,在扩展模型规模时保持生成质量。非对称扩展策略:GigaTok 在扩展编码器和解码器时,优先扩展解码器。能更高效地分配计算资源,同时避免因编码器过度复杂而导致的潜在空间失控。熵损失:GigaTok 引入熵损失来稳定大规模分词器的训练。熵损失通过鼓励更高的码本使用率,确保模型在训练过程中保持稳定,避免因复杂度增加而导致的训练崩溃。

GigaTok的项目地址

项目官网:https://silentview.github.io/GigaTok/Github仓库:https://github.com/SilentView/GigaTokarXiv技术论文:https://arxiv.org/pdf/2504.08736

GigaTok的应用场景

图像生成与合成:GigaTok 在自回归图像生成方面表现出色,能生成高质量的图像。可以用于艺术创作、游戏开发、虚拟现实等领域,帮助用户快速生成符合需求的图像内容。图像编辑与增强:GigaTok 可以用于图像编辑任务,例如将前景物体无缝融入背景图像中。数据增强与预训练:GigaTok 通过高效的图像分词和重建能力,可以为机器学习模型提供高质量的预训练数据。多模态学习:GigaTok 的语义正则化技术使其能与文本生成模型结合,实现文本到图像的生成。多模态能力可以应用于智能创作、虚拟助手等领域。医学图像处理:GigaTok 的高保真图像重建能力可以应用于医学图像生成和处理,例如生成高质量的医学影像用于诊断或研究。
上一篇:SkyReels-V2 – 昆仑万维开源的无限时长电影生成模型
相关资讯 更多+
  • GigaTok – 港大联合字节推出用于自回归图像生成的视觉分词器
    GigaTok – 港大联合字节推出用于自回归图像生成的视觉分词器

    GigaTok 是用于自回归图像生成的视觉分词器,参数量达 30 亿。通过语义正则化技术,将分词器特征与预训练视觉编码器(如 DINOv2)的语义特征对齐,有效约束潜在空间复杂度,解决了视觉分词器在扩展时重建质量与生成质量之间的矛盾。

    AI教程资讯 2023-04-14

  • SkyReels-V2 – 昆仑万维开源的无限时长电影生成模型
    SkyReels-V2 – 昆仑万维开源的无限时长电影生成模型

    SkyReels-V2是昆仑万维SkyReels团队推出的无限时长电影生成模型,基于扩散强迫(Diffusion-forcing)框架,结合多模态大语言模型(MLLM)、多阶段预训练、强化学习等技术,生成高质量、无限时长的视频内容。

    AI教程资讯 2023-04-14

  • OpenUtau – 开源的AI歌声合成工具,自动适配系统语言
    OpenUtau – 开源的AI歌声合成工具,自动适配系统语言

    OpenUtau 是开源的歌声合成工具,兼容 UTAU 音源库和重采样器,支持 VSQX 导入、多语言界面及预渲染功能,帮助创作者快速预览作品节省时间。OpenUtau现代化的界面和丰富的编辑功能,如音素器、颤音编辑器等,让音乐创作更加直观高效。

    AI教程资讯 2023-04-14

  • Gemma 3 QAT – 谷歌推出的最新开源模型,Gemma 3 量化版
    Gemma 3 QAT – 谷歌推出的最新开源模型,Gemma 3 量化版

    Gemma 3 QAT(Quantization-Aware Training)是谷歌推出的最新一代开源模型,是Gemma 3 的量化优化版本。通过量化感知训练技术,Gemma 3 QAT 在显著降低内存需求的同时,保持了高质量的性能。

    AI教程资讯 2023-04-14

最新录入 更多+
确定