当前位置: 网站首页 >AI教程资讯 >正文

Gemma 3 QAT – 谷歌推出的最新开源模型,Gemma 3 量化版

来源:爱论文 时间:2025-04-27 10:19:34

Gemma 3 QAT是什么

Gemma 3 QAT(Quantization-Aware Training)是谷歌推出的最新一代开源模型,是Gemma 3 的量化优化版本。通过量化感知训练技术,Gemma 3 QAT 在显著降低内存需求的同时,保持了高质量的性能。 Gemma 3 27B 的显存需求从 54GB 降低到 14.1GB,能够在消费级 GPU(如 NVIDIA RTX 3090)上本地运行。Gemma 3 12B 的显存需求从 24GB 降至 6.6GB,可以在笔记本电脑的 NVIDIA RTX 4060 GPU 上高效运行。使更多用户能在普通硬件上体验强大的 AI 功能。

Gemma 3 QAT的主要功能

显著降低显存需求:通过量化感知训练技术,Gemma 3 QAT 大幅减少了模型的显存占用。Gemma 3 27B:显存需求从 54GB(BF16)降至 14.1GB(int4),使其能够在 NVIDIA RTX 3090(24GB VRAM)等消费级 GPU 上运行。Gemma 3 12B:显存需求从 24GB(BF16)降至 6.6GB(int4),可在笔记本电脑的 NVIDIA RTX 4060(8GB VRAM)上高效运行。更小版本(4B、1B):甚至可以在手机等资源受限的设备上运行。保持高性能:Gemma 3 QAT 仍能保持与 BF16 原生模型相近的性能:在 Chatbot Arena Elo 分数上,Gemma 3 QAT 的量化版本仍具有竞争力,与顶尖语言模型相比毫不逊色。使用 QAT 技术,谷歌在约 5000 步的训练中,将困惑度下降幅度减少了 54%,确保模型在量化后仍能保持高准确性。多模态能力:支持处理图像输入和文本生成,适用于视觉问答(VQA)和文档分析等任务。长上下文支持:具备 128,000-token 的上下文窗口,通过混合注意力机制(本地滑动窗口注意力与全局注意力)优化,降低了 KV 缓存的内存占用。硬件支持:Gemma 3 QAT 可在多种消费级硬件上运行,包括桌面 GPU、笔记本 GPU 和边缘设备。框架支持:支持 Ollama、LM Studio、llama.cpp、MLX 等主流推理框架,用户可以轻松在不同平台上部署。

Gemma 3 QAT的技术原理

伪量化操作:在训练的前向传播中,模型会通过“伪量化”节点模拟低精度运算,将权重和激活值四舍五入到量化后的值。高精度反向传播:在反向传播时,模型仍然使用高精度浮点数计算梯度,确保权重更新的准确性。训练与量化结合:通过这种方式,模型在训练阶段就学会了如何在低精度环境下保持性能,在实际量化后,精度损失极小。KV 缓存优化:通过稀疏缓存和动态压缩技术,进一步降低长上下文任务中的内存占用。硬件加速:支持 SIMD 指令集优化,如 AVX512 和 NEON,使得推理速度提升 3 倍。

Gemma 3 QAT的项目地址

项目官网:Gemma 3 QATHuggingFace模型库:https://huggingface.co/collections/google/gemma-3-qat

Gemma 3 QAT的应用场景

视觉问答(VQA):Gemma 3 QAT 在多模态任务中表现出色,量化版本在 DocVQA 等任务上的性能接近 FP16。文档分析:支持长上下文窗口(128K tokens),适用于文档分析等需要处理大量文本的任务。长文本生成:通过 KV 缓存优化和分组查询注意力(GQA),Gemma 3 QAT 在 128K 上下文窗口下内存占用降低 40%,推理速度提升 1.8 倍。长序列推理:适用于需要处理长序列的任务,如长文档分析和复杂的语言模型推理。边缘设备部署:Gemma 3 QAT 的 1B 版本(529MB)可以在 Android 或 Web 端离线运行,延迟低至 10ms,适合隐私敏感场景(如医疗、金融)。
上一篇:ImagePulse – 魔搭社区开源的图像理解和生成模型数据集
相关资讯 更多+
  • Gemma 3 QAT – 谷歌推出的最新开源模型,Gemma 3 量化版
    Gemma 3 QAT – 谷歌推出的最新开源模型,Gemma 3 量化版

    Gemma 3 QAT(Quantization-Aware Training)是谷歌推出的最新一代开源模型,是Gemma 3 的量化优化版本。通过量化感知训练技术,Gemma 3 QAT 在显著降低内存需求的同时,保持了高质量的性能。

    AI教程资讯 2023-04-14

  • ImagePulse – 魔搭社区开源的图像理解和生成模型数据集
    ImagePulse – 魔搭社区开源的图像理解和生成模型数据集

    ImagePulse (图律脉动)是魔搭社区推出的开源项目,为下一代图像理解和生成模型提供数据集支持,通过原子化模型的能力并构建原子能力数据集。项目包含多个原子能力数据集,例如“修改、添加、移除”“放大、缩小”“风格迁移”和“人脸保持”等。

    AI教程资讯 2023-04-14

  • SimpleAR – 复旦大学联合字节 Seed 团队推出的图像生成模型
    SimpleAR – 复旦大学联合字节 Seed 团队推出的图像生成模型

    SimpleAR 是复旦大学视觉与学习实验室和字节 Seed 团队联合推出的纯自回归图像生成模型。采用简洁的自回归架构,通过优化训练和推理过程,实现了高质量的图像生成。SimpleAR 仅用 5 亿参数即可生成 1024×1024 分辨率的图像,在 GenEval 等基准测试中取得了优异成绩。

    AI教程资讯 2023-04-14

  • Aether – 上海 AI Lab 开源的生成式世界模型
    Aether – 上海 AI Lab 开源的生成式世界模型

    Aether 是上海AI Lab开源的生成式世界模型,完全基于合成数据训练。Aether 首次将三维时空建模与生成式建模深度融合,具备 4D 动态重建、动作条件视频预测和目标导向视觉规划三大核心能力。

    AI教程资讯 2023-04-14

最新录入 更多+
确定