PaliGemma 2 mix – 谷歌DeepMind推出的升级版视觉语言模型-爱论文

PaliGemma 2 mix是什么

PaliGemma 2 Mix是谷歌DeepMind发布的最新多任务视觉语言模型（VLM）。集成了多种视觉和语言处理能力，支持图像描述、目标检测、图像分割、OCR以及文档理解等任务，能在单一模型中灵活切换不同功能。模型提供三种不同参数规模（3B、10B、28B），满足不同场景的需求，同时支持224px和448px两种分辨率，兼顾性能与资源平衡。PaliGemma 2 Mix基于开源框架（如Hugging Face Transformers、Keras、PyTorch等）开发，易于使用和扩展，开发者可通过简单提示切换任务，无需额外加载模型。

PaliGemma 2 mix的主要功能

图像描述：生成准确且详细的图像描述，支持短文本和长文本描述。光学字符识别（OCR）：识别图像中的文字内容，适用于文档数字化、历史文献存档和自动数据提取。目标检测与图像分割：能检测并定位图像中的物体，进行精确的语义分割。视觉问答（VQA）：用户可以通过上传图片并提出问题，模型会分析图片并给出答案。文档理解：理解和分析文档图像内容，支持图表和图解分析。科学问题解答：能理解和回答复杂的科学问题。文本相关任务：包括文本检测、表格结构识别、分子结构识别等。

PaliGemma 2 mix的技术原理

模型架构：PaliGemma 2 Mix 由三个核心组件构成：SigLIP 图像编码器：使用 SigLIP-So400m 作为图像编码器，通过对比预训练的方式将图像转换为一系列 token。编码器支持多种输入分辨率（如 224px²、448px² 和 896px²），分别生成 256、1024 和 4096 个 token。Gemma-2B 语言模型：作为解码器，负责处理文本输入和生成输出。通过 SentencePiece 分词器将文本转换为 token，与图像 token 结合。线性投影层：将 SigLIP 输出的图像 token 投影到与 Gemma-2B 词汇 token 相同的维度，两者能有效融合。训练策略：PaliGemma 2 Mix 的训练分为三个阶段：阶段 1：基础多模态任务训练：将预训练的 SigLIP 和 Gemma-2B 结合，在包含 10 亿样本的多模态任务混合数据集上进行联合训练。目标是提升模型在多种任务中的迁移能力，训练分辨率为 224px²。阶段 2：逐步提高分辨率的训练：在 448px² 和 896px² 的分辨率下分别训练 5000 万和 1000 万样本。增加了高分辨率任务的权重，延长了输出序列长度，以支持复杂任务（如长文本 OCR）。阶段 3：微调到具体任务：对阶段 1 或阶段 2 的检查点进行微调，适应特定任务，如视觉问答（VQA）、文档理解、长篇描述生成等。多模态融合：PaliGemma 2 Mix 通过将图像 token 和文本 token 结合，输入到语言模型中进行自回归生成。图像 token 可以“前瞻”任务提示（前缀），更新表示，适应当前任务。

PaliGemma 2 mix的项目地址

项目官网：https://developers.googleblog.com/en/introducing-paligemma-2-mix/Github仓库：https://github.com/huggingface/blog/blob/main/paligemma2mix.mdHuggingFace模型库：https://huggingface.co/collections/google/paligemma-2-mix

PaliGemma 2 mix的应用场景

文档理解：可以理解图表、图解等文档内容，支持复杂的文档分析任务。科学问题解答：PaliGemma 2 Mix 能理解和回答复杂的科学问题，适用于教育和科研领域。电商与内容生成：模型可以为商品图片自动生成描述，提升电商平台的产品列表吸引力。文本相关任务：包括文本检测、表格结构识别、分子结构识别、乐谱识别等，广泛应用于文档处理和科学研究。