ScreenAI – 谷歌推出的可读屏AI视觉模型，可理解UI和信息图表-爱论文

ScreenAI是什么

ScreenAI是一个由谷歌的研究人员推出的可读屏AI视觉语言模型，专门设计用于理解和处理用户界面（UI）和信息图表。该模型基于PaLI架构结合了视觉和语言处理的能力，并借鉴了Pix2Struct的灵活拼贴策略，使其能够理解和生成与屏幕UI元素相关的文本，如问题回答、UI导航指令和内容摘要。

arXiv研究论文：https://arxiv.org/abs/2402.04615GitHub PyTorch实现：https://github.com/kyegomez/ScreenAI

ScreenAI的主要功能

屏幕信息理解：ScreenAI能够识别和理解UI元素和信息图表的内容，包括它们的类型、位置和相互之间的关系。问题回答（QA）：ScreenAI可以对获取到的视觉信息的进行理解并回答关于UI和信息图表内容的问题。UI导航：ScreenAI能够解释导航指令（如“返回”）并识别适当的UI元素进行交互，可理解用户意图并能够在界面中准确导航。内容摘要：ScreenAI能够简洁地总结屏幕内容，可提炼和概括屏幕信息的核心要点。适应不同屏幕格式：ScreenAI能够处理不同分辨率和宽高比的屏幕截图，可以适应移动设备和台式机等不同设备的屏幕格式。

ScreenAI的技术原理

多模态编码器：受PaLI架构启发，ScreenAI使用一个多模态编码器块，该块由两个主要部分组成：一个视觉编码器和一个语言编码器。视觉编码器基于Vision Transformer (ViT) 架构，用于将输入的屏幕截图转换为一系列图像嵌入。语言编码器则处理与屏幕截图相关的文本信息，如用户界面（UI）元素的标签和描述。图像和文本融合：在多模态编码器中，图像嵌入和文本嵌入被结合在一起，以便模型能够同时理解视觉内容和与之相关的语言信息。这种融合使得ScreenAI能够处理复杂的屏幕交互任务。自回归解码器：编码器的输出被传递给一个自回归解码器T5，负责生成文本输出，能够根据输入的图像和文本嵌入生成自然语言响应。自动数据生成：为了训练ScreenAI，研究人员利用了自动数据生成技术。他们使用PaLM 2-S语言模型来生成合成的训练数据，这些数据包括屏幕模式和相应的问题-答案对。这种方法提高了数据的多样性和复杂性，同时减少了对手动标注的依赖。图像分割策略：ScreenAI采用了Pix2Struct技术来处理不同分辨率和宽高比的屏幕截图。这种技术允许模型根据输入图像的形状和预定义的最大块数生成任意网格形状的图像块，从而使模型能够适应各种屏幕格式。模型配置和训练：ScreenAI有不同规模的模型版本，包括670M、2B和5B参数的模型。这些模型在预训练阶段使用了不同的起点，例如从PaLI-3的多模态预训练检查点开始。预训练任务和微调任务的结合使得模型能够在广泛的任务上进行训练和优化。