当前位置: 网站首页 >AI教程资讯 >正文

AnyText – 阿里开源的视觉图像文字生成和编辑模型

来源:爱论文 时间:2025-05-11 11:08:45

AnyText是什么

AnyText是阿里巴巴智能计算研究院的团队推出的一个基于扩散的多语言视觉文本生成和编辑模型,专注于在图像中渲染准确和连贯的文本。AnyText包括两个主要元素的扩散管线:辅助潜在模块和文本嵌入模块。前者使用文本字形、位置和蒙版图像等输入来生成文本生成或编辑的潜在特征。后者采用OCR模型对笔划数据进行编码,这些编码与来自分词器的图像标题嵌入结合,生成与背景无缝融合的文本。该技术解决了在生成图像中的文本区域时合成文本模糊、不可读或错误的挑战,提高了图像中文本书写的准确性。

GitHub项目:https://github.com/tyxsspa/AnyText

论文地址:https://arxiv.org/abs/2311.03054

ModelScope:https://modelscope.cn/studios/damo/studio_anytext

Hugging Face:https://huggingface.co/spaces/modelscope/AnyText

AnyText的功能特色

多语言支持:AnyText能够生成多种语言的文本,包括中文、英文、日文、韩文等。多行文本生成:用户可以指定在图像的多个位置生成文本。变形区域书写:AnyText能够生成水平、垂直甚至曲线或不规则区域内的文本。文本编辑能力:AnyText提供了修改图像中指定位置文本内容的功能,同时保持与周围文本风格的一致性。即插即用:AnyText可以无缝集成到现有的扩散模型中,提供生成文本的能力。

AnyText的工作原理

AnyText通过以下模块的协同工作,AnyText能够在图像中准确地生成和编辑多语言文本,同时保持与背景的无缝融合,具体如下:

文本控制扩散管道:AnyText使用变分自编码器(VAE)对输入图像进行编码,生成一个潜在表示。然后,通过扩散算法逐步向这个潜在表示中添加噪声,生成一系列时间步骤的噪声潜在图像。在每个时间步骤,AnyText应用一个网络(TextControlNet)来预测应该添加到噪声潜在图像上的噪声,以控制文本的生成。辅助潜在模块:该模块接收文本字形(glyph)、位置(position)和蒙版图像(masked image)作为输入,生成一个辅助潜在特征图。字形信息通过渲染文本到图像上生成,位置信息标记文本在图像中的位置,掩膜图像指示在扩散过程中应保留的图像区域。文本嵌入模块:该模块使用预训练的OCR模型(如PP-OCRv3)来提取文本的笔画信息,并将其编码为嵌入。这些嵌入与来自分词器的图像标题嵌入结合,生成一个融合的中间表示,然后通过交叉注意力机制映射到UNet的中间层。文本感知损失:在训练过程中,AnyText使用文本感知损失来进一步提高文本生成的准确性。这种损失通过比较生成图像和原始图像中的文本区域来实现,只关注文本本身的正确性,排除背景、字符位置偏差、颜色或字体样式等因素。训练和优化:AnyText的训练目标是最小化文本控制扩散损失和文本感知损失的加权和。在训练过程中,模型通过调整权重比(λ)来平衡这两种损失。

如何使用AnyText生成文字

访问AnyText的ModelScope空间或Hugging Face demo输入Prompt提示词,然后选择指定文字位置最后点击Run运行,等待图片和文字生成即可
上一篇:InstantID – 高保真的个性化图像合成框架
相关资讯 更多+
  • AnyText – 阿里开源的视觉图像文字生成和编辑模型
    AnyText – 阿里开源的视觉图像文字生成和编辑模型

    AnyText是阿里巴巴智能计算研究院的团队推出的一个基于扩散的多语言视觉文本生成和编辑模型,专注于在图像中渲染准确和连贯的文本。AnyText包括两个主要元素的扩散管线:辅助潜在模块和文本嵌入模块。

    AI教程资讯 2023-04-14

  • InstantID – 高保真的个性化图像合成框架
    InstantID – 高保真的个性化图像合成框架

    InstantID是一种基于扩散模型的图像生成技术,它专注于实现零次(zero-shot)身份保留(Identity-Preserving)的个性化图像合成。这项技术允许用户仅使用一张面部图像,就能在多种风格中生成个性化的图像,同时确保高保真度,类似于PhotoMaker的生成效果。

    AI教程资讯 2023-04-14

  • VideoCrafter2 – 腾讯推出的高质量视频生成模型
    VideoCrafter2 – 腾讯推出的高质量视频生成模型

    VideoCrafter2是一个由腾讯AI实验室开发的视频生成模型,旨在克服高质量视频数据获取的局限性,训练出能够生成高质量视频的模型。该模型的核心思想是将视频的生成过程分解为两个主要部分:运动(motion)和外观(appearance)。

    AI教程资讯 2023-04-14

  • Screenshot to Code – AI将截图转换为网页代码的开源项目
    Screenshot to Code – AI将截图转换为网页代码的开源项目

    Sscreenshot to Code是一个开源的项目,利用人工智能技术(GPT-4V 和 DALL·E 3)将用户的屏幕截图转换为前端网页代码。项目的核心功能是自动化网页设计的编码过程,使得开发者能够通过提供网页的截图,快速生成相应的HTML、CSS和JavaScript代码,节省前端开发人员的时间和精力。

    AI教程资讯 2023-04-14

最新录入 更多+
确定