当前位置: 网站首页 >AI教程资讯 >正文

BrushNet – 腾讯推出的高质量图像照片修复模型

来源:爱论文 时间:2025-05-08 11:39:47

BrushNet是什么

BrushNet是由腾讯PCG部门的ARC实验室与香港大学的研究人员推出的一个基于扩散模型的即插即用的图像照片修复(Inpainting)模型,通过分解的双分支架构来有效处理图像中的遮罩区域。该模型的一个分支专注于提取遮罩图像的像素级特征,而另一个分支则负责图像的生成。这种设计使得BrushNet能够将关键的遮罩信息以分层的方式精细地融入到修复过程中,从而在保持原有图像内容连贯性的同时,生成高质量的修复结果。

与以前的图像修复方法相比(如Blended Latent Diffusion、Stable Diffusion Inpainting、HD-Painter、PowerPaint等),BrushNet的图像还原修复能力无论是在风格、内容,还是颜色和提示对齐等方面都表现出了优越的连贯性。

BrushNet的官网入口

官方项目主页:https://tencentarc.github.io/BrushNet/GitHub代码库:https://github.com/TencentARC/BrushNetarXiv研究论文:https://arxiv.org/abs/2403.06976

BrushNet的功能特性

修复不同类型的图像:BrushNet可修复不同场景的图像,如人类、动物、室内和室外场景,还可以修复不同风格的图像,如自然图像、铅笔画、动漫、插图、水彩等。像素级修复:BrushNet能够识别和处理图像中的遮罩区域,对每个像素进行精确的修复,确保修复区域与原始图像在视觉上的无缝对接。保留未遮罩区域:通过分层控制和特定的模糊融合策略,BrushNet能够在修复过程中保留未被遮罩的区域,避免对原始图像内容的不必要改动。与预训练模型的兼容性:作为一个即插即用的模型,BrushNet可以与各种预训练的扩散模型(如DreamShaper、epiCRealism、MeinaMix等)结合,利用这些模型的强大生成能力来完成修复任务。灵活性和控制性:用户可以通过调整模型的参数来控制修复的规模和细节,包括修复区域的大小和修复内容的详细程度。

BrushNet的工作原理

BrushNet 基于扩散模型通过一个创新的双分支架构来执行图像修复任务。

以下是BrushNet工作原理的简要概述:

双分支架构:BrushNet的核心是一个分解的双分支架构,其中一个分支专注于处理遮罩图像的特征,而另一个分支负责生成图像的其余部分。遮罩图像特征提取:在遮罩分支中,模型使用变分自编码器(VAE)对遮罩图像进行编码,以提取其潜在特征。这些特征随后被用来指导图像的修复过程。预训练扩散模型:在生成分支中,模型利用预训练的扩散模型来生成图像内容。这个模型已经学会了如何从噪声中恢复出清晰的图像。特征融合:提取的遮罩图像特征被逐步融合到预训练的扩散模型中,这样可以通过层级的方式细致地控制修复过程。去噪和生成:在反向扩散过程中,模型通过迭代去噪步骤,逐步从噪声中恢复出清晰的图像。每一步都会考虑遮罩图像的特征,以确保修复区域与原始图像的其余部分在视觉上保持一致。模糊融合策略:为了更好地保留未遮罩区域的细节,BrushNet采用了模糊融合策略。这意味着在融合遮罩区域和生成区域时,会使用模糊的遮罩来减少硬边缘和不自然的过渡。输出修复图像:最终,模型输出一个修复后的图像,其中遮罩区域被自然而连贯地填充,同时未遮罩区域的原始内容得到保留。
上一篇:SUPIR – 高保真的AI图像修复和画质增强模型
相关资讯 更多+
  • BrushNet – 腾讯推出的高质量图像照片修复模型
    BrushNet – 腾讯推出的高质量图像照片修复模型

    BrushNet是由腾讯PCG部门的ARC实验室与香港大学的研究人员推出的一个基于扩散模型的即插即用的图像照片修复(Inpainting)模型,通过分解的双分支架构来有效处理图像中的遮罩区域,可保持原有图像内容连贯性的同时,生成高质量的修复结果。

    AI教程资讯 2023-04-14

  • SUPIR – 高保真的AI图像修复和画质增强模型
    SUPIR – 高保真的AI图像修复和画质增强模型

    SUPIR是一个突破性的图像修复和画质增强方法,利用了大规模的生成模型StableDiffusion-XL(SDXL)和模型扩展技术,通过深度学习和多模态方法,实现了对低质量图像的高质量恢复。

    AI教程资讯 2023-04-14

  • StreamingT2V – PicsArt推出的可生成长达2分钟视频的模型
    StreamingT2V – PicsArt推出的可生成长达2分钟视频的模型

    StreamingT2V是由PicsArt AI研究团队推出的一个文本到视频的生成模型,旨在解决现有模型仅能生成16帧或24帧的高质量短视频,在生成长视频时则会遇到如视频质量下降、场景转换不一致和视频停滞等问题的挑战。

    AI教程资讯 2023-04-14

  • VoiceCraft – 开源的语音编辑和文本转语音模型
    VoiceCraft – 开源的语音编辑和文本转语音模型

    VoiceCraft是一个由德克萨斯大学奥斯汀分校研究团队开源的神经编解码器语言模型,专注于零样本语音编辑和文本到语音(TTS)任务。该模型采用Transformer架构,通过创新的token重排过程,结合因果掩蔽和延迟叠加技术,可零样本实现在现有音频序列内的高效生成。

    AI教程资讯 2023-04-14

最新录入 更多+
确定