PhotoDoodle – 字节联合新加坡国立大学等推出的艺术化图像编辑框架-爱论文

PhotoDoodle是什么

PhotoDoodle是新加坡国立大学、上海交通大学、北京邮电大学、字节跳动和Tiamat团队联合推出的艺术化图像编辑框架，基于少量样本学习艺术家的独特风格，实现照片涂鸦（photo doodling）。PhotoDoodle用两阶段训练策略：基于大规模数据预训练通用图像编辑模型OmniEditor，用少量艺术家策划的前后图像对进行微调，捕捉特定的编辑风格。PhotoDoodle引入位置编码重用机制和无噪声条件范式，确保生成结果与背景的无缝融合和一致性。PhotoDoodle推出包含6种风格和300多个样本的高质量数据集，为相关研究提供基准。

PhotoDoodle的主要功能

艺术风格学习与复现：从少量艺术家提供的样本中学习独特的编辑风格，应用于新的图像编辑任务中。装饰性元素生成：支持在照片上添加装饰性元素（如手绘线条、色彩块、装饰图案等），确保这些元素与背景无缝融合。保持背景一致性：在编辑过程中，严格保留原始照片的背景内容，避免背景失真或风格被破坏。指令驱动的编辑：基于自然语言指令控制图像编辑内容，实现精准的局部修改和风格化处理。高效风格定制：借助低秩适应（LoRA）技术，仅需30-50对样本即可快速适配不同艺术家的风格，降低训练成本。

PhotoDoodle的技术原理

OmniEditor预训练：用大规模图像编辑数据集对预训练的DiT模型进行微调，将其转化为通用图像编辑器（OmniEditor）。引入位置编码克隆机制（Positional Encoding Cloning）和无噪声条件范式（Noise-free Conditioning），确保编辑过程中的空间一致性和背景保留。基于多模态注意力机制（MMA）结合文本指令和图像条件，实现精准的图像编辑。EditLoRA微调：在预训练的OmniEditor基础上，用少量艺术家提供的前后图像对进行低秩适应（LoRA）微调。基于低秩分解矩阵适应性调整模型权重，捕捉特定艺术家的编辑风格，同时保留预训练模型的通用能力。位置编码克隆机制：在源图像和目标图像之间共享相同的位置编码，确保生成结果的空间一致性，避免背景与装饰元素之间的错位。无噪声条件范式：在生成过程中保留源图像的无噪声条件，防止背景内容在迭代去噪过程中被破坏，保持原始图像的细节和纹理。条件流匹配损失函数：优化条件流匹配损失函数，指导模型学习从噪声到目标图像的生成路径，进一步提升编辑效果。

PhotoDoodle的项目地址

GitHub仓库：https://github.com/showlab/PhotoDoodleHuggingFace模型库：https://huggingface.co/nicolaus-huang/PhotoDoodlearXiv技术论文：https://arxiv.org/pdf/2502.14397