当前位置: 网站首页 >AI教程资讯 >正文

PhotoDoodle – 字节联合新加坡国立大学等推出的艺术化图像编辑框架

来源:爱论文 时间:2025-03-13 13:42:22

PhotoDoodle是什么

PhotoDoodle是新加坡国立大学、上海交通大学、北京邮电大学、字节跳动和Tiamat团队联合推出的艺术化图像编辑框架,基于少量样本学习艺术家的独特风格,实现照片涂鸦(photo doodling)。PhotoDoodle用两阶段训练策略:基于大规模数据预训练通用图像编辑模型OmniEditor,用少量艺术家策划的前后图像对进行微调,捕捉特定的编辑风格。PhotoDoodle引入位置编码重用机制和无噪声条件范式,确保生成结果与背景的无缝融合和一致性。PhotoDoodle推出包含6种风格和300多个样本的高质量数据集,为相关研究提供基准。

PhotoDoodle

PhotoDoodle的主要功能

艺术风格学习与复现:从少量艺术家提供的样本中学习独特的编辑风格,应用于新的图像编辑任务中。装饰性元素生成:支持在照片上添加装饰性元素(如手绘线条、色彩块、装饰图案等),确保这些元素与背景无缝融合。保持背景一致性:在编辑过程中,严格保留原始照片的背景内容,避免背景失真或风格被破坏。指令驱动的编辑:基于自然语言指令控制图像编辑内容,实现精准的局部修改和风格化处理。高效风格定制:借助低秩适应(LoRA)技术,仅需30-50对样本即可快速适配不同艺术家的风格,降低训练成本。

PhotoDoodle的技术原理

OmniEditor预训练:用大规模图像编辑数据集对预训练的DiT模型进行微调,将其转化为通用图像编辑器(OmniEditor)。引入位置编码克隆机制(Positional Encoding Cloning)和无噪声条件范式(Noise-free Conditioning),确保编辑过程中的空间一致性和背景保留。基于多模态注意力机制(MMA)结合文本指令和图像条件,实现精准的图像编辑。EditLoRA微调:在预训练的OmniEditor基础上,用少量艺术家提供的前后图像对进行低秩适应(LoRA)微调。基于低秩分解矩阵适应性调整模型权重,捕捉特定艺术家的编辑风格,同时保留预训练模型的通用能力。位置编码克隆机制:在源图像和目标图像之间共享相同的位置编码,确保生成结果的空间一致性,避免背景与装饰元素之间的错位。无噪声条件范式:在生成过程中保留源图像的无噪声条件,防止背景内容在迭代去噪过程中被破坏,保持原始图像的细节和纹理。条件流匹配损失函数:优化条件流匹配损失函数,指导模型学习从噪声到目标图像的生成路径,进一步提升编辑效果。

PhotoDoodle的项目地址

GitHub仓库:https://github.com/showlab/PhotoDoodleHuggingFace模型库:https://huggingface.co/nicolaus-huang/PhotoDoodlearXiv技术论文:https://arxiv.org/pdf/2502.14397

PhotoDoodle的应用场景

数字艺术创作:为照片添加艺术风格,快速生成创意作品。商业设计:快速生成符合品牌风格的设计图像,提升设计效率。社交媒体:为个人照片添加装饰效果,增强分享内容的吸引力。艺术教育:辅助教学,帮助学生理解和实践不同艺术风格。娱乐互动:实时生成艺术化图像,增强互动体验。
上一篇:video-subtitle-master – 开源AI字幕生成工具,支持批量为视频或音频生成字幕
相关资讯 更多+
  • PhotoDoodle – 字节联合新加坡国立大学等推出的艺术化图像编辑框架
    PhotoDoodle – 字节联合新加坡国立大学等推出的艺术化图像编辑框架

    PhotoDoodle是新加坡国立大学、上海交通大学、北京邮电大学、字节跳动和Tiamat团队联合推出的艺术化图像编辑框架,基于少量样本学习艺术家的独特风格,实现照片涂鸦(photo doodling)。PhotoDoodle用两阶段训练策略:基于大规模数据预训练通用图像编辑模型OmniEditor,用少量艺术家策划的前后图像对进行微调,捕捉特定的编辑风格。

    AI教程资讯 2023-04-14

  • video-subtitle-master – 开源AI字幕生成工具,支持批量为视频或音频生成字幕
    video-subtitle-master – 开源AI字幕生成工具,支持批量为视频或音频生成字幕

    video-subtitle-master 是能批量为视频或音频生成字幕的工具,基于开源项目 VideoSubtitleGenerator 开发,支持批量为视频或音频生成字幕,将字幕翻译成其他语言。video-subtitle-master具备图形用户界面,操作便捷,支持多种翻译服务(如百度翻译、火山引擎翻译、DeepLX等)

    AI教程资讯 2023-04-14

  • DualPipe – DeepSeek 开源的双向流水线并行技术
    DualPipe – DeepSeek 开源的双向流水线并行技术

    DualPipe 是DeepSeek开源的创新的双向流水线并行技术,主要用于提升大规模深度学习模型的训练效率。核心思想是将模型的训练过程分为两个独立的管道——前向计算管道和反向计算管道,并行执行。

    AI教程资讯 2023-04-14

  • EPLB – DeepSeek 开源的专家并行负载均衡器
    EPLB – DeepSeek 开源的专家并行负载均衡器

    EPLB(Expert Parallelism Load Balancer)是 DeepSeek 推出的专家并行负载均衡器,能解决大规模模型训练中不同专家模型(Expert)负载不均的问题。EPLB 基于冗余专家策略,复制高负载专家,合理分配到不同 GPU 上,实现负载均衡。EPLB结合 group-limited expert routing 技术,将同一组专家放置在同一节点内,减少跨节点通信开销。

    AI教程资讯 2023-04-14

最新录入 更多+
确定