当前位置: 网站首页 >AI教程资讯 >正文

BlockDance – 复旦联合字节推出的扩散模型加速方法

来源:爱论文 时间:2025-04-19 11:12:16

BlockDance是什么

BlockDance 是复旦大学联合字节跳动智能创作团队推出的用在加速扩散模型的新方法。BlockDance 基于识别重用相邻时间步中结构相似的时空特征(STSS),减少冗余计算,提升推理速度,最高加速 50%。BlockDance 专注于去噪后期的结构特征,避免因重用低相似度特征导致的图像质量下降。BlockDance引入 BlockDance-Ada,基于强化学习动态分配计算资源,根据不同实例的复杂性调整加速策略,进一步优化内容质量和推理速度。

BlockDance

BlockDance的主要功能

加速推理过程:基于减少冗余计算,将 DiTs 的推理速度提升 25% 至 50%,提高模型在实际应用中的效率。保持生成质量:在加速的同时,保持与原始模型一致的生成效果,确保图像和视频的视觉质量、细节表现和对提示的遵循程度。动态资源分配:基于 BlockDance-Ada,根据不同生成任务的复杂性动态调整计算资源分配,实现更优的速度与质量平衡。广泛的适用性:支持无缝应用于多种扩散模型和生成任务,如图像生成、视频生成等,具有很强的通用性。

BlockDance的技术原理

特征相似性分析:在扩散模型的去噪过程中,相邻时间步的特征之间存在高度相似性,尤其是在模型的浅层和中层模块中。模块主要负责生成图像的结构信息,结构信息在去噪过程的早期阶段就已经相对稳定。BlockDance 基于分析特征的相似性,识别出结构相似的时空特征(Structurally Similar Spatio-Temporal,STSS),作为加速的关键点。缓存与重用机制:将去噪过程分为“缓存步骤”和“重用步骤”。在缓存步骤中,模型保存当前步骤中某些模块的特征输出。在后续的重用步骤中,模型直接使用之前缓存的特征,跳过模块的重复计算,节省计算资源。动态决策网络(BlockDance-Ada):引入 BlockDance-Ada,基于强化学习的轻量级决策网络。根据当前生成任务的复杂性(例如图像的结构复杂性、对象数量等),动态决定哪些步骤应该进行缓存,哪些步骤能进行重用。动态调整机制让 BlockDance 在不同的生成任务和模型上实现更优的速度与质量平衡。强化学习优化:用强化学习中的策略梯度方法训练决策网络。基于设计奖励函数,平衡图像质量和计算效率之间的权衡。奖励函数包括图像质量奖励(如视觉美感、对提示的遵循程度)和计算奖励(如重用步骤的比例)。基于最大化预期奖励,决策网络能学习到最优的缓存和重用策略,在保持生成质量的同时实现最大的加速效果。

BlockDance的项目地址

arXiv技术论文:https://arxiv.org/pdf/2503.15927

BlockDance的应用场景

图像生成:加速艺术创作、游戏设计等高质量图像生成,保持视觉质量。视频生成:提升视频创作、动画制作等任务的速度,维持视觉和时间一致性。实时交互:用在 VR、AR 等实时应用,快速响应用户输入,提升体验。大规模内容生成:高效生成大量图像和视频,降低计算成本,提高效率。资源受限环境:在移动设备、边缘计算等资源有限场景中高效运行,无需额外训练。
上一篇:Reve Image – Reve 推出的全新 AI 图像生成模型
相关资讯 更多+
  • BlockDance – 复旦联合字节推出的扩散模型加速方法
    BlockDance – 复旦联合字节推出的扩散模型加速方法

    BlockDance 是复旦大学联合字节跳动智能创作团队推出的用在加速扩散模型的新方法。BlockDance 基于识别重用相邻时间步中结构相似的时空特征(STSS),减少冗余计算,提升推理速度,最高加速 50%。

    AI教程资讯 2023-04-14

  • Reve Image – Reve 推出的全新 AI 图像生成模型
    Reve Image – Reve 推出的全新 AI 图像生成模型

    Reve Image 是 Reve 推出的全新 AI 图像生成模型。专注于提升美学表现、精确的提示遵循能力以及出色的排版设计,能生成高质量的视觉作品。模型在生成图像时展现出强烈的设计感,作品简洁大气,具有海报风格的视觉冲击力。

    AI教程资讯 2023-04-14

  • StarVector – 开源多模态视觉语言模型,支持图像和文本到 SVG 生成
    StarVector – 开源多模态视觉语言模型,支持图像和文本到 SVG 生成

    StarVector 是开源的多模态视觉语言模型,ServiceNow Research、Mila - Quebec AI Institute 和 ETS Montreal 联合开发,专注于将图像和文本转换为可缩放矢量图形(SVG)代码。 模型采用多模态架构,能同时处理图像和文本信息,直接在 SVG 代码空间中操作,生成标准的、可编辑的 SVG 文件。

    AI教程资讯 2023-04-14

  • LHM – 阿里通义开源的单图生成可动画3D人体模型
    LHM – 阿里通义开源的单图生成可动画3D人体模型

    LHM(Large Animatable Human Reconstruction Model)是阿里巴巴通义实验室推出的从单张图像重建可动画化3D人体模型。基于多模态Transformer架构,融合3D几何特征和2D图像特征,用注意力机制保留服装几何与纹理细节,推出头部特征金字塔编码方案增强面部细节恢复能力。

    AI教程资讯 2023-04-14

最新录入 更多+
确定