当前位置: 网站首页 >AI教程资讯 >正文

DiTCtrl – 港中文联合腾讯等机构推出的多提示视频生成方法

来源:爱论文 时间:2025-01-20 10:06:34

DiTCtrl是什么

DiTCtrl是基于多模态扩散变换器(MM-DiT)架构的多提示视频生成方法,是香港中文大学和腾讯等机构联合推出的。DiTCtrl能在无需额外训练的情况下,实现多个文本提示之间的连贯视频生成,并保持内容和运动的一致性。基于分析MM-DiT的注意力机制,DiTCtrl采用KV共享和潜在混合策略,实现不同提示间的平滑过渡,提升视频生成的连贯性和自然度。在新基准MPVBench上,DiTCtrl在保持计算效率的同时,取得最先进的性能,标志着多提示视频生成技术的重要进展。

DiTCtrl

DiTCtrl的主要功能

多提示视频生成:DiTCtrl能处理多个文本提示,生成连贯的视频内容,对于反映现实世界中动态、多动作场景尤为重要。无需额外训练:与传统视频生成模型不同,DiTCtrl无需额外的训练数据或计算资源即可生成视频,实现零样本(zero-shot)的多提示视频生成。平滑过渡:DiTCtrl能在不同提示的视频片段之间实现平滑过渡,保持视频内容的连贯性和视觉一致性。精确语义控制:分析和基于MM-DiT的注意力机制,精确控制视频内容,确保生成的视频与文本提示紧密对应。

DiTCtrl的技术原理

MM-DiT架构:基于多模态扩散变换器(MM-DiT)架构,将文本和视频映射到统一序列进行注意力计算,有效处理多模态数据。注意力机制分析:首次分析MM-DiT的3D全注意力机制,发现其与UNet类扩散模型中的交叉/自注意力模块相似,为精确的语义控制提供基础。KV共享机制:采用键值(KV)共享机制,支持在不同提示的视频片段之间共享注意力信息,保持关键对象的语义一致性。潜在混合策略:为实现视频片段间的平滑过渡,DiTCtrl用潜在混合策略,基于在相邻视频片段的重叠区域应用位置依赖的权重函数,实现不同语义片段间的平滑过渡。掩码引导的注意力融合:提取特定对象的注意力掩码,并用掩码引导注意力融合,生成新提示的注意力特征,实现不同提示间的一致性。MPVBench基准:为评估多提示视频生成的性能,引入MPVBench基准,包含多种过渡类型和专门的评估指标。

DiTCtrl的项目地址

项目官网:onevfall.github.io/project_page/ditctrlGitHub仓库:https://github.com/TencentARC/DiTCtrlarXiv技术论文:https://arxiv.org/pdf/2412.18597

DiTCtrl的应用场景

电影和视频制作:用于生成电影预告片、特效场景或动画视频,减少实际拍摄成本和时间。游戏开发:在游戏制作中,生成动态背景视频或游戏剧情动画,提高游戏的沉浸感和故事性。广告行业:根据广告文案快速生成吸引人的视频内容,提高广告的创意和吸引力。社交媒体内容创作:用户生成个性化的视频内容,用在社交媒体平台,如抖音、Instagram等。新闻和报道:制作新闻报道中的动态图表或事件重演,让信息传递更加直观和生动。
上一篇:MNN – 阿里开源的移动端深度学习推理框架
相关资讯 更多+
  • DiTCtrl – 港中文联合腾讯等机构推出的多提示视频生成方法
    DiTCtrl – 港中文联合腾讯等机构推出的多提示视频生成方法

    DiTCtrl是基于多模态扩散变换器(MM-DiT)架构的多提示视频生成方法,是香港中文大学和腾讯等机构联合推出的。DiTCtrl能在无需额外训练的情况下,实现多个文本提示之间的连贯视频生成,并保持内容和运动的一致性。

    AI教程资讯 2023-04-14

  • MNN – 阿里开源的移动端深度学习推理框架
    MNN – 阿里开源的移动端深度学习推理框架

    MNN(Mobile Neural Network)是阿里巴巴集团开源的轻量级深度学习推理框架,为移动端、服务器、个人电脑、嵌入式设备等多种设备提供高效的模型部署能力。MNN支持TensorFlow、Caffe、ONNX等主流模型格式,兼容CNN、RNN、GAN等多种网络结构。

    AI教程资讯 2023-04-14

  • 启元重症大模型 – 腾讯和迈瑞医疗联合推出的重症医疗大模型
    启元重症大模型 – 腾讯和迈瑞医疗联合推出的重症医疗大模型

    启元重症大模型是腾讯和迈瑞医疗联合发布的全球首个重症医疗大模型,专为ICU病房设计,解决重症监护中的痛点问题。模型整体参数量达到万亿级别,经过大量医学文本数据训练,涵盖285万医学实体、1250万医学关系,覆盖98%医学知识的医学知识图谱和医学文献。

    AI教程资讯 2023-04-14

  • Poetry2Image – 专为中文古诗词图像生成设计的迭代校正框架
    Poetry2Image – 专为中文古诗词图像生成设计的迭代校正框架

    Poetry2Image是一个专为中文古诗词图像生成设计的迭代校正框架,哈尔滨工业大学提出。框架通过自动化的反馈和校正循环,增强了诗歌与图像之间的一致性,有效捕捉诗歌的语义和艺术精髓。解决文本到图像生成模型在处理中文古典诗歌时常见的关键元素丢失或语义混淆问题。

    AI教程资讯 2023-04-14

最新录入 更多+
确定