当前位置: 网站首页 >AI教程资讯 >正文

Draw an Audio – 中科院联合美团推出的视频生成音频系统

来源:爱论文 时间:2025-02-27 13:57:18

Draw an Audio是什么

Draw an Audio 是中国科学院自动化研究所和美团点评的研究人员推出的视频生成音频系统。根据视频内容自动生成匹配的声音效果,类似于电影制作中的 Foley 艺术。系统分析视频结合多种输入指令,如文本、视频遮罩和响度信号,生成与视频内容、时间和响度一致的音频。核心架构包括潜在扩散模型(LDM)、文本条件模型、掩码注意力模块(MAM)和时间-响度模块(TLM),组件共同确保音频生成的高质量和准确性。为视频内容创作者提供了一个强大的工具,声音设计过程更加高效和灵活。

Draw an Audio的主要功能

内容一致性:系统分析视频内容,生成与视频场景语义相匹配的声音,如视频中出现动物时生成相应的动物叫声。时间一致性:生成的音频与视频中的动作精确同步,确保声音效果在正确的时间点出现,例如视频中的物体碰撞声音与碰撞动作同时发生。响度一致性:系统根据视频中的动作强度调整声音的响度,如视频中远处物体的声音相对较小,而近处物体的声音较大。多指令输入:系统支持多种输入指令,包括视频本身、相关文本描述、视频遮罩和响度信号,音频生成更加灵活和可控。高质量的同步音频:通过多指令的利用,Draw an Audio 能生成与视频内容自然同步的高质量音频,提升观看体验。

Draw an Audio的技术原理

潜在扩散模型(Latent Diffusion Model, LDM):作为基础模型,负责处理音频数据的基本生成和处理。文本条件模型:处理文本指令,确保生成的音频与文本描述相匹配,提高内容的语义一致性。掩码注意力模块(Masked-Attention Module, MAM):通过视频遮罩来关注视频的重点区域,增强视频内容与生成音频之间的一致性。时间-响度模块(Time-Loudness Module, TLM):处理信号指令,如响度信号,确保生成的声音在时间和响度上与视频同步。

Draw an Audio的项目地址

项目官网:yannqi.github.io/Draw-an-AudioarXiv技术论文:https://arxiv.org/pdf/2409.06135

Draw an Audio的应用场景

电影和视频制作:在影视后期制作中,Draw an Audio 自动为无声视频添加匹配的音效,如脚步声、车辆行驶声等,提高制作效率并减少成本。游戏开发:为游戏中的动画和场景生成逼真的声音效果,增强玩家的沉浸感和游戏体验。虚拟现实(VR)和增强现实(AR):在虚拟环境中生成与场景相匹配的声音,提升用户的交互体验和感知真实性。教育和培训:为教育视频自动生成解释性的声音,帮助学生更好地理解和吸收知识。动画制作:自动生成动画角色的对话和环境音效,使动画制作更加高效。广告制作:为广告视频生成吸引人的音频效果,增强广告的吸引力和记忆点。
上一篇:CogVideoX-5B-I2V – 智谱 AI 开源的图生视频生成模型
相关资讯 更多+
  • Draw an Audio – 中科院联合美团推出的视频生成音频系统
    Draw an Audio – 中科院联合美团推出的视频生成音频系统

    Draw an Audio 是中国科学院自动化研究所和美团点评的研究人员推出的视频生成音频系统。根据视频内容自动生成匹配的声音效果,类似于电影制作中的 Foley 艺术。系统分析视频结合多种输入指令,如文本、视频遮罩和响度信号,生成与视频内容、时间和响度一致的音频。

    AI教程资讯 2023-04-14

  • CogVideoX-5B-I2V – 智谱 AI 开源的图生视频生成模型
    CogVideoX-5B-I2V – 智谱 AI 开源的图生视频生成模型

    CogVideoX-5B-I2V 是智谱 AI 开源的一款图生视频模型,通过一张图片和文本提示词生成视频。模型采用了3D 因果变分自编码器和专家自适应 LayerNorm 技术,能输出720×480分辨率、6秒长的视频。

    AI教程资讯 2023-04-14

  • RapidPages – AI驱动的集成开放环境,实时生成UI组件和CSS代码
    RapidPages – AI驱动的集成开放环境,实时生成UI组件和CSS代码

    RapidPages 是一个开源的集成开发环境(IDE),专注于基于AI技术快速生成 React 和 Tailwind CSS 的 UI 组件。基于自然语言处理,支持用户仅通过描述所需界面的方式,可实时创建和迭代设计。

    AI教程资讯 2023-04-14

  • Ovis1.6 – 阿里国际AI团队推出的多模态大模型,超过闭源GPT-4o-mini
    Ovis1.6 – 阿里国际AI团队推出的多模态大模型,超过闭源GPT-4o-mini

    Ovis1 6是阿里国际AI团队推出的多模态大模型,在多模态权威综合评测基准OpenCompass上取得了优异的成绩,特别是在30亿参数以下的模型中综合得分排名第一,超越了其他主流模型。Ovis1 6模型在数学推理、视觉理解等多项任务中表现出色,甚至超过闭源的GPT-4o-mini模型。

    AI教程资讯 2023-04-14

最新录入 更多+
确定