当前位置: 网站首页 >AI教程资讯 >正文

SongGen – 上海 AI Lab 和北航、港中文推出的歌曲生成模型

来源:爱论文 时间:2025-03-12 16:45:27

SongGen是什么

SongGen是上海AI Lab、北京航空航天大学和香港中文大学推出的单阶段自回归Transformer模型,用在从文本生成歌曲。SongGen基于歌词和描述性文本(如乐器、风格、情感等)作为输入,支持混合模式和双轨模式两种输出方式,分别用于直接生成人声与伴奏的混合音频,及分别合成人声和伴奏方便后期编辑。SongGen基于创新的音频标记化策略和训练方法,显著提升生成歌曲的自然度和人声清晰度,解决传统多阶段方法中训练和推理流程繁琐的问题。SongGen的开源性和高质量数据集为未来音乐生成研究提供了新的基准。

SongGen

SongGen的主要功能

细粒度控制:用户基于歌词、描述性文本(如乐器、风格、情感等)对生成的歌曲进行控制。声音克隆:支持基于三秒参考音频实现声音克隆,使生成的歌曲具有特定歌手的音色。两种生成模式:提供“混合模式”(直接生成人声和伴奏的混合音频)和“双轨模式”(分别合成人声和伴奏,便于后期编辑)。高质量音频输出:基于优化的音频标记化和训练策略,生成具有高自然度和清晰人声的歌曲。

SongGen的技术原理

自回归生成框架:基于自回归Transformer解码器,将歌词和描述性文本编码为条件输入,用交叉注意力机制引导音频标记的生成。音频标记化:用X-Codec将音频信号编码为离散的音频标记,基于代码本延迟模式处理多代码序列,支持高效生成。混合模式与双轨模式:混合模式:直接生成混合音频标记,引入辅助人声音频标记预测目标(Mixed Pro),增强人声清晰度。双轨模式:基于平行或交错模式分别生成人声和伴奏标记,确保两者在帧级别上的对齐,提升生成质量。条件输入编码:歌词编码:VoiceBPE分词器将歌词转换为音素级标记,基于小型Transformer编码器提取关键发音信息。声音编码:MERT模型提取参考音频的音色特征,支持声音克隆。文本描述编码:FLAN-T5模型将描述性文本编码为特征向量,提供音乐风格、情感等控制。训练策略:多阶段训练:包括模态对齐、无参考声音支持和高质量微调,逐步提升模型性能。课程学习:逐步调整代码本损失权重,优化模型对音频细节的学习。数据预处理:开发自动化数据预处理管道,从多个数据源收集音频,分离人声和伴奏,生成高质量的歌词和描述性文本数据集。

SongGen的项目地址

GitHub仓库:https://github.com/LiuZH-19/SongGenarXiv技术论文:https://arxiv.org/pdf/2502.13128

SongGen的应用场景

音乐创作:快速生成歌曲雏形,探索不同风格,为歌词生成伴奏,加速创作流程。视频配乐:为短视频、广告、电影生成背景音乐,根据内容调整风格,提升视觉效果。教育辅助:帮助学生理解音乐创作,通过生成歌曲学习语言发音,激发创造力。个性化体验:根据用户输入生成定制歌曲,用声音克隆实现“个人专属歌手”,增强娱乐性。商业应用:为品牌生成专属音乐,替代版权受限的音乐素材,用于广告和推广。
上一篇:VideoFusion – AI视频剪辑工具,自动去除视频黑边、水印和字幕
相关资讯 更多+
  • SongGen – 上海 AI Lab 和北航、港中文推出的歌曲生成模型
    SongGen – 上海 AI Lab 和北航、港中文推出的歌曲生成模型

    SongGen是上海AI Lab、北京航空航天大学和香港中文大学推出的单阶段自回归Transformer模型,用在从文本生成歌曲。SongGen基于歌词和描述性文本(如乐器、风格、情感等)作为输入,支持混合模式和双轨模式两种输出方式,分别用于直接生成人声与伴奏的混合音频,及分别合成人声和伴奏方便后期编辑。

    AI教程资讯 2023-04-14

  • VideoFusion – AI视频剪辑工具,自动去除视频黑边、水印和字幕
    VideoFusion – AI视频剪辑工具,自动去除视频黑边、水印和字幕

    VideoFusion 是开源的短视频拼接与处理软件,专为高效视频编辑设计。支持自动去除视频中的黑边、水印和字幕,能将视频自动旋转为横屏或竖屏,适配不同播放场景。软件具备降噪、去抖动、音量平衡等功能,能提升视频画质。

    AI教程资讯 2023-04-14

  • Baichuan-Audio – 百川智能开源的端到端语音交互模型
    Baichuan-Audio – 百川智能开源的端到端语音交互模型

    Baichuan-Audio是百川智能推出的端到端音频大语言模型,支持无缝集成音频理解和生成功能,实现支持高质量、可控的实时中英双语对话。Baichuan-Audio基于多码本离散化技术将音频信号转化为离散标记,保留语义和声学信息,用独立的音频头增强音频特征处理能力。

    AI教程资讯 2023-04-14

  • AIMv2 – 苹果开源的多模态自回归预训练视觉模型
    AIMv2 – 苹果开源的多模态自回归预训练视觉模型

    AIMv2是苹果公司开源的多模态自回归预训练视觉模型,通过图像和文本的深度融合提升视觉模型的性能。采用创新的预训练框架,将图像划分为非重叠的图像块,将文本分解为子词令牌,然后将两者拼接为统一序列进行自回归预训练。

    AI教程资讯 2023-04-14

最新录入 更多+
确定