当前位置: 网站首页 >AI教程资讯 >正文

NotaGen – 中央音乐学院联合北航、清华等推出的音乐生成模型

来源:爱论文 时间:2025-03-10 16:01:09

NotaGen是什么

NotaGen 是中央音乐学院、北京航空航天大学、清华大学等机构推出的音乐生成模型,基于模仿大型语言模型(LLM)的训练范式生成高质量的古典乐谱。NotaGen 基于预训练、微调和强化学习相结合的方法,预训练阶段用超过160万首乐曲,微调阶段基于约9000首高质量古典作品,基于“时期-作曲家-乐器”提示进行条件生成。在强化学习阶段,NotaGen 引入 CLaMP-DPO 方法,对比学习模型 CLaMP² 为生成的音乐提供反馈,优化音乐性与可控性,无需人工标注或预定义奖励。NotaGen 在主观 A/B 测试中优于基线模型,接近人类作品的音乐美感,显著提升符号音乐生成的艺术性。

NotaGen

NotaGen的主要功能

生成高质量古典乐谱:根据用户指定的时期(如巴洛克、古典、浪漫)、作曲家(如巴赫、莫扎特、肖邦)和乐器(如键盘、弦乐四重奏、管弦乐)生成符合特定风格的乐谱。提升音乐性:基于预训练、微调和强化学习相结合的方式,生成具有高度音乐性(如旋律优美、和声流畅、结构连贯)的作品。可控性生成:用户用“时期-作曲家-乐器”等条件提示,控制生成音乐的风格和特点。支持多种模型规模:提供不同参数规模的模型(如 NotaGen-small、NotaGen-medium 和 NotaGen-large),适应不同的硬件和应用场景。

NotaGen的技术原理

预训练:在超过160万首乐曲上进行预训练,涵盖多种风格和乐器。基于大规模数据学习音乐的基本结构和模式,类似于语言模型中的“语言理解”阶段。用符号音乐表示(如 ABC 符号)进行编码,预测下一个符号的任务进行训练。微调:在约9000首高质量古典作品上进行微调,针对特定风格(如巴洛克、古典、浪漫)和作曲家进行优化,生成符合特定风格的音乐。用“时期-作曲家-乐器”提示进行条件生成,增强模型对特定风格的理解和生成能力。强化学习:基于 CLaMP-DPO(Contrastive Language-Music Pretraining with Direct Preference Optimization)方法,对比学习模型 CLaMP² 提供反馈,优化生成音乐的质量和一致性,无需人工标注或预定义奖励。生成的音乐样本根据 CLaMP² 的评分被分为“选择”和“拒绝”两类,基于 DPO 算法优化模型,提升生成音乐的音乐性和可控性。符号音乐表示:用 ABC 符号表示乐谱,简化编码和生成过程,支持多声部音乐的生成。基于去除全休止符、添加小节索引等方法优化数据,提升生成效率和质量。模型架构:基于层次化的 Transformer 解码器,包括 patch-level decoder 和 character-level decoder,分别处理音乐片段和符号生成。结合 CLaMP² 提供的多模态反馈,优化生成音乐的全局特征(如风格、和声、结构)。

NotaGen的项目地址

项目官网:https://electricalexis.github.io/notagenGitHub仓库:https://github.com/ElectricAlexis/NotaGenHuggingFace模型库:https://huggingface.co/ElectricAlexis/NotaGenarXiv技术论文:https://arxiv.org/pdf/2502.18008

NotaGen的应用场景

音乐创作辅助:为作曲家提供灵感,快速生成符合特定风格的乐谱草稿,节省创作时间。音乐教育:帮助学生理解不同音乐时期的风格特点,生成教学用乐谱。音乐制作:为影视、游戏等快速生成背景音乐或配乐,提升制作效率。音乐表演:生成高质量乐谱,供乐团、合唱团等排练或演出使用。音乐娱乐:基于互动式演示,让用户实时生成音乐,体验创作乐趣。
上一篇:DiffRhythm – 西北工业联合港中文推出的端到端音乐生成工具
相关资讯 更多+
  • NotaGen – 中央音乐学院联合北航、清华等推出的音乐生成模型
    NotaGen – 中央音乐学院联合北航、清华等推出的音乐生成模型

    NotaGen 是中央音乐学院、北京航空航天大学、清华大学等机构推出的音乐生成模型,基于模仿大型语言模型(LLM)的训练范式生成高质量的古典乐谱。NotaGen 基于预训练、微调和强化学习相结合的方法,预训练阶段用超过160万首乐曲,微调阶段基于约9000首高质量古典作品,基于“时期-作曲家-乐器”提示进行条件生成。

    AI教程资讯 2023-04-14

  • DiffRhythm – 西北工业联合港中文推出的端到端音乐生成工具
    DiffRhythm – 西北工业联合港中文推出的端到端音乐生成工具

    DiffRhythm 是西北工业大学与香港中文大学(深圳)联合开发的端到端音乐生成工具,基于潜扩散模型(Latent Diffusion)技术,能快速生成包含人声和伴奏的完整歌曲。用户只需提供歌词和风格提示,DiffRhythm 能在10秒内生成长达4分45秒的高质量音乐作品。

    AI教程资讯 2023-04-14

  • OmniAlign-V – 上海交大联合上海 AI Lab 等推出的高质量数据集
    OmniAlign-V – 上海交大联合上海 AI Lab 等推出的高质量数据集

    OmniAlign-V 是上海交通大学、上海AI Lab、南京大学、复旦大学和浙江大学联合推出的专为提升多模态大语言模型(MLLMs)与人类偏好的对齐能力设计的高质量数据集。OmniAlign-V包含约20万个多模态训练样本,涵盖自然图像和信息图表,结合开放式、知识丰富的问答对。

    AI教程资讯 2023-04-14

  • TrendPublish – AI内容发布工具,支持智能总结和自动发布
    TrendPublish – AI内容发布工具,支持智能总结和自动发布

    TrendPublish 是基于 AI 的趋势发现和内容发布系统。基于多源数据采集,从 Twitter X、网站等渠道获取信息,用 DeepseekAI、千问等 AI 服务进行智能总结、关键信息提取和标题生成。系统支持自动发布内容到微信公众号,具备自定义模板和定时发布功能。

    AI教程资讯 2023-04-14

最新录入 更多+
确定