当前位置: 网站首页 >AI教程资讯 >正文

CLaMP 3- 清华团队推出的音乐信息检索框架

来源:爱论文 时间:2025-03-17 13:28:50

CLaMP 3是什么

CLaMP 3是清华大学人工智能学院的朱文武教授团队推出的多模态、多语言的音乐信息检索框架。基于对比学习,将乐谱(如ABC符号)、音频(如MERT特征)和表演信号(如MIDI文本格式)与多种语言的文本描述对齐到一个共享的表示空间中。CLaMP 3支持27种语言,能泛化到100种语言,适用于跨模态检索任务,如文本到音乐、图像到音乐检索,零样本音乐分类和音乐语义相似性评估。

CLaMP 3

CLaMP 3的主要功能

跨模态音乐检索:文本到音乐检索:根据文本描述(支持100种语言)检索与之语义匹配的音乐。图像到音乐检索:通过图像生成的描述(如BLIP模型生成的caption)检索与之匹配的音乐。跨模态音乐检索:在不同音乐表示形式(如乐谱、MIDI、音频)之间进行检索。例如,用音频检索乐谱或用乐谱检索音频。零样本音乐分类:无需标注数据,基于语义相似性将音乐分类到特定类别(如风格、情绪等)。音乐推荐:基于语义相似性进行音乐推荐,支持同一模态内的推荐(如音频到音频)。

CLaMP 3的技术原理

多模态数据对齐:将不同模态的音乐数据(如乐谱、MIDI、音频)和多语言文本统一到一个共享的语义空间。基于对比学习,模型学习将不同模态的数据映射到相似的向量表示,实现跨模态检索。对比学习框架:用对比学习(如CLIP的变体)训练模型。模型通过正样本对(如音乐与对应文本)和负样本对(随机配对的样本)学习区分语义相关和不相关的数据,优化表示空间。多语言支持:基于XLM-R(一种多语言预训练模型)实现多语言文本嵌入,支持27种语言的训练,并泛化到100种语言。大规模数据集训练:模型在大规模数据集(如M4-RAG)上进行训练,包含231万对高质量的音乐-文本对,覆盖27种语言和194个国家。特征提取与表示:乐谱:使用Interleaved ABC符号。MIDI:转换为MIDI文本格式(MTF)。音频:提取MERT特征。

CLaMP 3的项目地址

项目官网:https://sanderwood.github.io/clamp3/GitHub仓库:https://github.com/sanderwood/clamp3HuggingFace模型库:https://huggingface.co/sander-wood/clamp3arXiv技术论文:https://arxiv.org/pdf/2502.10362在线体验Demo:https://huggingface.co/spaces/sander-wood/clamp3

CLaMP 3的应用场景

音乐推荐:根据文本描述或音乐片段,推荐语义相似的音乐,支持个性化推荐。音乐创作辅助:通过文本生成匹配的音乐,帮助创作者找到灵感或调整音乐风格。音乐教育:检索相关音频、乐谱或教学资源,支持多语言学习。音乐分类与分析:零样本分类音乐风格、情绪等,评估音乐语义相似性。多媒体创作:为视频或图像匹配合适的音乐,提升内容制作效率。
上一篇:SWE-Lancer – OpenAI 推出的大模型基准测试
相关资讯 更多+
  • CLaMP 3- 清华团队推出的音乐信息检索框架
    CLaMP 3- 清华团队推出的音乐信息检索框架

    CLaMP 3是清华大学人工智能学院的朱文武教授团队推出的多模态、多语言的音乐信息检索框架。基于对比学习,将乐谱(如ABC符号)、音频(如MERT特征)和表演信号(如MIDI文本格式)与多种语言的文本描述对齐到一个共享的表示空间中。

    AI教程资讯 2023-04-14

  • SWE-Lancer – OpenAI 推出的大模型基准测试
    SWE-Lancer – OpenAI 推出的大模型基准测试

    SWE-Lancer 是 OpenAI 推出的大模型基准测试,评估前沿语言模型(LLMs)在自由职业软件工程任务中的表现。包含来自 Upwork 的 1400 多个任务,总价值达 100 万美元,分为个人贡献者(IC)任务和管理任务。

    AI教程资讯 2023-04-14

  • DynamicCity – 上海 AI Lab 推出的4D动态场景生成框架
    DynamicCity – 上海 AI Lab 推出的4D动态场景生成框架

    DynamicCity 是上海AI Lab推出的大规模动态场景生成的4D生成框架。DynamicCity 专注于生成具有语义信息的动态 LiDAR 场景,能处理大规模空间(80×80×6 4 m³)和长序列(最多 128 帧)的数据。DynamicCity基于 VAE 模型将 4D 场景编码为紧凑的 HexPlane 表示,用基于扩散模型(DiT)的生成器重建动态场景。

    AI教程资讯 2023-04-14

  • MoBA – Moonshot AI 提出的新型注意力机制
    MoBA – Moonshot AI 提出的新型注意力机制

    MoBA(Mixture of Block Attention)是 Moonshot AI 提出的新型注意力机制,提高大型语言模型(LLMs)处理长上下文任务的效率。通过将上下文划分为多个块(block),引入无参数的 top-k 门控机制,让每个查询 token 动态选择最相关的键值(KV)块进行注意力计算。

    AI教程资讯 2023-04-14

最新录入 更多+
确定