URM – 阿里妈妈推出的世界知识大模型-爱论文

URM是什么

URM（Universal Recommendation Model）是阿里妈妈推出的世界知识大模型，基于知识注入和信息对齐，将LLM的通用知识与电商领域的专业知识相结合，解决传统LLM在电商推荐场景中表现欠佳的问题。URM引入多模态融合的商品表征和高效的Sequence-In-Set-Out生成方式，处理多种推荐任务（如多场景推荐、长尾推荐等），显著提升推荐效果。URM已经在阿里妈**展示广告场景中上线，显著提升商家投放效果和消费者购物体验。

URM的主要功能

多任务处理：支持同时处理多种推荐任务，如多场景推荐、多目标推荐、长尾推荐、发现性推荐等。用户兴趣理解：全面理解用户的兴趣和需求，提供更符合用户当前情境的推荐结果。高效率推荐：在单次前向传播中生成高质量的推荐集合，满足工业级推荐系统的低时延、高QPS需求。多模态融合：结合商品的ID表征和语义表征（如文本、图像等），提升商品的表达能力和推荐的准确性。零样本学习能力：快速适应新任务和新场景，在没有大量标注数据的情况下提供有效的推荐。

URM的技术原理

多模态融合表征：ID表征：基于分布式哈希表将商品ID映射为独特的嵌入向量，捕捉商品间的协同信息。语义表征：文本编码器和图像编码器将商品的文本描述和图像信息转换为语义嵌入向量。融合机制：MLP层将ID表征和语义表征对齐融合，生成多模态商品嵌入向量，提升商品的表达能力。Sequence-In-Set-Out生成方式：输入序列由用户行为中的商品ID、任务提示中的文本token及特殊查询符（如UM、LM）组成。输出机制基于用户建模头（hUM）和语言模型头（hLM）分别生成用户表征和文本输出。增加UM token数量，使URM在一次前向传播中并行生成多个用户表征，提升召回指标。任务定义与提示工程：基于文本来定义不同的推荐任务，将商品ID作为特殊token注入文本描述，实现用户行为序列的高效表达。设计不同的提示模板，调整推荐结果的分布，让模型根据不同的任务需求和用户行为动态调整推荐策略。训练方式：结合商品推荐任务的噪声对比估计（NCE）损失和文本生成任务的负对数似然损失。基于完整参数的有监督微调（SFT），仅冻结商品的原始表征，保留LLM的预训练知识。异步推理链路：为满足低时延、高QPS要求，设计面向用户行为动态捕捉的异步推理链路，将推理结果持久化存储，供在线召回阶段读取。基于多instance在同一容器部署，将URM推理的并发qps提升200%。