当前位置: 网站首页 >AI教程资讯 >正文

Miras – 谷歌推出的深度学习架构设计通用框架

来源:爱论文 时间:2025-04-26 11:02:29

Miras是什么

Miras是谷歌推出的用在深度学习架构设计的通用框架,特别是序列建模任务。Miras基于关联记忆和注意力偏差的概念,将Transformer、现代线性RNN等模型重新定义为具有内部优化目标的关联记忆模块。Miras基于四种关键选择构建模型,关联记忆架构、注意力偏差目标、保持门及记忆学习算法。Miras能生成具有不同优势的新型序列模型,例如Moneta、Yaad和Memora,模型在语言建模、常识推理等任务中表现出色,超越现有的Transformer和线性RNN模型。

Miras的主要功能

统一现有架构:将现有的多种序列模型(如Transformer、RetNet、Mamba等)纳入统一的框架下。优化记忆管理:基于引入注意力偏差(Attentional Bias)和保留门(Retention Gate)的概念,Miras能够更好地平衡学习新信息和保留旧信息,从而优化模型的记忆管理能力。设计新型模型:支持设计出具有不同注意力偏差和保留机制的新型序列模型,如Moneta、Yaad和Memora。提升模型性能:提升模型在长序列任务中的性能,保持快速的并行化训练能力。

Miras的技术原理

关联记忆:将输入(键,Keys)映射到输出(值,Values)的机制。在Miras中,序列模型被看作是关联记忆模块,基于学习输入和输出之间的映射关系存储和检索信息。关联记忆是Miras的核心,决定模型如何存储和利用序列数据中的信息。注意力偏差:注意力偏差是关联记忆的内部优化目标,用在衡量模型如何优先关注某些事件或刺激。决定模型如何学习输入(键和值)之间的映射关系。基于选择不同的注意力偏差目标(如ℓ2回归、ℓ1回归、Huber损失等),调整模型对数据的敏感度和鲁棒性。保持门:一种正则化机制,控制模型在学习新信息时如何保留旧信息。引入保留正则化项(如ℓ2正则化、KL散度等)平衡学习和保留。防止模型过度遗忘旧信息,在长序列任务中保持更好的性能。记忆学习算法:记忆学习算法用在优化关联记忆的目标函数。常见的算法包括梯度下降、动量梯度下降等。基于选择合适的优化算法,提高模型的训练效率和收敛速度。

Miras的项目地址

arXiv技术论文:https://arxiv.org/pdf/2504.13173

Miras的应用场景

语言建模:NLP研究人员、文本生成开发者用于高效处理长文本,捕捉长距离依赖。常识推理:AI研究者、智能助手开发者提升对隐含信息的理解和推理能力。长文本处理:文本分析工程师、信息检索专家优化长文本处理效率,减少资源消耗。多模态任务:多模态研究者、多媒体内容分析工程师融合多种模态信息,提升跨模态推理能力。
上一篇:SocioVerse – 复旦大学联合小红书等机构开源的社会模拟世界模型
相关资讯 更多+
  • Miras – 谷歌推出的深度学习架构设计通用框架
    Miras – 谷歌推出的深度学习架构设计通用框架

    Miras是谷歌推出的用在深度学习架构设计的通用框架,特别是序列建模任务。Miras基于关联记忆和注意力偏差的概念,将Transformer、现代线性RNN等模型重新定义为具有内部优化目标的关联记忆模块。

    AI教程资讯 2023-04-14

  • SocioVerse – 复旦大学联合小红书等机构开源的社会模拟世界模型
    SocioVerse – 复旦大学联合小红书等机构开源的社会模拟世界模型

    SocioVerse(众生) 是复旦大学、上海创智学院、罗切斯特大学和小红书联合推出的社会模拟世界模型。基于大语言模型(LLM)驱动的智能体和包含1000万真实用户的数据池,构建与现实世界“对齐”的大规模社会模拟框架。

    AI教程资讯 2023-04-14

  • Pad.ws – 在线AI开发工具,白板功能与代码编辑器深度结合
    Pad.ws – 在线AI开发工具,白板功能与代码编辑器深度结合

    Pad ws 是创新的在线开发环境,结合了白板功能与完整的 IDE 工具。基于浏览器运行,无需安装额外软件,用户可以随时随地通过任何设备访问。将交互式白板与代码编辑器深度融合,支持使用 Excalidraw 进行绘图,方便头脑风暴和创意构思,集成 VS Code 和终端,满足代码编写、调试和运行需求。

    AI教程资讯 2023-04-14

  • GPT-image-1 – OpenAI 推出的最新图像生成模型
    GPT-image-1 – OpenAI 推出的最新图像生成模型

    GPT-image-1是OpenAI推出的原生多模态图像生成模型,基于API向开发者开放使用。模型根据文本提示和图像生成高质量、专业级的图像,支持多种风格和自定义功能,如图像质量、尺寸、格式、压缩程度等。

    AI教程资讯 2023-04-14

最新录入 更多+
确定