当前位置：网站首页 >AI教程资讯 >正文

DeepSeek前实习生魔改MoE，用迭代机制把内存需求砍了42%，团队：“免费午餐”优化方法

来源：爱论文时间：2025-05-29 09:24:26

DeepSeek MoE“变体”来了，200美元以内，内存需求减少17.6-42%！

名叫CoE（Chain-of-Experts），被认为是一种“免费午餐”优化方法，突破了MoE并行独立处理token、整体参数数量较大需要大量内存资源的局限。

与并行处理不同，CoE使专家能在单层内串行通信，形成一种迭代机制，即专家能“沟通”，在其它专家输出之上处理token。

研究团队在实验中发现，经过2次迭代的CoE，在相同的计算预算下将数学任务的验证损失从1.20降低至1.12，仅仅通过重构信息流就获得了性能提升。

通过扩展CoE的迭代次数，在性能相当的情况下，内存使用比通过增加模型层数或扩展专家选择数量的方法降低了17.6-42%。

另外，在专家组合自由度、专家使用效率等其它方面，CoE也都具有显著优势，专家组合增加823倍。

目前，研究团队晒出了CoE技术Blog（完整论文即将发布），引起不少网友围观。

翻看作者主页，还发现作者Zihan Wang真曾在DeepSeek实习过

上一篇：DeepSeek到底给中国TO B服务带来了什么？

相关资讯更多+

DeepSeek前实习生魔改MoE，用迭代机制把内存需求砍了42%，团队：“免费午餐”优化方法
DeepSeekMoE“变体”来了，200美元以内，内存需求减少17 6-42%！名叫CoE（Chain-of-Experts），被认为是一种“免费午餐”优化方法，突破了MoE并行独立处理token、整体参数数量较大需要大量内存资源的局限。与并

AI教程资讯 2023-04-14
DeepSeek到底给中国TO B服务带来了什么？
这种深度渗透的趋势，与多模态交互的爆发形成共振。正如声网基于底层音视频技术，从技术底层优化解决方案，将DeepSeek的语音生成与实时音视频技术融合。值得关注的是，AI正从辅助工具升级为“决策执行者”。例如

AI教程资讯 2023-04-14
“复制”DeepSeek，量化巨头为何能成大模型顶流？
据媒体最新报道，幻方量化的老对手的九坤投资，携手微软团队成功复现DeepSeek-R1，还首次发现了语言混合（例如中英文夹杂）会显著降低推理能力等问题。听闻该消息，有投资人调侃道，“以后找大模型项目，是不是

AI教程资讯 2023-04-14
为什么又是“清华帮”？
当大模型的竞赛延续到2025年，原本就已经显露出融资遇冷趋势的国内AI六小虎，又被DeepSeek引发出一轮价值重估的新挑战。但在上述压力之下，“清华帮”灵魂人物唐杰带领的智谱，第一个站出来打破了外界的部分质疑

AI教程资讯 2023-04-14

最新录入更多+

Rask
学术论文丨 9.9MB
下载
SteveAI
学术论文丨 9.9MB
下载
Pictory
学术论文丨 9.9MB
下载
Elai.io
学术论文丨 9.9MB
下载
AVCLabs
学术论文丨 9.9MB
下载
Colossyan
学术论文丨 9.9MB
下载

热门推荐更多+

Agent Laboratory – AMD 联合约翰·霍普金斯大学推出的自主科研 Agent

2025-01-13

AI专辑热门专辑

【AI教程资讯】 SPAR3D – Stability AI等机构推出的单试图重建 3D 网络模型 01-13
【AI教程资讯】 Agent Laboratory – AMD 联合约翰·霍普金斯大学推出的自主科研 Agent 01-13
【AI教程资讯】 rStar-Math – 微软推出的小模型复杂推理与自进化SLMs的创新技术 01-13
【AI教程资讯】 Hallo3 – 复旦联合百度开源的高动态与真实感肖像动画生成框架 01-13
【AI教程资讯】 Eino – 字节跳动开源的大模型应用开发框架 03-22
【AI教程资讯】 ConceptMaster – 高保真多概念视频定制生成的创新 AI 框架 01-13
【AI教程资讯】 UniReal – 港大联合 Adobe 推出的通用图像生成和编辑框架 01-22
【AI教程资讯】 OpenAI o3 – OpenAI推出的新一代最强推理模型 01-23
【AI教程资讯】 CosyVoice 2.0 – 阿里开源的语音生成大模型 01-23
【AI教程资讯】 Search-o1 – 人大联合清华推出自主知识检索增强的推理框架 01-13

AI工具推荐更多+

1

Rask 9.9MB

AI视频本地化解决方案，支持超过130种语言
2

AiPPT 9.9MB

2025顶尖智能网页抓取工具排名-2025哪款网页抓取器效率最高
3

SteveAI 9.9MB

Animaker旗下AI在线视频制作工具
4

笔灵AI写作 9.9MB

2025顶尖智能网页抓取工具排名-2025哪款网页抓取器效率最高
5

巨日禄AI故事绘图 9.9MB

2025顶尖智能网页抓取工具排名-2025哪款网页抓取器效率最高
6

Pika 9.9MB

Pika是近期热门的人工智能初创公司Pika Labs推出的AI视频生成和编辑工具，该工具可以将任何创意转化为视频，用户只需输入文字或图像，即可快速生成3D动画、动漫、卡通、电影等风格的视频。

确定