当前位置: 网站首页 >AI教程资讯 >正文

DeepSeek前实习生魔改MoE,用迭代机制把内存需求砍了42%,团队:“免费午餐”优化方法

来源:爱论文 时间:2025-05-29 09:24:26

DeepSeek MoE“变体”来了,200美元以内,内存需求减少17.6-42%!

名叫CoE(Chain-of-Experts),被认为是一种“免费午餐”优化方法,突破了MoE并行独立处理token、整体参数数量较大需要大量内存资源的局限。

与并行处理不同,CoE使专家能在单层内串行通信,形成一种迭代机制,即专家能“沟通”,在其它专家输出之上处理token。

研究团队在实验中发现,经过2次迭代的CoE,在相同的计算预算下将数学任务的验证损失从1.20降低至1.12,仅仅通过重构信息流就获得了性能提升。

通过扩展CoE的迭代次数,在性能相当的情况下,内存使用比通过增加模型层数或扩展专家选择数量的方法降低了17.6-42%。

另外,在专家组合自由度、专家使用效率等其它方面,CoE也都具有显著优势,专家组合增加823倍。

目前,研究团队晒出了CoE技术Blog(完整论文即将发布),引起不少网友围观。

翻看作者主页,还发现作者Zihan Wang真曾在DeepSeek实习过

上一篇:DeepSeek到底给中国TO B服务带来了什么?
相关资讯 更多+
  • DeepSeek前实习生魔改MoE,用迭代机制把内存需求砍了42%,团队:“免费午餐”优化方法
    DeepSeek前实习生魔改MoE,用迭代机制把内存需求砍了42%,团队:“免费午餐”优化方法

    DeepSeekMoE“变体”来了,200美元以内,内存需求减少17 6-42%!名叫CoE(Chain-of-Experts),被认为是一种“免费午餐”优化方法,突破了MoE并行独立处理token、整体参数数量较大需要大量内存资源的局限。与并

    AI教程资讯 2023-04-14

  • DeepSeek到底给中国TO B服务带来了什么?
    DeepSeek到底给中国TO B服务带来了什么?

    这种深度渗透的趋势,与多模态交互的爆发形成共振。正如声网基于底层音视频技术,从技术底层优化解决方案,将DeepSeek的语音生成与实时音视频技术融合。值得关注的是,AI正从辅助工具升级为“决策执行者”。例如

    AI教程资讯 2023-04-14

  • “复制”DeepSeek,量化巨头为何能成大模型顶流?
    “复制”DeepSeek,量化巨头为何能成大模型顶流?

    据媒体最新报道,幻方量化的老对手的九坤投资,携手微软团队成功复现DeepSeek-R1,还首次发现了语言混合(例如中英文夹杂)会显著降低推理能力等问题。听闻该消息,有投资人调侃道,“以后找大模型项目,是不是

    AI教程资讯 2023-04-14

  • 为什么又是“清华帮”?
    为什么又是“清华帮”?

    当大模型的竞赛延续到2025年,原本就已经显露出融资遇冷趋势的国内AI六小虎,又被DeepSeek引发出一轮价值重估的新挑战。但在上述压力之下,“清华帮”灵魂人物唐杰带领的智谱,第一个站出来打破了外界的部分质疑

    AI教程资讯 2023-04-14

最新录入 更多+
确定