当前位置：网站首页 >AI教程资讯 >正文

DCLM-7B – 苹果公司与合作团队推出的开源小模型

来源：爱论文时间：2025-05-05 17:56:57

DCLM-7B 是什么

DCLM-7B是由苹果公司联合研究团队推出的70亿参数开源小模型，性能超越Mistral-7B，接近Llama 3和Gemma。最近，苹果公司作为 DataComp-LM（DCLM）项目的研究机构之一，在 Hugging Face 上发布了 DCLM-7B 开源模型。该模型基于240T Common Crawl数据，通过标准化的DCLM-POOL和OpenLM框架预训练，实现了64%的5-shot MMLU准确率，训练效率显著。DCLM-7B的开源包括权重、训练代码和数据集，推动了LLM开源社区的发展，提供了高质量数据集DCLM-BASELINE，为数据驱动的模型研究设立了新基准。

DCLM-7B 的技术原理

大规模数据集：DCLM-7B使用了从Common Crawl中提取的240万亿个令牌构成的标准化语料库，为模型提供了丰富的训练数据。数据筛选：通过模型基础的过滤方法，从大规模数据集中筛选出高质量的训练数据，是构建DCLM-7B的关键步骤。OpenLM框架：基于OpenLM框架，DCLM-7B采用了有效的预训练方案，提供了标准化的训练流程和超参数设置。标准化评估：DCLM-7B在53个下游任务上进行了标准化评估，有助于量化训练集的优势和局限性。模型架构：DCLM-7B采用的是decoder-only的Transformer模型架构，是一种常用于语言模型的深度学习架构。训练优化：在训练过程中，DCLM-7B使用了特定的优化技术，如z-loss，以保持输出logit的数值稳定性。多尺度训练：DCLM-7B在不同的计算规模上进行了训练，从412M到7B参数的模型，有助于理解不同训练规模对模型性能的影响。

DCLM-7B 的项目地址

项目官网：https://huggingface.co/apple/DCLM-7BGitHub仓库：https://github.com/mlfoundations/dclmarXiv技术论文：https://arxiv.org/pdf/2406.11794

DCLM-7B 的适用人群

AI研究人员：专注于自然语言处理和机器学习领域的科学家和学者。软件开发者：集成高级语言处理能力到应用程序中的技术人员。数据分析师：处理和分析大量文本数据以获取洞察力的专业人士。教育技术专家：开发教育工具和交互式学习体验的教育工作者。企业决策者：利用AI优化业务流程和增强客户服务的商业领袖。

上一篇：LivePortrait – 快手推出的开源人像动画生成框架

相关资讯更多+

DCLM-7B – 苹果公司与合作团队推出的开源小模型
DCLM-7B是由苹果公司联合研究团队推出的70亿参数开源小模型，性能超越Mistral-7B，接近Llama 3和Gemma。最近，苹果公司作为 DataComp-LM（DCLM）项目的研究机构之一，在 Hugging Face 上发布了 DCLM-7B 开源模型。

AI教程资讯 2023-04-14
LivePortrait – 快手推出的开源人像动画生成框架
LivePortrait是快手推出的开源人像动画生成框架，专注于高效、可控地将驱动视频的表情和姿态迁移至静态或动态人像，创造出富有表现力的视频。该技术通过隐式关键点框架实现，利用大规模高质量训练数据和混合训练策略，提升了模型的泛化能力和动作控制精度。

AI教程资讯 2023-04-14
Llama3.1 – Meta最新发布的最强开源AI模型
Llama 3 1是Meta最新发布的开源AI模型，包括8B、70B和405B三个版本，其中405B版本以其4050亿参数量成为目前最大的开源模型之一。Llama 3 1支持128K的上下文长度，能够处理长文本并具备多语言翻译能力。在多个AI基准测试中表现卓越，尤其在数学、推理和长文本处理方面，与市场上顶尖的闭源模型如GPT-4o和Claude 3 5 Sonnet相媲美。

AI教程资讯 2023-04-14
GPT-4o Long Output模型 – OpenAI最新推出的超长输出模型
GPT-4o Long Output模型是OpenAI最新推出的超长输出AI模型，支持高达64k tokens的长文本输出，相当于约200页小说。相较于原GPT-4o模型，输出能力提升16倍，但输入上限降至64k tokens，满足用户对更长文本处理的需求。

AI教程资讯 2023-04-14

最新录入更多+

Rask
学术论文丨 9.9MB
下载
SteveAI
学术论文丨 9.9MB
下载
Pictory
学术论文丨 9.9MB
下载
Elai.io
学术论文丨 9.9MB
下载
AVCLabs
学术论文丨 9.9MB
下载
Colossyan
学术论文丨 9.9MB
下载

热门推荐更多+

Codex CLI – OpenAI 开源的AI编程智能体

2025-04-28

AI专辑热门专辑

【AI教程资讯】 SPAR3D – Stability AI等机构推出的单试图重建 3D 网络模型 01-13
【AI教程资讯】 rStar-Math – 微软推出的小模型复杂推理与自进化SLMs的创新技术 01-13
【AI教程资讯】 Hallo3 – 复旦联合百度开源的高动态与真实感肖像动画生成框架 01-13
【AI教程资讯】 UniReal – 港大联合 Adobe 推出的通用图像生成和编辑框架 01-22
【AI教程资讯】 ConceptMaster – 高保真多概念视频定制生成的创新 AI 框架 01-13
【AI教程资讯】日日新融合大模型 – 商汤科技推出的原生融合模态大模型 01-13
【AI教程资讯】 CHRONOS – 阿里通义联合上海交大等推出时间线摘要生成新框架 01-14
【AI教程资讯】 Agent Laboratory – AMD 联合约翰·霍普金斯大学推出的自主科研 Agent 01-13
【AI教程资讯】 Search-o1 – 人大联合清华推出自主知识检索增强的推理框架 01-13
【AI教程资讯】星火纪要 – 科大讯飞推出的会议交流总结和分析平台 01-13

AI工具推荐更多+

1

Rask 9.9MB

AI视频本地化解决方案，支持超过130种语言
2

AiPPT 9.9MB

2025顶尖智能网页抓取工具排名-2025哪款网页抓取器效率最高
3

笔灵AI写作 9.9MB

2025顶尖智能网页抓取工具排名-2025哪款网页抓取器效率最高
4

SteveAI 9.9MB

Animaker旗下AI在线视频制作工具
5

CopyAI 9.9MB

2025顶尖智能网页抓取工具排名-2025哪款网页抓取器效率最高
6

巨日禄AI故事绘图 9.9MB

2025顶尖智能网页抓取工具排名-2025哪款网页抓取器效率最高

确定