Llama3.1 – Meta最新发布的最强开源AI模型-爱论文

Llama3.1是什么

Llama 3.1是Meta最新发布的开源AI模型，包括8B、70B和405B三个版本，其中405B版本以其4050亿参数量成为目前最大的开源模型之一。Llama 3.1支持128K的上下文长度，能够处理长文本并具备多语言翻译能力。在多个AI基准测试中表现卓越，尤其在数学、推理和长文本处理方面，与市场上顶尖的闭源模型如GPT-4o和Claude 3.5 Sonnet相媲美。此外，Meta还提供了Llama Stack API和安全工具，推动了AI创新应用的开发。

Llama3.1的功能特色

上下文长度：Llama 3.1支持高达128K的上下文长度，能够处理和理解更长的文本信息，对于长文本摘要和多语言对话等高级应用非常有利。多语言能力：模型支持八种语言，包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语，在多语言翻译和跨文化交流中表现出色。数学和推理能力：在GSM8K和ARC Challenge等数学和推理测试中，Llama 3.1的得分非常高，在解决复杂数学问题和逻辑推理方面有非常强大的能力。长文本处理：在ZeroSCROLLS/QuALITY测试中，Llama 3.1的得分与GPT-4持平，优于其他模型，在长文本理解方面具有很强的能力。工具使用：Llama 3.1在BFCL测试中得分较高，在使用工具和执行编程任务方面能力很强。特殊测试：在NIH/Multi-needle测试中，Llama 3.1的得分接近满分，在特定领域的高度专业化能力非常突出。量化优化：为了支持大规模推理，Llama 3.1的模型从BF16量化到FP8，有效减少了计算资源需求，使得模型能够在更广泛的硬件上运行。

Llama3.1的性能表现

Meta 评估了超过了 150 个基准数据集的性能，比较了 Llama 3.1 与其他模型在现实情况下的能力表现，405B 模型在包括 GPT-4、GPT-4o 和 Claude 3.5 Sonnet 在内的一系列任务中与领先的基础模型具有竞争力。此外，较小模型与具有相似参数数量的封闭和开放模型具有竞争力。

8B 和 70B 模型在基准测试中取得了显著进步：Llama 3.1 在基准测试中表现优异。8B 模型在 MMLU 测试中从 65 分提升到 73 分（提高 8 分），70B 模型从 81 分提升到 86 分（提高 5 分）。在 MATH (数学问题解决) 测试中，8B 模型的得分从 29 分大幅提升到 52 分（提高 23 分）。

Llama 3.1 405B 在通用任务、知识推理、阅读理解上创下最新纪录。尤其在，MMLU、SQuAD 细分基准上，提升最为明显。Llama 3.1 8B 和 70B 参数版本，相较于 Llama 3，得到了细微地改善。Llama 3.1 405B 比预训练模型更强。在推理、代码、数学、工具使用、多语言基准上，纷纷碾压微调后的 8B 和 70B 版本。