SuperGPQA – 豆包大模型联合 M-A-P 开源的知识推理基准测试集-爱论文

SuperGPQA是什么

SuperGPQA 是字节跳动豆包大模型团队联合 M-A-P 推出的全面覆盖 285 个研究生级学科、包含 26529 道专业题目的知识推理基准测试集。解决传统评测基准学科覆盖不全、题目质量存疑和评测维度单一的问题，基于专家与大语言模型协同构建，确保题目的高质量和高难度。SuperGPQA 包含 STEM 和非 STEM 学科，42.33% 的题目需要数学计算或严谨推理，能有效衡量大语言模型的泛化能力和真实推理水平。

SuperGPQA的主要功能

全面评估大语言模型（LLM）的泛化能力：覆盖 285 个研究生级学科（包括长尾学科），SuperGPQA 能全面衡量 LLM 在不同领域的知识储备和推理能力。揭示模型的真实推理能力：42.33% 的题目需要数学计算或形式推理，确保测试集有效评估模型在复杂任务中的表现，不仅仅是知识记忆能力。提供跨学科分析框架：SuperGPQA 的学科覆盖广泛，涵盖 STEM（科学、技术、工程、数学）和非 STEM（哲学、文学、历史等）领域，为研究模型在不同学科的表现提供统一的评估工具。填补长尾学科评估空白：传统评测集对长尾学科（如轻工业、农业、服务科学等）覆盖不足，SuperGPQA 基于全面的学科覆盖，弥补这一缺陷。为模型优化提供参考：基于在 SuperGPQA 上的评测结果，发现模型的不足之处，优化模型架构和训练方法。

SuperGPQA的技术原理

专家-LLM 协同构建：来源筛选：专家从可信来源（如教科书、权威练习网站）筛选和收集原始问题，避免众包标注的低质量风险。转录与规范化：专家对原始问题进行语言规范化和格式转换，确保所有问题具备统一的学术语言和标准多项选择题格式。质量检验：通过基于规则的初步过滤、基于 LLM 的质量检测（如有效性、领域相关性评估）和专家复审，确保题目的高质量和高区分度。多模型协作验证：在质量检验阶段，用多个先进的 LLM（如 GPT-4、Gemini-flash 等）进行**度检测，降低数据泄漏风险，提升题目的可靠性和区分度。跨学科语义结构设计：基于 t-SNE 等可视化技术分析题目语义结构，确保不同学科领域的语言特色得以保留，在工程和科学类问题中保持语义相似性。高难度任务设计：42.33% 的题目需要数学计算或严谨推理，确保测试集有效评估模型在复杂任务中的表现，不仅仅是知识记忆能力。

SuperGPQA的项目地址

项目官网：https://supergpqa.github.io/GitHub仓库：https://github.com/SuperGPQA/SuperGPQAHuggingFace模型库：https://huggingface.co/datasets/m-a-p/SuperGPQAarXiv技术论文：https://arxiv.org/pdf/2502.14739