当前位置：网站首页 >AI教程资讯 >正文

Claude 3.7硬控马里奥90秒，GPT-4o开局暴毙，Karpathy直呼基准失效，游戏成LLM评估工具

来源：爱论文时间：2025-05-29 11:00:26

Karpathy发出灵魂拷问，评估AI究竟该看哪些指标？答案或许就藏在经典游戏里！最近，加州大学圣迭戈分校Hao AI Lab用超级马里奥等评测AI智能体，Claude 3.7结果令人瞠目结舌。

LLM评估基准的「黄金标准」，正在失效？

一大早，AI大神Karpathy发出质疑，「目前存在一种评估危机，我真的不知道现在该看哪些指标了」。

诸如MMLU、SWE-Bench Verified、Chatbot Arena等这些基准，各有自己的优劣之处。

如果这些都不够，那么游戏算不算？

毕竟，曾经红极一时的AlphaGo是围棋界的头号AI；就连OpenAI也早年涉足游戏领域，拿着自研AI在DOTA国际赛中取得亮眼的成绩。

最近，Claude 3.7的出世，让「宝可梦」一时间成为LLM评判的新标杆。

UCSD Hao AI Lab再次出手，开源了一种全新的「游戏智能体」，能够实时让计算机使用智能体（CUA）运行解谜、益智等类型的游戏。

结果显示，Claude 3.7 Sonnet玩超级马里奥足足撑满90s，直接碾压了OpenAI、Gemini和自家前辈；而GPT-4o一上来就直接挂掉了……

谷歌选手Gemini 1.5 Pro首战即败，而且非常有规律地两步一跳。到了Gemini 2.0虽多走了几步，最终还是栽坑。

GamingAgent项目代码已开源，下载安装即可观战AI游戏大PK。

GPT-4.5反应迟钝，GPT-4o永远被第一个小怪杀死

GPT-4o总是被第一个小怪杀死，像极了操作很烂会被队友喷的游戏菜鸡。

短短20s，游戏就结束了。

相比之下，GPT-4.5的表现就好多了，起码没卡在第一个小怪。

但它的反应还是很迟缓，几乎是两步一停。

跳过一个矮水管之前，也要犹豫片刻，感觉像是刚学会了游戏操作，还在蹒跚学步。

一个稍高点的水管，尝试了7次，足足花了10s才跳了过去。

好不容易跳了过去，就撞到小怪死掉了。第一回合就这样告终了。

更好笑的是，第二回合的时候，GPT-4.5又栽倒在了第一个小怪那里。毕竟和GPT-4o同属于OpenAI家族，操作都比较菜（bushi）。

第三回合表现也比较一般，还不如第一回合。第一个矮水管就卡了半天，搁水管底下卡了快10s才想起来跳。

最后虽然丝滑地跳过了第二个水管，但还是被小怪杀死了，还没有第一回合走得远。第一回合起码跳过了第三个水管，虽说刚跳过就被杀了。

Gemini 1.5两步一跳，2.0栽进坑里

到了谷歌这边，Gemini 1.5 Pro首战也不如意，没能逃过第一个小怪的魔爪。

第二回合Gemini 1.5算是躲过了第一个小怪，甚至还碰到了问号箱，吃到了蘑菇。

有趣的是，和GPT-4.5两步一停不同，Gemini 1.5是「两步一跳」。

走了这么一小段路，一共就跳了9回。地板上也跳一跳，水管上也跳一跳。

最后也是跳过了第三根水管，甚至差点跳过了第四个，算是走得比GPT-4.5要远。

至于更新的Gemini 2.0 Flash，表现上不出意外地要好得多。

首先，跳得更大胆；其次，跳得也更流畅。

跳到了「前人」未曾涉足的更高的平台上，而且10s就轻松跳过了前面三个水管。

虽然第二回合的时候也惨遭第一个小怪的毒手。

但最后走得比OpenAI家族和Gemini 1.5都远——跳过了第四根水管，栽倒在了一个没能跳过去的坑中。

Claude 3.7 Sonnet发现隐藏奖励

相比之下，Anthropic的Claude，就要惊艳多了。

相比于Gemini两步一跳的操作，Claude 3.7的操作更加丝滑，走得也远很多。

尤其是在跳跃的时机上，显得更有章法，碰到水管、碰到坑才会跳。

此外，还会有意识地通过跳跃来躲避小怪。

跳过了Gemini 2.0 Flash两回合都没跳过去的坑，Claude操作下的马里奥终于是吃到了金币；终于是碰到了除了哥布林（形似蘑菇）之外的小怪——库巴（形似乌龟）；甚至还碰出了隐藏奖励——超级星星。

最后是掉到了阶梯平台之间的坑里，结束了游戏。

AI大战2048益智游戏，GPT-4o拿不出手

接下来，再看一个益智类的游戏2048。

可能很多人对这款游戏并不熟悉，规则是通过滑动进行拼图，玩家将带有相同数字的方块合并，达到可能最高的数值。

GPT-4o在挑战过程中，因为思考过久，陷入困境。

而Claude 3.7虽多走了几步，比GPT-4o强不少，但最终还是以失败告终。

俄罗斯方块，智商在线

那么Claude 3.7玩俄罗斯方块的表现，又如何呢？

Anthropic开发者关系负责人Alex Albert称赞道，「非常酷！我们需要把每一款电子游戏都变成一种评估工具」。

已经有网友在评论区许愿，让Grok 3加入战场。

看来，LLM评估即将开辟一条全新的路。

上一篇：NYU教授震怒警告：孩子不学编程，只会葬送美国未来

相关资讯更多+

Claude 3.7硬控马里奥90秒，GPT-4o开局暴毙，Karpathy直呼基准失效，游戏成LLM评估工具
Karpathy发出灵魂拷问，评估AI究竟该看哪些指标？答案或许就藏在经典游戏里！最近，加州大学圣迭戈分校HaoAILab用超级马里奥等评测AI智能体，Claude3 7结果令人瞠目结舌。LLM评估基准的「黄金标准」，正在失

AI教程资讯 2023-04-14
NYU教授震怒警告：孩子不学编程，只会葬送美国未来
专栏作家KevinRoose发文称，门外汉用AI就能开发出App，并表示程序员前途不妙。马库斯公开表示KevinRoose只是重复了别人的创意，所做所为是贩卖焦虑，误人子弟，一旦小孩信以为真，不学编程，美国科技业将万劫不

AI教程资讯 2023-04-14
当消费金融接入DeepSeek，行业发生哪些改变？
DeepSeek的浪潮蔓延至消费金融领域，其创新性、科学性和革命性受到业内认可，同时展现出显著的技术优势和应用潜力。但也有从业者指出，部分金融机构接入DeepSeek更多是出于追逐热点，而非实质性提升科技能力，实

AI教程资讯 2023-04-14
大模型的“三重门”，AI的尽头是什么？
1956年夏天，新罕布什尔州达特茅斯学院迎来了一场特殊的学术聚会。当数学教授约翰·麦卡锡在会议提案中首次写下“ArtificialIntelligence”这个术语时，或许未曾料到，这场原本计划用两个月时间“彻底解决机器模拟智

AI教程资讯 2023-04-14

最新录入更多+

Rask
学术论文丨 9.9MB
下载
SteveAI
学术论文丨 9.9MB
下载
Pictory
学术论文丨 9.9MB
下载
Elai.io
学术论文丨 9.9MB
下载
AVCLabs
学术论文丨 9.9MB
下载
Colossyan
学术论文丨 9.9MB
下载

热门推荐更多+

MedRAG – 南洋理工团队推出的医学诊断模型

2025-04-21

AI专辑热门专辑

【AI教程资讯】 SPAR3D – Stability AI等机构推出的单试图重建 3D 网络模型 01-13
【AI教程资讯】 Agent Laboratory – AMD 联合约翰·霍普金斯大学推出的自主科研 Agent 01-13
【AI教程资讯】 rStar-Math – 微软推出的小模型复杂推理与自进化SLMs的创新技术 01-13
【AI教程资讯】 Hallo3 – 复旦联合百度开源的高动态与真实感肖像动画生成框架 01-13
【AI教程资讯】 MedRAG – 南洋理工团队推出的医学诊断模型 04-21
【AI教程资讯】 ConceptMaster – 高保真多概念视频定制生成的创新 AI 框架 01-13
【AI教程资讯】 OpenAI o3 – OpenAI推出的新一代最强推理模型 01-23
【AI教程资讯】 Eino – 字节跳动开源的大模型应用开发框架 03-22
【AI教程资讯】 UniReal – 港大联合 Adobe 推出的通用图像生成和编辑框架 01-22
【AI教程资讯】万相2.1 – 通义万相最新推出的视频生成模型 01-13

AI工具推荐更多+

1

Rask 9.9MB

AI视频本地化解决方案，支持超过130种语言
2

AiPPT 9.9MB

2025顶尖智能网页抓取工具排名-2025哪款网页抓取器效率最高
3

SteveAI 9.9MB

Animaker旗下AI在线视频制作工具
4

笔灵AI写作 9.9MB

2025顶尖智能网页抓取工具排名-2025哪款网页抓取器效率最高
5

巨日禄AI故事绘图 9.9MB

2025顶尖智能网页抓取工具排名-2025哪款网页抓取器效率最高
6

Pika 9.9MB

Pika是近期热门的人工智能初创公司Pika Labs推出的AI视频生成和编辑工具，该工具可以将任何创意转化为视频，用户只需输入文字或图像，即可快速生成3D动画、动漫、卡通、电影等风格的视频。

确定